Evento Big Data Spain 2018

El pasado 14-15 de noviembre, Metriplica asistió al Big Data Spain en Madrid, el mayor encuentro sobre Big Data e Inteligencia Artificial de España y el segundo más importante de Europa. El evento se dividía en dos clases de ponencias: las ponencias de negocio en las que se explicó los casos de éxito o los nuevos productos relacionados con machine learning e inteligencia artificial, y las ponencias técnicas, en las que se comentaron métodos útiles para el desarrollo del Big Data.

Conferencias de negocio

Spotify

Se explicó la importancia de la seguridad de los datos que utilizaba Spotify. Además, se resumieron los detalles técnicos de toda la infraestructura de datos que han construido para ser compatible con GDPR, así como los principales desafíos que encontraron en el camino.

BBVA

Explicaron cómo, con las técnicas de Big Data y Data Science de procesamiento de textos y data mining, extraen información incluida en los medios de comunicación, blogs, informes económicos y financieros, etc. en forma de texto, para complementar y mejorar las bases de datos estructuradas tradicionalmente utilizadas en la investigación económica. Con esta premisa su objetivo era analizar y estudiar la evolución de la temática en la economía, en concreto, en la política monetaria.

Análisis realizados

  • Sentimental analysis: Para estudiar el tono del artículo.
    • Palabras positivas: Beneficio, progreso, estabilidad.
    • Palabras negativas: Caída, decadencia, corrupción.
  • Clusters: Relación entre palabras.
  • Análisis de evolución: Comprobar las palabras más frecuentes a lo largo del tiempo para ver la evolución de los temas.
  • Estudio entre bancos

Vodafone

Explicaron que con el desarrollo de la tecnología móvil y con su gran uso, ya que, hay casi tantos teléfonos móviles en el mundo como humanos, se van dejando huellas digitales de nuestras interacciones físicas. En definitiva, los teléfonos móvilesse han convertido en sensores de la actividad humana a gran escala y también en los dispositivos más personales.

Se presentó algunas de las oportunidades en el uso de Big Mobile Data para el Bien Social, y se compartieron los desafíos existentes. Entre muchos estudios, se explicaron:

  • Estudios de población
  • Estudios de tráfico y transporte
  • Estudios financieros: La evolución del desarrollo socioeconómico de ciertos países.
  • Estudios sanitarios: Entendimiento de las epidemias. Por ejemplo, la malaria en Mozambique.

Cabify

Los dos objetivos principales de Cabify que necesitan uso de herramientas de machine learning son:

– Precio dinámico

  • Cada minuto se analizan 50k viajes recientes, especificando el tiempo de servicio
  • Se toma una decisión por sobre 125K celdas hexagonales, por las que se divide una ciudad.
  • A más escasez de servicio, más precio

– Sistema de correspondencia

  • Elegir para cada taxista un cliente.
  • Los conductores sólo están ocupados un 30 % del tiempo -> Un conductor de cabify está ocupado un 55% del tiempo

Conferencias técnicas

MLFlow

Has creado 100s de modelos al día para predecir el revenue, usando cualquier libraría: MLlib, PyTorch, R, etc… No hay una manera sencilla de ver los resultados de un modelo creado hace una semana y reutilizarlo.

Plataforma Open source de machine learning

  • Funciona con cualquier librería de ML y lenguaje.
  • Permite mezclar y elegir componentes en los workflows existentes.
  • Escala el big data con Apache Sparks

Paralelización con R

¿Cuándo utilizar paralelización?

  • Calculando las mismas cosas muchas veces: Iteraciones en un loop, dividir datos…
  • Los cálculos son independientes unos de otros.
  • Cada cálculo toma muchísimo tiempo

Solución: library(foreach)

Evolution Strategies

Se tratan de técnicas para problemas de optimización que pueden extrapolarse a problemas de clasificación. Estos métodos utilizan técnicas tradicionales para la obtención de óptimos locales, como el crossover, la mutación, etc.

  • Evolution Strategies ofrece muy buenas soluciones para problemas de optimización.
  • Son muy útiles en las implementaciones de múltiples agentes para resolver problemas complejos.
  • El tiempo de entrenamiento está en el margen de segundos y las ejecuciones en el margen de milisegundos.
  • Esto permite un reentrenamiento frecuente con un uso relativamente bajo de recursos.

 

En definitiva, fue un evento completo y gratificante para continuar en el desarrollo de nuestro aprendizaje.

Autor:

Leave Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.