Asistimos a Vertical Big Data Days 2: Brand Analysis in social network

Las redes sociales proporcionan una ingente cantidad de datos, pero la mayoría sin etiquetar. El Deep Learning nos ayuda a explorarlos para obtener insights sobre nuestra marca.

Introducción.

La semana pasada tuvimos la oportunidad de asistir a Vertical Big Data Days 2: Brand Analysis in social network, un evento promovido por mVentures en el que Adrià Ciurana, Deep Learning / Computer Vision Engineer en SOAX y ex-alumno de Datahack, nos puso al día en el análisis de marca en redes sociales.

Una breve introducción al Deep Learning, en concreto el supervisado, al que pertenecen las redes neuronales. Partiendo de un input (vector de datos etiquetados) entrenamos un modelo que acabará prediciendo a qué categoría pertenece un nuevo elemento nunca antes visto.

Digamos que es una especie de caja negra, no sabemos muy bien qué ocurre dentro pero aporta una solución robusta que, además, mejora a medida que se sigue entrenando.

Lo que aporta el Deep Learning con respecto al Machine Learning es la modularidad y la paralelización.

Deep learning en redes sociales.

Estos métodos tienen diversas aplicaciones, desde datos procedentes de hojas de cálculo, a ficheros de texto, pasando por imagen, audio y video.

Nos centraremos en su uso para extraer datos de las redes sociales. Ej: análisis de etiquetas, análisis de sentimiento basado en comentarios, detección de logotipo en imágenes.

A partir de esta información podremos generar perfiles de usuario, encontrar influencers, evaluar el crecimiento de nuestro negocio, así como el grado de satisfacción.

Casos prácticos.

A continuación expondremos dos aplicaciones prácticas.

Detección de logotipo en imágenes.

Partiremos de un training set consistente en imágenes etiquetadas (1/0) según tengan o no nuestro logotipo.

El método usado será el CNN (Convolutional Neural Networks), que consiste en ir moviendo el patrón a lo largo y ancho de toda la imagen, dando un valor más alto en los puntos en que ambos se asemejan. Así, podríamos representar un mapa de calor sobre la imagen, donde aquellos puntos con valores más altos aparecen como ‘zonas calientes’ (en rojo, zona donde encontramos logotipo).

Pasando como input las imágenes etiquetadas a la red neuronal, tras n iteraciones se irá corrigiendo el output, de manera que el vector resultante se acabará pareciendo al vector etiquetado.

Análisis de sentimiento.

Mediante NLP (Natural Language Processing), intentaremos entender el significado de las palabras, extrayendo nuestro dataset a partir de los comentarios en la red social (vía web scraping).

Antes que nada habrá que preprocesar nuestros datos, para simplificar las entidades de una sentencia.

  • Tokenizar: proceso que separa los elementos de un texto (palabras, signos de puntuación, números…).
  • Eliminar signos, símbolos… nos quedamos sólo con palabras.
  • Eliminar stop words (artículos, preposiciones…).
  • Lematizar: segmentación de la palabra. Permite relacionar palabras con la misma raíz.
  • Comparar acrónimos.

Word2Vec se encarga de asignar una posición en el espacio a las palabras, tal que aquellas con mayor similitud se encontrarán agrupadas. De esta manera, podremos aplicar operaciones propias de vectores a palabras.
Ej: rey – hombre + mujer = reina

A la hora de generar el modelo podríamos calcular por separado las palabras y ver si son positivas o negativas, pero el orden es relevante, así que esta no será la estrategia a seguir.

Analizaremos de forma conjunta las palabras, para evaluar finalmente si una sentencia es positiva o negativa.

El método a seguir es el LSTM (Long Short – Term Memory), consistente en pasar la primera palabra al modelo, este recoge información y la pasa a la siguiente palabra (short), pero también guarda información relevante en la memoria (long). Así sucesivamente hasta la última palabra, que ya no propaga a la siguiente y nos devuelve si el resultado de la sentencia es positivo o negativo.

Conclusiones.

El Deep Learning es una herramienta de utilidad para extraer información de marca de las redes sociales, desde reconocer nuestro logotipo en imágenes a analizar el sentimiento en los comentarios.

Tips: Para finalizar esta interesante ponencia, Adrià nos recomienda el uso de PyTorch, la librería de Machine Learning para Python, así como Keras y TensorFlow. Para el pase a producción hace referencia a Docker.

Lourdes Hernández

Lourdes Hernández

Share on facebook
Share on twitter
Share on linkedin
Share on email
3 min
Suscríbete a nuestra newsletter

Los mejores artículos de analítica digital para potenciar tu negocio.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entradas relacionadas

Ir arriba

Esta web utiliza ‘cookies’ de terceros. Al clicar aceptar está aceptando el uso que realizamos de las cookies. Para más información puede consultar nuestra Política de cookies