Democratización de BigQuery ML

Índice de contenidos

En el post BigQuery ML: machine learning desde BigQuery, ya os introducíamos BigQuery ML, una de las herramientas de Google destinadas al uso de machine learning. 

No se trata de la primera ni de la última herramienta de machine learning que Google pone a nuestra disposición, pero es importante destacarla cuando hablamos de ‘democratización’

Para introducir este concepto, quiero empezar por hablar de los diversos roles de Data Analyst que nos encontramos en el mercado. Hay quienes se entregan en el día a día al SQL y otras herramientas analíticas, pero no tienen conocimientos suficientes en programación para adentrarse en herramientas estadísticas de ML. Otros que, además de conocer SQL, están familiarizados con R o Python y se encuentran con problemas de escalabilidad o memoria de la computadora para entrenar modelos de ML.

Estos dos perfiles tienen una cosa en común, el uso del SQL. Pues bien, BigQuery ML integra el tratamiento de grandes volúmenes de datos de BigQuery y el poder entrenar, evaluar, y desplegar un modelo de machine learning únicamente mediante lenguaje SQL

Solo se necesita aprender unas cuantas instrucciones SQL más a las que ya conocemos, y algunas nociones de estadística aplicada al ML. 

Evolución de la herramienta

Desde hace más de dos años de su lanzamiento, la herramienta ha madurado muchísimo, y destacamos lo que para nosotros son los tres grandes puntos de mejora.

  • El lanzamiento e inclusión de más modelos de predicción. Entre otros, ya es posible entrenar un modelo de Red Neuronal Profunda basado en Tensorflow con SQL.
  • Correcta codificación de las variables categóricas en variables dummy para modelos predictivos. En sus inicios, BigQuery ML transformaba en un modelo de predicción/regresión/clasificación las variables categóricas en n variables binarias. Esto no es lo más recomendable cuando tratamos de estudiar las correlaciones, como tratábamos en el anterior post.
  • La posibilidad de entrenar un modelo de clustering con datos mixtos. En sus inicios únicamente estaba disponible el clásico algoritmo k-means para tratar variables numéricas, pero todos conocemos que esto es una limitación en cualquier BBDD… 😉

Flujos de trabajo

BigQuery como herramienta dataLake de almacenamiento y tratamiento de grandes volúmenes de datos.

BigQuery ML para dar sentido y valor a esos datos.

La fusión de ambas herramientas nos da la posibilidad de montar a nuestro gusto y disposición un ecosistema de datos similar a un DMP (data management platform): unificamos datos de primera parte, datos de DMPs, de Google Analytics y otras herramientas publicitarias.

Mostramos un ejemplo:

 En el anterior flujo de trabajo recolectamos datos de CRM y los almacenamos diariamente en BigQuery. Los datos de Google Analytics también están almacenados aqui. De esta manera, y con las herramientas necesarias (máquinas virtuales, APIs de Google, cloud functions..), fusionamos toda la información con un identificador común a todas las fuentes, generando así los clústers. 

De BigQuery ML a la acción 

Para poner el broche final, lo último que necesitamos es explotar los resultados obtenidos. Con ayuda de la API de administración de Google Analytics, es posible hacer un data import a la herramienta donde finalmente crear las audiencias oportunas que serán tomadas por herramientas publicitarias. 

¡O incluso para enriquecer el dato en el CRM!

Conclusión

En base a nuestra experiencia, la fase de definición de las audiencias es crítica, pues se debe basar en criterios adaptados a cada clúster para que los resultados (CTR de las campañas, ROAs y ecommerce conversion rate) sean satisfactorios. Por ello es primordial mantener una comunicación activa y continua con el equipo de marketing del cliente, para guiarles en todo el proceso: desde la creación hasta la activación de la campaña.

Share on facebook
Share on twitter
Share on linkedin
Share on email
2 min
Suscríbete a nuestra newsletter

Los mejores artículos de analítica digital para potenciar tu negocio.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entradas relacionadas

¡Hola TensorFlow!

TensorFlow es una de las herramientas más potentes qué conocemos enfocadas al machine learning.

3 minutos

Dificultad

BigQuery ML: machine learning desde BigQuery

Hace unos meses Google anunció una nueva funcionalidad de Google BigQuery llamada BigQuery ML, la cual está actualmente en Beta. Consiste en un conjunto de extensiones del lenguaje SQL que permiten crear modelos de aprendizaje automático (machine learning, en inglés), evaluar su capacidad predictiva y hacer predicciones para nuevos datos directamente desde dentro de BigQuery.

¿Qué es Google Cloud Platform?

Este post forma parte de un seguido de posts relacionados con la Google Cloud Platform. Al ser el primero, vamos a introducir los diferentes productos y servicios que integra la plataforma para tener una idea de su potencial y versatilidad. Introducción Gooogle Cloud Platform, es una suite que contiene diversos servicios que funcionan en la

Inteligencia Artificial, Machine Learning y Deep Learning

La inteligencia artificial es la tecnología más avanzada en lo que al tratamiento del dato se refiere.  Los coches autónomos y robots inteligentes son, entre otros, los campos de investigación en los que la inteligencia artificial juega un papel fundamental. También en la analítica web (y omnicanal) ya son varias las empresas que automatizan tareas de

Ir arriba

Esta web utiliza ‘cookies’ de terceros. Al clicar aceptar está aceptando el uso que realizamos de las cookies. Para más información puede consultar nuestra Política de cookies