8 consejos para aplicar con éxito la ciencia de datos

Índice de contenidos

Todos somos conscientes de que la información es oro, y que esta es clave para tomar las decisiones que nos hagan destacar en un mercado cada vez más competitivo. Pero no se trata solo de acumular datos, sino también de saber qué hacer con ellos, de aplicar correctamente las herramientas de la ciencia de datos. 

Por un lado, tenemos un negocio, con sus necesidades, las peculiaridades de su sector y todo el conocimiento acumulado por las personas que conforman la empresa. 

Por otro, una serie de técnicas y principios matemáticos que nos permiten entender y predecir ciertos fenómenos analizando los datos precisos. Llegamos a ello mediante la creación de un modelo, que no deja de ser una representación simplificada de la realidad. 

Para que ambas cosas encajen y la ciencia de datos nos permita ayudar a cubrir las necesidades del negocio, tenemos que plantear correctamente un proyecto de este tipo. 

A continuación, sin ánimo de bajar a un nivel muy técnico, enumeramos algunas buenas prácticas y consejos. 

Define correctamente y de forma precisa el objetivo

Se nos podría pedir que el análisis de los datos nos ayude a vender más, pero… ¿de qué estamos hablando realmente? ¿Queremos aumentar nuestra cartera de clientes, independientemente de lo que gasten? ¿Queremos aumentar los ingresos totales o los ingresos por cliente? ¿Queremos centrarnos en el margen?

Si queremos hilar más fino, incluso nos podríamos plantear un marco temporal y tratar de captar clientes potencialmente fieles que, en el largo plazo, aporten un valor de tiempo de vida interesante. 

La aproximación al problema puede ser muy distinta en función del objetivo exacto que se persiga. 

Si el problema es complejo, trocéalo

Entroncando con el siguiente consejo, ante un problema complejo, intentemos dividirlo en problemas más sencillos, a los que podamos encontrar soluciones individuales y después combinarlas. 

Por ejemplo, queremos mejorar el importe medio por transacción de una web de comercio electrónico mediante técnicas de venta cruzada lo más personalizadas posibles. A priori, puede parecer algo complejo. Pero podemos dividirlo en dos problemas más sencillos: 

  • Crear clasificaciones o perfilados de usuarios
  • Definir modelos de recomendación para cada una de esas categorías

No reinventes la rueda

Para cada problema, tras subdividirlo en problemas más sencillos si es necesario, ya existe al menos una técnica en la ciencia de datos que nos permite abordarlo. 

¿Queremos saber lo cerca de convertir que están los visitantes de nuestra web? Mediante técnicas de regresión, podemos estimarlo.

¿Queremos buscar posibles combinaciones de productos no obvias para crear ofertas conjuntas o nutrir nuestro recomendador? Entonces hablamos de un análisis de similaridad. Aplicado a productos, muchos lo conoceréis como Market Basket Analysis.

Es importante identificar desde un principio las técnicas a aplicar, por lo que resulta interesante que incluso los perfiles de gestión en este tipo de proyectos tenga, al menos, nociones sobre las diferentes técnicas y herramientas y sus posibles aplicaciones prácticas. 

Confirma si tenemos el conjunto de datos necesario o si podemos obtenerlo

Algunas técnicas de las que hablábamos requerirán unos datos de entrenamiento convenientemente etiquetados con el resultado (aprendizaje supervisado). Por ejemplo, crear un modelo de clasificación entre potenciales compradores y no compradores requeriría contar con un conjunto lo suficientemente grande de datos previos tanto de compradores como de no compradores. Aunque no es necesario tener el mismo número de cada, por supuesto. 

Simplificando, esto le permitirá al modelo “aprender” qué tuvieron en común tanto unos como otros y, ante un nuevo usuario, predecir en base a sus valores para los parámetros tomados en consideración si terminará comprando o no.

Si no tenemos esa información, deberemos plantearnos si es factible recopilarla o conseguirla de algún otro modo. Para un negocio que arranca, para un nuevo mercado o para una línea de productos completamente nueva, no contaremos con un histórico propio de datos de usuarios y ventas.  

Utiliza el conocimiento (propio o ajeno) sobre el negocio a la hora de definir y valorar un modelo

La construcción de un modelo que nos permita, por ejemplo, determinar qué clientes necesitan alguna acción de fidelización y cuáles no, en base a una ingente cantidad de datos (el dataset) que sobre ellos tenemos, puede resultar una tarea complicada. 

A la hora de seleccionar qué parámetros tendremos en cuenta y cuáles descartaremos de partida, es muy valioso contar con la sabiduría de aquellos que conocen bien el terreno, los clientes y sus problemáticas. Aunque ojo con los prejuicios y falsas asunciones o podríamos terminar con un análisis sesgado. 

También es importante su ayuda para valorar las repercusiones de los posibles errores de un modelo. Vemos más sobre esto a continuación. 

No siempre nos interesa lograr la máxima precisión

Como decíamos al principio, un modelo es una representación simplificada de la realidad que nos servirá para nuestro propósito: detectar posibles fraudes, escoger a los clientes potencialmente más valiosos, buscar relaciones entre productos o usuarios, etc. 

Cogiendo el primer ejemplo, los factores que pueden ayudar a predecir un futuro fraude pueden ser innumerables. Para que la aplicación del modelo sea viable (y no sólo por costes computacionales) debemos centrarnos en los factores más relevantes. 

Supongamos que el color de ojos pudiera llegar a tener algo que ver con las posibilidades de abandono de un cliente. Aun contando con que tuviéramos ese dato, seguro que hay muchos otros factores más relevantes, como el tiempo medio de resolución de sus reclamaciones e incidencias, sus retrasos en el pago de facturas, etc. 

Además, un exceso de detalle nos podría hacer entrar en el terreno del sobreentrenamiento. Nos interesa encontrar un buen equilibrio entre un modelo que describa adecuadamente la realidad de los datos con los que le hemos entrenado y la posibilidad de que generalice y pueda funcionar con los nuevos datos que le vayan llegando en producción, que no serán exactamente iguales que los iniciales. 

Exagerando un poco, ¿cuántos clientes nuevos que se llamen Antonio, pelirrojos, de Cáceres, que midan 1,77, que se dieran de alta un martes, que tuvieron una incidencia en festivo y solicitaron tres meses seguidos un duplicado de factura vamos a tener en un futuro? De poco nos sirve tener un modelo que nos diga que un cliente con esas características exactas nos abandonará en cuanto termine su periodo de permanencia. 

También entran en juego las implicaciones de los posibles errores. Aquí, como decíamos en el consejo anterior, nos servirá de mucho el conocimiento del negocio o del terreno en el que nos movemos. Podría ser preferible un modelo más “conservador” a uno más preciso pero más propenso a los falsos positivos, por ejemplo, cuando el coste de ese tipo de error no es fácilmente asumible. 

Para elegir entre diferentes modelos, se recomienda no basarse puramente en su precisión y apoyarse en técnicas como las matrices de confusión y el cálculo del valor esperado para cuantificar el impacto económico positivo de los aciertos y el negativo de los fallos (tanto falsos positivos como falsos negativos). Un modelo algo menos preciso podría acabar resultando más rentable que otro con una mayor tasa de acierto

Si no eres un científico de datos (es mi caso), no es necesario que sepas aplicar estas técnicas, pero sí es importante que conozcas de su existencia para recordar a tus magos de las matemáticas de cabecera que las tengan en cuenta.

No desprecies el valor del análisis de textos

Reivindiquemos a un gran olvidado. Cuando hablamos de modelos y análisis, casi siempre pensamos en variables numéricas o aquellas que permiten una sencilla segmentación o clasificación, como procedencia, tipo de dispositivo, categorías de productos vistos o comprados, etc. 

Desde las búsquedas en tu sitio web hasta los comentarios y valoraciones sobre tu producto en foros o redes sociales, algo tan aparentemente difícil de analizar de forma automática como una colección de textos, puede esconder oro. Incluso aunque, como en el caso de las reseñas, existan valoraciones numéricas que acompañan a los textos (sistemas basados en número de estrellas, nota, etc.). 

Podemos hablar de análisis tan sencillos como clasificar los comentarios o búsquedas en función de que contengan o no una serie de términos clave y sus variantes o de análisis tan complejos como analizar conjuntos de palabras y expresiones completas, teniendo en cuenta argots y localismos, para clasificarlos como comentarios negativos, positivos o neutros. 

En cualquier caso, existen herramientas comerciales que ya incluyen modelos muy avanzados y diccionarios predefinidos que facilitan mucho el trabajar con textos, aunque siempre se benefician de invertir en ellos cierto esfuerzo de personalización y localización. Un uso común es el análisis de reputación propia y de la competencia en redes sociales.

Evita en la medida de lo posible los modelos “caja negra”

Al igual que dijimos que es importante contar con el conocimiento y la experiencia de los que más saben sobre el negocio y sus problemáticas, también es crucial presentarles los modelos que desarrollemos de una forma que puedan comprender. De ese modo, entenderán mejor el trabajo que se ha hecho, comprobarán que el modelo tiene sentido y darán (esperemos) su aprobación para empezar a utilizarlos. 

Suele haber desconfianza hacia los modelos si no se sabe en base a qué toman sus decisiones o cómo calculan sus resultados. 

Conclusiones

Tan sólo os hemos dado algunas pinceladas sobre este apasionante y complejo tema. Embarcarse en un proyecto de este tipo implica aspectos propios de proyectos de ingeniería, pero también de investigación y desarrollo. 
Además de recomendaros la lectura del estupendo «Data Science for Business» de Foster Provost y Tom Fawcett y publicado por O’Reilly Media, libro que me inspiró en la redacción de esta entrada, siempre podéis contactar con nosotros y estaremos encantados de ayudaros a convertir los datos en información y la información en dinero.

Share on facebook
Share on twitter
Share on linkedin
Share on email
6 min
Suscríbete a nuestra newsletter

Los mejores artículos de analítica digital para potenciar tu negocio.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entradas relacionadas

User Activity API en R

El uso principal de esta API es poder obtener toda la información de un usuario dividida por hit. En este post veremos cómo utilizar la API desde R con ayuda del código y estudiar cuáles serían los resultados.

3 minutos

Dificultad

Aproximación al CLV

El CLV o LTV es una métrica que representa el beneficio económico que obtiene una empresa de un usuario a lo largo del ciclo de relación entre ambos. En este artículo veremos diferentes versiones de esta métrica y cómo calcularlas.

4 minutos

Dificultad

Comparativa de herramientas para procesos ETL

En este post haremos una revisión sobre algunos de los lenguajes/herramientas más utilizados en nuestro ecosistema de analítica digital en procesos de extracción, transformación y carga de datos.

3 minutos

Dificultad

Ir arriba

Esta web utiliza ‘cookies’ de terceros. Al clicar aceptar está aceptando el uso que realizamos de las cookies. Para más información puede consultar nuestra Política de cookies