La variabiliad en las métricas: El usuario medio no existe

VariabilidadEstamos muy acostumbrados a trabajar con los valores puntuales de las métricas y, cuando nos hablan de intervalos de confianza o rangos, a menudo no sabemos muy bien qué son o no acabamos de encontrar el modo adecuado de usarlos. Sin embargo, al quedar con los amigos no se nos hace extraño decir: “me paso por tu casa entre las 17:00 y las 17:30”. Entonces, ¿Por qué no usar esta información en nuestros cuadros de mando y/o en nuestros informes?

Nota: Al final de post os adjuntamos una plantilla de Excel para que podáis calcular la variabilidad de vuestras métricas. 

De echo al trabajar con los rangos o los intervalos de confianza (o algunas herramientas gráficas, como veremos en este post) estamos teniendo en cuenta la variabilidad, medida de dispersión imprescindible en estadística que nos aporta esta información tan importante sobre la métrica estudiada.

Para trabajar con este tipo información necesitamos tener datos desagregados, cosa que GA no nos facilita de entrada. Este es el primer problema con el que nos encontramos y puede que sea una de las causas por las que la variabilidad ha quedado olvidada por todos (o la gran mayoría) al hacer cuadros de mando y otros reportes de métricas web. Dicho problema puede solucionarse de forma relativamente fácil pidiendo un reporte en el que GA nos facilite la métrica deseada, por ejemplo, por los distintos días del mes (es lo que os proponemos dado que la mayoría de reportes se hacen con una periodicidad mensual y que al hacerlo así obtenemos una desagregación de tantas observaciones como días tenga el mes en el que trabajemos).

Haciéndolo así obtendríamos unos datos con una forma así:

diagrama-dispersion-excel

Una vez solucionado el problema de los datos, volvamos a retomar el tema de la variabilidad mediante un ejemplo. Seguro que todos estamos de acuerdo en que los siguientes dos sites tienen un número de visitas similar:

#visitas site A: 24985                                                   #visitas site B: 25266

Sin embargo si vamos algo más allá y estudiamos su dispersión mediante algunas de las herramientas con las que se puede hacer vemos lo siguiente:

#visitas site A: 24985                                                   #visitas site B: 25266

variabilidad-excelcalcular-variabilidad-excel

 

 

 

 

 

Ahora ya no parecen sites tan parecidos, ¿no? Tienen una misma tendencia central sin embargo el site A tiene un comportamiento mucho más constante con respecto a las visitas mientras que el número de visitas en el B tiene mucha más variabilidad.

Herramientas para visualizar la variabilad de las métricas

Veamos algunas herramientas que se pueden utilizar para trabajar teniendo en cuenta la variabilidad (las que yo he utilizado en este caso):

1 – Numéricas

Dentro de este grupo encontramos:

  • La desviación estándar es la medida directa de la dispersión expresada en la misma unidad que los datos originales (elevada al cuadrado es la varianza, así que es equivalente trabajar con una u otra solo que con la desviación tenemos la ventaja de las unidades). El problema que tiene esta medida es que no acostumbra a ser de fácil interpretación, así que en este caso la usaremos simplemente como herramienta para la construcción del intervalo de confianza.
  • El intervalo de confianza nos informa de entre qué valores se espera que se encuentre la media en el 95% de los casos (habitualmente, también se puede trabajar con otros valores como el 99%). Es útil para cuando ha habido sampling en los datos y se construye suponiendo que la variable sigue algún tipo de distribución (en nuestro caso la normal) y hay que tener en cuenta eso al usarlos.
  • El rango da información sobre entre qué par de valores se encuentran unos datos concretos, ya que se construye mediante el máximo y el mínimo de dichos datos. Al usarlos hay que ir con cuidado ya que si en nuestros datos hay valores muy extremos afectarán muy fuertemente los valores del rango.

2 – Gráficas

En este grupo podríamos encontrar numeroso gráficos estadísticos, pero en este caso nos centraremos en el diagrama de dispersión.

Este diagrama se construye de forma muy sencilla representando cada observación mediante un punto en un plano. El resultado ya lo habéis visto antes en el ejemplo y podéis probarlo vosotros mismos en la aplicación de Excel que os dejamos al final del post.

La interpretación es sencilla y directa: si los puntos aparecen cerca unos de otros (como en el site A del ejemplo) se trata de unos datos con poca dispersión, mientras que si aparecen separados (parecido al site B) se tratará de una métrica dispersa.

Llegados a este punto puede que se presente la siguiente duda: “¿Cuándo diremos que los datos tienen o no una alta dispersión?” Pues siento deciros que para esta pregunta no tengo una respuesta absoluta. Bajo mi punto de vista tiene sentido hablar de mucha o poca dispersión si se está llevando a cabo una comparativa, como por ejemplo entre la misma métrica en distintos sites o la misma métrica en el mismo site en periodos de tiempo distintos. Esta última opción me parece la más interesante para usar en los cuadros de mando, dado que así podremos saber si nuestros usurarios se comportan de una forma más homogénea que en periodos anteriores o si, por el contrario, cada vez son más erráticos en su comportamiento (observamos mayor variabilidad).

Recordad que no tenemos por qué elegir únicamente una herramienta o una métrica, podemos utilizar distintas para que se complementen, eso siempre dependerá de las necesidades que se nos presenten en cada caso concreto. Y que ahora tampoco es necesario presentar en todos los casos medidas de la variabilidad, ya que en algunos con los valores puntuales tendremos suficiente. Eso sí, siempre es importante tener claro que la variabilidad está allí y que no está nunca de más echarle una ojeada para conocer más sobre el comportamiento de las métricas y, en definitiva, del Site.

Así que os invito a todos a que empecéis a explorar el interesante y, bajo mi punto de vista, imprescindible mundo de la variabilidad; ya sea con la aplicación de Excel que os dejo a continuación para empezar con ello o aventurándoos con herramientas más potentes como R (del que seguro que acabaremos hablando en otra ocasión).

DESCARGAR EL EXCEL PARA EL CÁLCULO DE LA VARIABILIDAD

Autor:

R&D Vertical Leader y Senior Analyst Consultant en Metriplica. Es Licenciada en Ciencias y Técnicas Estadísticas y tiene un máster de Estadística e Investigación Operativa. Además tiene un postgrado en marketing y analítica digital y es consultora autorizada de Google Analytics.

4 Comments

  1. Aintzane

    Gracias Anna por divulgar un poquito más nuestro trabajo!!!

  2. Anna Fernández

    Gracias a ti por leer. Divulgar la estadística es necesario y por mi parte es todo un placer haber podido poner mi mini-granito de arena en el mundo de la analítica web. Habrá más granitos 😉

  3. Felipe

    Es muy importante lo que planteas Anna. El 99% de las ocasiones nos quedamos con el valor promedio, sin reparar siquiera cuál es la dispersión de los datos. En Google Analytics hay algunos reportes que nos ayudan en algo, como son los de frecuencia de visita y número de páginas por visita.
    Saludos!

  4. Anna Fernández

    Gracias Felipe! Es cierto que algunos reportes de GA ayudan a dar una cierta idea, pero bajo mi punto de vista la información que da GA sobre la variabilidad se queda muy corta por lo buena que es la herramienta en general. De todas formas siempre van bien unos consejos sobre métricas, así que Merci 🙂

Leave Comment

Your email address will not be published. Required fields are marked *