4 soluciones al problema del sampling en Google Analytics

Por el 12/12/2012 a las 19:15

datos-google-analyticsEn este artículo os voy a enseñar los métodos que podemos utilizar para evitar el problema del sampling o de “sampleo” de datos en Google Analytics por el cual perdemos una gran precisión en los análisis. Si no conseguimos rescatar todos los datos que “nos oculta” Analytics  podríamos acabar tomando decisiones equivocadas y hacernos perder mucho dinero en nuestro negocio.

Quizás haya gente que no sepa que “padece de sampleo crónico”, pero seguro que en numerosas ocasiones se ha peleado con Analytics porque no le coincidían las mismas métricas de un informe a otro ¿os suena ahora?

Si no fuera por esto, Analytics sería par mi la mejor herramienta de Analítica Web del mercado. Pero tampoco nos podemos quejar por eso ya que, “es gratis” ;)

¿Qué es el sampling?

El sampling es un método estadístico por el cual se trabaja con un subconjunto de datos suficientemente significativo como para que represente a todos ellos. A Google esto le supone un ahorro de costes en procesado de datos y conseguir más velocidad en la aplicación de reportes o determinadas querys cuando la cantidad de datos en muy grande.

sampling-google-analytics

¿Cuándo se produce el sampling en Google Analytics?

Se produce cuando hacemos cualquier tipo de consulta específica que trabaje con más de 500.000 sesiones (por web property) no almacenadas, es decir, que no estén por defecto y necesiten de un cálculo.

También cuando solicitamos un informe que contenga más de 1.000.000 de valores de dimensión (resultados). Por ejemplo, si solicitamos un informe de contenido que nos debiera de devolver 1.000.000 URLs únicas, Analytics divide este dato entre el rango de días aplicado. Si es de un mes entonces tendríamos unas 30.000 URLs únicas (1.000.000/30).

En resumen, el sampling se produce cuando hacemos reportes personalizados, segmentos avanzados o dimensiones secundarias sobre muuuchos datos.

¿Qué consecuencias tiene?

Pues básicamente que no nos podemos fiar de los datos que nos muestra Analytics en un reporte sampleado y cualquier decisión basada en éstos puede hacer que nos equivoquemos y podríamos llegar a perder mucho dinero.

Observad un ejemplo que nos podemos encontrar en el día a día. Queremos ver qué palabras clave orgánicas de no marca (non branded) nos están trayendo ingresos a nuestro ecommerce. Para verlo podríamos ir a la pestaña de ecommerce del informe de Fuentes de tráfico >> Búsqueda >> Orgánico y aplicaríamos un segmento avanzado que excluyera las palabras clave de marca.

Nos vamos a fijar  ahora en una palabra clave en concreto, “el invierno del mundo”.

problema-medicion

Como podéis ver, al eliminar el efecto del sampling de repetente esa keyword nos está dando más visitas y dinerito (1.420,36 €) y no lo sabíamos! ¿Qué habría pasado si hubiésemos decidido dejar de potenciar esa palabra clave (y todas las demás que aparecen con 0€)?

dinero-seo

Y ahora me diréis, ¿ no habías dicho al principio que los datos tenían que ser representativos? – Sí. - ¿Entonces? – Con las visitas sí que lo suelen ser pero donde falla siempre es con otras métricas como los ingresos…

Por cierto, si queréis aprender a medir el SEO con Google Analytics he montado un vídeo tutorial que podéis comprar aquí.

¿Cómo podemos evitarlo?

1 – Aumenta la precisión

Cuando os aparezca el mensaje de que el informe se basa en un % del total de las visitas podéis aumentar la precisión desplazando al máximo el siguiente selector:

 aumentar-precision
Como vemos, estamos trabajando con una muestra más grande pero aun así esto no nos suele solucionar el problema.

2 – Reduce la muestra

Como el problema del sampleo se produce con muchos datos lo que podríamos hacer es reducirlo aplicando rango de fechas más pequeñas, de este modo tendremos menos datos y con suerte se solucionará el problema. Pero como consecuencia no podremos analizar periodos de tiempo más largos.

3 – Segmenta tus datos de forma inteligente

Evita en lo posible utilizar reportes personalizados, segmentos avanzados y dimensiones secundarias que trabajen con más de 500.000 sesiones y/o que necesiten mostrar un resultado de más de 1.000.000 en el periodo.

En el ejemplo anterior donde os he mostrado el efecto del sampleo con la palabra clave “el invierno del mundo” en concreto, en lugar del segmento avanzado he utilizado un filtro avanzado eliminado las Keyword de marca.

filtro-avanzado

 También os aconsejo que tengáis los datos desagregados en perfiles diferentes (por países, fuentes, subdominios, etc.), pero para ello es necesario haberlo hecho previamente al análisis ya que los perfiles no trabajan con el histórico. Y como siempre recomiendo, exportad la información con la API de Analytics y trabajad dentro de Excel.

4 – Déjate la pasta

google-analytics-premiumSi queréis evitar el sampling la mejor solución es comprar GA Premium. Empresas con una gran cantidad de datos que tratar necesitan de esta información como sea, hablo de compañías aéreas, grandes cadenas hoteleras, grandes ecommerce… En este post podréis saber si Google Analytics Premium para vosotros.

Y este apunte aunque no viene al caso, tengo que decirlo porque cada vez me encuentro a más personas expandiendo el bulo. GA Premium es muy bueno y bonito (no barato), pero las palabras clave not provided van a seguir apareciendo tengas el Premium o no. Simplemente la palabra clave no se envía a través del referrer si estás logueado en Google y ¡eso no hay herramienta que lo recoja! Además, he visto con mis propios ojos el not provided en GA Premium… Así que por favor, dejad de decir que se ven (o verán) las not provided!

Y ya que hablamos de las not provided, como curiosidad, se prevee que para 2017 no tendremos keywords orgánicas