¿Por qué debo creerme una métrica calculada a partir de una muestra si cambiando la muestra cambiaría el valor?

Esta es una pregunta que, como estadística, me han hecho incontables veces y muchas de ellas en el entorno del samplig (injustamente tratado de forma habitual como el demonio) de Google Analytics.

Dado este fenómeno reiterado he creído que era un buen tema a tratar en un post.

muestreo

La respuesta constituye la esencia de la teoría del muestreo estadístico y para responderla vamos a focalizarnos en el tiempo medio en el site. La clave reside en las buenas propiedades de los estimadores utilizados habitualmente, entre ellos por supuesto la media, que son las siguientes:

1. El valor medio de la media muestral coincide con la media poblacional.

Es evidente que la media varía de una muestra a otra (si de un total de 1000 visitas cojo una muestra de 100 el tiempo medio será uno, si cojo otra muestra de 100 el tiempo medio será distinto seguro). Sin embargo, si repitiéramos este proceso de substraer muestras (cosa que no hacemos en la práctica), todos estos valores distintos de la media muestral estarían agrupados (con mayor o menor dispersión) entorno a la media poblacional. Cuando un estimador tiene esta propiedad se dice que es un estimador insesgado.

Esto nos deja algo más tranquilos pero no del todo ya que, como hemos apuntado antes y seguro que está retumbando en vuestra mente, nosotros solo tenemos una de esas estimaciones y por tanto desconocemos si está cerca o lejos de la media poblacional también desconocida que queremos estimar.

Para quedarnos más tranquilos sobre este aspecto tenemos la segunda propiedad.

2. La variabilidad del estimador (media muestral) disminuye al aumentar el tamaño de muestra.

Los datos en sí tienen una variabilidad que a menudo olvidamos pero que siempre está allí y conviene tener presente como comentamos en anteriores posts. Conocer dicha variabilidad ya presente en los datos poblacionales (todas las visitas de mi site no están el mismo tiempo en él) nos permite calcular el tamaño necesario de muestra para que, por ejemplo, el 99.7% de las medias muestrales estén a una distancia de menos de dos unidades de la media poblacional.

De esta forma, mediante cálculos estadísticos, se puede determinar cuál es el tamaño de muestra necesario para garantizar esta precisión en nuestra estimación (para vuestra tranquilidad diré que el tamaño de muestra no crece proporcionalmente al tamaño de la población, tema que trataremos en otro post si queréis). Este es un trabajo que, en el caso del sampling en los reports de Google Analytics, desempeña Google sin dar demasiadas explicaciones al respecto. Se trata una vez más de un acto de fe por nuestra parte (no mayor a los que hacemos habitualmente) que consiste en creer que el equipo de Google tiene conocimientos básicos de muestreo estadístico. Preguntarse por qué no dan detalles sobre ello es natural en el caso de personas curiosas y os aseguro que a mí me ha pasado reiteradas veces, pero reflexionando en frío debemos pensar que tampoco nos dan detalle de muchos otros aspectos técnicos ni creo que puedan hacerlo dado que estarían haciendo público su producto. En el caso del muestreo resulta tan claro y evidente cómo se debe hacer que es impensable que Google no lo gestione de la forma adecuada.

Así que, a pesar de conocer una única estimación del valor que queremos conocer, sabemos que “casi” en todos los casos va a estar muy cerca del valor poblacional. Cuando haces una estimación de este tipo no puedes asegurar que tu estimación no sea una de esas tres de cada mil que caen más lejos de la media poblacional, pero este es un riesgo que debemos estar dispuestos a asumir SIEMPRE que trabajemos con estimaciones estadísticas (encuestas, tests de calidad en procesos industriales, estudios de mercado, etc.). Trabajando con el umbral del 99.7% tenemos que pensar que, el hecho de que nuestra media quede a una distancia superior a la de dos puntos es como si compráramos 997 boletos en una rifa con 1.000 boletos a la venta y no nos toca el premio (hay que ser muy gafe para que esto pase).

Resumiendo: que siempre que queremos hacer cálculos en base a una muestra corremos el riesgo de equivocarnos, pero este riesgo se puede controlar 🙂

Autor:

R&D Vertical Leader y Senior Analyst Consultant en Metriplica. Es Licenciada en Ciencias y Técnicas Estadísticas y tiene un máster de Estadística e Investigación Operativa. Además tiene un postgrado en marketing y analítica digital y es consultora autorizada de Google Analytics.

Leave Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.