Regresión Lineal

Este post forma parte de un seguido de posts en que introduciremos de manera básica, técnicas estadísticas utilizadas para predecir, clasificar, etc. En el primero de estos posts tratamos la regresión lineal. 

Regresión Lineal

La regresión lineal es una técnica estadística utilizada para predecir el resultado de una variable numérica continua. Por ejemplo, esta variable numérica podría ser:

  • Días que el usuario tardará en volver al site.
  • Total de sesiones al final del día.
  • Total de usuario al final del día.

La idea es poder predecir el valor de la variable numérica a través de otras variables. La variable numérica que queremos predecir la llamamos variable respuesta y las variables a través de las cuales predecimos son las variables explicativas.

Los nombres tienen sentido, la variable respuesta responde a una pregunta: ¿en cuántos días comprará? Y las variables explicativas son las que, nos gustaría que explicaran la variable respuesta: tiempo desde la última sesión, revenue medio por sesión…

Y digo que nos gustaría, porque a veces los modelos no se ajustan bien. Esto quiere decir que el conjunto de variables explicativas que hemos escogido no es el correcto, porque no explican la variable respuesta suficientemente bien. Hay distintas técnicas para evaluar el grado de ajuste de un modelo, explicamos una más adelante.

Para poder predecir una variable, necesitamos saber cómo se comporta esta variable. Necesitamos una muestra de entrenamiento. Esta muestra es a partir de la que entrenaremos el modelo. De esta manera el modelo captará la información necesaria de cómo se comporta la muestra para poder predecir más adelante. Esta muestra por tanto, debe tener información de las variables explicativas y de la variable respuesta. Por ejemplo, para un grupo de usuarios, debemos conocer, como variables explicativas, su tiempo desde la última sesión, su revenue medio por sesión, … y también la variable respuesta que es el total de días que el usuario tardó en volver al site.

La idea es buscar la combinación lineal de las variables explicativas que más se aproxime al valor real de la variable respuesta, a través de los datos de entrenamiento. Y que por tanto, que esta combinación nos sirva después para predecir la variable respuesta, en los casos que no dispongamos de ella.

 

Fórmula genérica

La fórmula genérica de una regresión lineal múltiple (con varias variables explicativas), para los datos del usuario i es la siguiente:

Con yi como variable respuesta real y xk,i  como las variables explicativas. Las  βk son parámetros que desconocemos a priori y que debemos encontrar. Estas βk nos medirán la influencia de cada variable explicativa en la variable respuesta. Más adelante entramos en más detalle. Y εi corresponde a la aleatoriedad que no se recoge en las variables explicativas. Será el error de la predicción de cada usuario.

Para poder crear un modelo de regresión lineal es necesario que éste error cumpla varios requisitos de un nivel teórico superior al de este post y por esto no los detallaremos, pero se deben considerar al hacer una regresión lineal. Más información en Supuestos del modelo de regresión lineal

 

Mínimos cuadrados ordinarios

La manera de encontrar los mejores valores de estos parámetros es mediante el método de mínimos cuadrados ordinarios.

Tenemos que:

donde y’i corresponde a la estimación de  y para el usuario i.  Y βk son los parámetros incógnita.

Y el valor real de y es la estimación y’ más el error:

Queremos encontrar β tal que minimice el error al cuadrado, osea la diferencia al cuadrado entre yi y y’i:

Pero considerando las estimaciones de todos los individuos, así, queremos encontrar que minimice la suma de todas las diferencias:

 

Evaluar la bondad del modelo

Una manera de evaluar la bondad del ajuste es comparar la variancia de la estimación y la del valor real.

Recordamos que la variancia de un vector X es

Así, se define como R²:

Y esto corresponde a la proporción de variancia de y explicada por y’. Así, un = 0.9, querrá decir que nuestra predicción y’ explica el 90% de la variancia del valor real y.

 

Efecto de las variables

Por lo que se refiere a los parámetros . Si por ejemplo, tenemos que el modelo es:

Entonces, un aumento de una unidad en la variable x1 (imaginemos que pasamos de 0 a 1), dejando el resto de variables explicativas constantes,  implica un aumento de 3 unidades en la variable respuesta y’. Y un aumento de una unidad en la variable x2 (imaginemos que pasamos de 0 a 1), dejando el resto de variables explicativas constantes, implica una disminución de 2 unidades en la variable respuesta y’.

 

Espero que este post os ayude a tener una idea genérica de como funcionan las regresiones lineales múltiples, y que podáis entender un poco mejor que hay detrás de este tipo de predicción. No es magia, ¡son matemáticas! 

 

Autor:

Data Scientist en Metriplica. Estudié Matemáticas y me especialicé en estadística con un máster. Me encanta investigar y extraer conocimiento nuevo de los datos. Y si además éste finalmente es útil, ni te cuento! Me gusta la programación, el data discovery y la visualización de datos.

Leave Comment

Your email address will not be published. Required fields are marked *