Análisis de la dependencia entre dos variables

El objetivo de este artículo es presentar diferentes metodologías para estudiar la dependencia estadística entre dos variables aleatorias cuantitativas. Decimos que dos variables serán independientes cuando no exista ningún tipo de relación entre ellas.

Sean X y Y dos variables aleatorias cuantitativas de modo que formen un conjunto de parejas:

Queremos conocer la relación de dependencia que existe entre ambas variables, para ello podemos aplicar varios métodos.  Según la distribución de datos que se tenga será más conveniente aplicar uno o otro criterio. A continuación, se presentan ocho criterios diferentes junto a su definición y propiedades.

Por otro lado, para asegurar la validez de la medida obtenida, tras obtener el valor analizado sería necesario aplicar un test de dependencia con las siguientes hipótesis:

  • HoXY no son dependientes (hipótesis nula).
  • H1XY son dependientes (hipótesis alternativa).

Dependiendo de la medida de dependencia que usemos se aplicará un test o otro para confirmar o rechazar la hipótesis nula.

Correlación de Pearson

De todas las medidas que establecen al dependencia entre variables la más conocida es el coeficiente de  correlación de Pearson. Se trata de una medida de dependencia lineal entre dos variables cuantitativas continuas.  Sean X  y Y  las dos variables que queremos comparar, entonces definimos la media de estas por:

El coeficiente de Pearson será:

Diremos que tenemos una perfecta dependencia lineal cuando el valor del coeficiente sea ρ = 1 (creciente) o  ρ = -1 (decreciente). Cuando  ρ = 0, la correlación entre las variables será nula, por lo que no se ajustará a un modelo lineal. Por último, tenemos una dependencia imperfecta cuando 0 < | ρ| < 1. En este caso cuando más cercano se encuentre el valor a 1 , mayor dependencia presentaran las variables de la muestra. Para aplicar el test de dependencia, el coeficiente de correlación de Pearson bajo la hipótesis nula sigue una distribución t-Student con n-2 grados de libertad.

El gran inconveniente de este método se encuentra en la distribución de los datos, si estos no tienen un claro comportamiento lineal, no es una buena opción a aplicar. Si se quiere obtener este coeficiente en R, se puede usar la función cor del paquete stats pasando como criterio method=pearson.

Coeficiente de Spearman

El coeficiente de correlación de Spearman no necesita que la relación entre las variables y Y sea lineal, pero si monotónica. Entendemos que una relación es monotónica cuando un incremento (decremento) en los valores de Y implica un incremento (decremento) en los valores de . Podemos calcular el coeficiente de Spearman de dos modos. El primero consiste en ordenar los datos de  y Y  para aplicar la fórmula del coeficiente de Pearson para estos valores de orden. El segundo, consiste en calcular las diferencias di  entre los ordenes de xi y yi para calcular:

La interpretación de los valores obtenidos para ρ son los mismos que para la correlación de Pearson, con la diferencia que en lugar de medir la dependencia por linealidad, la considera por relaciones monótonas. Para aplicar el test de dependencia, el coeficiente de correlación de Spearman bajo la hipótesis nula sigue una distribución t-Student con n-2 grados de libertad. Si se quiere obtener este coeficiente en R, se puede usar la función cor del paquete stats pasando como criterio method=spearman.

Coeficiente τ de Kendall 

El coeficiente τ de correlación de Kendall se considera como un método alternativo al coeficiente de correlación de Spearman, por lo que también se aplica para relaciones de variables no-lineales monotónicas. El cálculo de la τ viene dado por:

Dadas las parejas (xi, yi), (xj, yjque definen un rango, diremos que es concordante si se cumple que xi >xj yi>yj o xi <xj yi<yj.  Contrariamente si  xi >xj yi<yj o xi >xj yi<yj diremos que es discordante. Por último si  xi =xj o yi=yj diremos que no es ni concordante ni discordante. Con la τ de Kendall se obtienen valores inferiores que con la ρ de Spearman, por contra es menos sensible a los errores y discrepancias en los datos. Las principales ventajas de utilizar la correlación de Kendall vienen por sus mejores propiedades estadísticas, además de tener una interpretación más directa des de un punto de vista probabilístico.

Podemos aplicar un test bajo la hipótesis nula transformando τ en Z,  de modo que Zτ=τ/στ, donde στ2= 2(2n+5)/(n(n2 -1)) es la desviación estándar de τ. Si se quiere obtener este coeficiente en R, se puede usar la función cor del paquete stats pasando como criterio method=kendall.

Correlación de distancias

La correlación de distancias (Székely, Rizzo y Bakirov (2007), [1]) es una medida que caracteriza la independencia entre dos variables y sirve para identificar relaciones no-lineales entre ellas. Sea ||·||  la distancia Euclidiana, viene definida por:

Sean:

Definimos los valores āk  como la media de los valores de la fila k,  āl como la media de los valores de la fila l ā la media general de la matriz de distancias de X (análogo para los valores de b y de Y). Obteniendo:

Con ello, podemos calcular la covarianza de distancias y la correlación de distancias:

El rango de valores para la correlación de distancias es entre 0 y 1. Cuando la correlación de distancias es 1 tenemos dependencia perfecta de las variables mientras que cuando es 0 las variable son independientes. A diferencia de las medidas anteriores, no importa la linealidad de los datos ni que estos se relacionen monotónicamente. Para estimar el p-valor bajo la hipótesis nula es necesario aplicar un test de permutación. Si se quiere obtener este coeficiente en R, se puede usar la función dcov.test del paquete energy.

La medida D de Hoeffding

La medida D de Hoeffding (1948, [2])  es una medida no paramétrica para determinar de forma general la independencia entre variables. El valor D aproxima la suma balanceada sobre las observaciones de la chi-cuadrado para tablas de clasificación. Cada par de valores (x,y) consiste en un  par de puntos de corte para la clasificación. La fórmula para obtener el valor D sería:

Donde los valores restantes de la fórmula son:

Si no hay datos repetidos los valores de la D de Hoeffding pueden ser de -0,5 a 1, siendo 1 el valor que indica dependencia completa. En caso de que se repitan valores, el estadístico D podría ser inferior a -0,5. Si α es el nivel de significancia deseado, rechazamos la hipótesis nula, si y solo si, P{D(X,Y)}>ρn, donde:

Para la medida D, ρn adquiere valores entre -1/60 y 1/30. Si se quiere obtener esta medida en R, se puede usar la función hoeffd del paquete Hmisc.

La medida de Heller, Heller y Gorfine (HHG)

La medida de Heller, Heller y Gorfine o HHG (1948, [3]) consiste en un test de independencia basado en las distancias entre los valores de X y de Y. Dadas n observaciones, para cada observación i≤n y cada  j≤n, j≠i definimos:

Donde I{} es la función indicatriz. Sea:

Definimos el estadístico T como:

Aplicamos el test de independencia  a este estadístico que debe tener valor n(n-1) para la hipótesis nula. Para valorar la significancia se puede aplicar el test de permutaciones. Si se quiere aplicar este test en R, se puede usar la función hhg del paquete HHG.

Información mutua (MI)

La información mutua ([4]) de dos variables aleatorias es una cantidad que mide la reducción de la incertidumbre de una variable X debido al conocimiento del valor de otra variable Y. El valor de información mutua dadas dos variables aleatorias continuas   y Y  se define:

El valor de información mutua siempre es positivo, un valor muy alto, indica una reducción mayor en la incertidumbre, mientras que un valor bajo indica mayor incertidumbre entre variables. Para el caso en que MI sea 0, el dato nos indica que las dos variables son independientes. Para aplicar un test de significancia a MI se puede aplicar un test de permutaciones como el de la correlación de distancias.

Si se quiere obtener el valor de MI en R, se puede usar la función mi.empirical del paquete entropy.

Coeficiente de información maximal (MIC)

El coeficiente de información maximal, una de las propuestas más nuevas (Reshef, 2011 [5]) en el estudio de la dependencia entre dos variables. Se trata de un indicador del nivel de asociación lineal o no-lineal entre dos variables  y Y.  El procedimiento se basa en encapsular los datos de la distribución de la variable ne cuadrículas, recogiendo los puntos en subgrupos para una detección mayor de relaciones.

El número de cuadrículas que se construyen viene determinado por un valor recomendado por Reshef, siendo n el tamaño de la muestra, seria n0.6.  Para cada cuadrícula calculamos el valor de MI. Se normalizan los valores MI obtenidos ya que las cuadrículas contenidas presentan diferentes tamaños y se guardan en la matriz característica M. El valor máximo de la diagonal de M es el valor del MIC.

El gran problema del MI es que obtener un valor  preciso de estimación es muy difícil cuando se tienen pocos datos (digamos, menos de 1000 datos), en cambio el MIC resuelve esta situación con un algoritmo de tres pasos.  A pesar de ello, su máximo poder estadístico se encuentra en muestras superiores a 250 datos, por lo que para muestras muy pequeñas sería más recomendable el uso de otras medidas como la correlación de distancias. Al igual que el MI, el mejor test para aplicar en el MIC para aplicar la hipótesis nula sería el de permutaciones. Si se quiere obtener este coeficiente en R, se puede usar la función mine del paquete minerva.

Conclusiones

El uso de un coeficiente o otro dependerá básicamente de la cantidad de datos que se tengan y su distribución (lineal, funcional, monotónica…). No se puede afirmar que un método sea mejor que otro por norma general, las circunstancias que definan los datos que tenemos y las propiedades estadísticas de estos coeficientes determinaran nuestra elección cuando tengamos que trabajar con ellos. También se puede profundizar en la comparativa entre estos métodos mediante algunos estudios prácticos aplicados a casos particulares [6].

 

Referencias:

  1. Szekely G, Rizzo M, Bakirov N. Measuring and testing independence by correlation of distances. Ann Stat 2007; 35:2769–94.
  2. Hoeffding W. A non-parametric test of independence. Ann Math Stat 1948; 19:546–57.
  3. Heller Y, Heller R, Gorfine M. A consistent multivariate test of association based on ranks of distances. Biometrika 2012. doi:10.1093/biomet/ass070 (Advance Access publication 4 December 2012).
  4. Moon YI, Balaji R, Lall U. Estimation of mutual information using kernel density estimators. Phys Rev E 1995; 52:2318–21.
  5. Reshef DN, Reshef YA, Finucane HK, et al. Detecting novel associations in large data sets. Science 2011; 334:1518–24.
  6. A comparative study of statistical methods used to identify dependencies between gene expression signals

Autor:

Leave Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.