DataScience Training



ANÁLISIS DISCRIMINANTE LINEAL

Linear discriminant analysis

Introduction

Motivación por un ejemplo ilustrativo Click to read  

Supongamos que tenemos una muestra de individuos y observamos el modo de transporte (automóvil, transporte público o caminando) que suelen tomar para moverse dentro de una ciudad. Sabemos que la elección del modo de transporte está parcialmente influenciada por su situación económica, y observamos datos sobre su edad en años y el ingreso anual del hogar, junto con el medio de transporte elegido:

 

Queremos saber cómo estas dos variables ayudan a clasificar (es decir, discriminar) a los individuos asignándolos a una categoría específica de modo de transporte. Podemos ver que no existe una clasificación perfecta: las personas con altos ingresos tienden a usar el automóvil con mayor frecuencia, pero existe una gran superposición de las categorías  "caminar" y "transporte público" para aquellos con ingresos más bajos. Y hay una mayor superposición entre las categorías con respecto a su distribución por edad: las personas mayores no caminan, pero en valores más jóvenes, la edad no es un buen predictor del modo de transporte. Este es el problema típico que aborda ADL.

 

 

ADL para clasificación

Formulación Click to read  

Las funciones ADL se pueden recuperar para ayudar con la clasificación de los datos en función de una matriz de variables ��. De manera similar al análisis de componentes principales (PCA), las funciones ADL tienen como objetivo encontrar una combinación lineal de los datos originales como:
 
 
donde la varianza entre clases ( �� ) se maximiza en relación con la varianza dentro de la clase ( �� ), que puede abordarse como un problema generalizado de valores propios:
Las coordenadas discriminantes se obtienen a partir de los vectores propios de �� ^(− �� ) ��.

 
 
Un ejemplo Click to read  

Como ejemplo ilustrativo, resolvemos el problema de clasificación del modo de transporte en función de la edad y los ingresos por ADL en R. Esto se puede hacer fácilmente mediante la función "lda" dentro de la biblioteca "mass". Para todo el análisis presentado aquí, necesitaremos instalar y cargar los siguientes paquetes R:

 

Los datos estudiados vienen en un archivo csv (llamado "trasnport_example"), que se puede importar fácilmente a R ejecutando este código:

Para tener una primera impresión de los datos, podemos representar gráficamente la muestra en forma de diagrama de dispersión como:

Las líneas de código anteriores producen el diagrama de dispersión que se muestra en la sección introductoria de este documento. Alternativamente, podríamos trazar los datos como una serie de histogramas como:

Al ejecutar cualquiera de estas dos líneas, podemos tener una idea de cómo se distribuyen los modos de transporte entre los valores, la edad y los ingresos. Por ejemplo:

O: 

ADL se lleva a cabo simplemente ejecutando:

La salida típica muestra las medias iniciales por grupo, los coeficientes en las proyecciones de LD y la proporción de la varianza entre clases (between o traza) que explica cada coordenada de LD:

En nuestro ejemplo, la primera coordenada LD está positivamente correlacionada con el ingreso y negativamente con la edad, y contiene casi el 90% de la variabilidad entre clases. La segunda función LD muestra una correlación positiva pero más débil con ambas variables, y solo representa aproximadamente el 10% de esta variabilidad.

Las nuevas coordenadas se producen proyectando los puntos de datos originales con los coeficientes ADL mediante la expresión �� �� �� . En estas nuevas coordenadas, las observaciones están más claramente separadas entre grupos. En nuestro ejemplo, tenemos dos coordenadas LD para cada individuo, dadas su edad e ingresos. Las coordenadas correspondientes a la primera función LD tienen el mayor poder discriminante. Podemos ver fácilmente este poder discriminante trazando en R un histograma, poniendo ahora las primeras coordenadas LD en el eje horizontal:

 

Obtención:

Este gráfico muestra cómo la cantidad de superposición disminuye considerablemente. En otras palabras, la primera coordenada LD (recuerda que es un “compuesto” que se correlaciona negativamente con la edad y positivamente con el ingreso) discrimina adecuadamente entre las categorías de transporte.

 

 

ADL predictivo

El procedimiento Click to read  

ADL se puede utilizar no solo con fines de clasificación (descriptivos), sino también con el objetivo de predecir la pertenencia a una clase. Por ejemplo, supongamos que tenemos datos de la edad y los ingresos familiares anuales de una persona (dentro o fuera de la muestra) y nos gustaría predecir el modo de transporte que es más probable que utilice. ADL puede ser útil para proporcionarnos una predicción, de manera similar a los modelos probit o logit multinominal.

Para este propósito predictivo, se requieren algunas supuestos:

  • los grupos son normales multivariados
  • varianzas-covarianzas iguales entre grupos

La formulación del ADL predictivo está relacionada con la formulación del teorema de Bayes para actualizar probabilidades: Sea g el número de grupos qi la probabilidad inicial (generalmente frecuencias relativas observadas) para el grupo i. Sea �� un vector de observaciones de variables para un individuo. La probabilidad (a posteriori) de pertenecer al grupo Gi condicionada a X, P(Gi |X), se puede expresar como:

Este es un enfoque bayesiano que actualiza las probabilidades previas ����  basándose en las probabilidades condicionales P(�� | ���� ) . Bajo los supuestos de normalidad:

donde | �� | es el determinante de la matriz de varianza dentro de la clase y �� �� esDi=x-xiTW-1 x-xi.  . Reemplazando la expresión de PxGi en la fórmula para P(Gi|x), tenemos:

 

 

 

 

Un ejemplo con R Click to read  

La rutina ADL en R puede producir probabilidades posteriores basándose en los supuestos y la formulación detallada anteriormente. Las funciones ADL permiten predecir la pertenencia a la clase más probable para cualquier individuo, dado un vector de variables (edad e ingresos familiares en el ejemplo).

Como ilustración, la tabla que se muestra a continuación contiene las probabilidades pronosticadas para cada grupo para un subconjunto de individuos en la muestra. Se supone que los qison idénticas para cada uno de los tres modos de transporte ().

La clase predicha corresponde a la  más alta  para cada individuo. Se calculan aplicando la siguiente rutina en Rstudio :

En la mayoría de los casos, ADL predice correctamente el grupo al que pertenece cada individuo. Hay algunos casos, sin embargo, para los cuales ADL no predice correctamente. Estos casos corresponden a las observaciones superpuestas que aún permanecen en la clasificación ADL.



Keywords

análisis discriminante, clasificación, R, análisis bayesiano

Objectives/goals:

El objetivo de este módulo es introducir y explicar los fundamentos del Análisis Discriminante Lineal (LDA).



Al finalizar este módulo será capaz de:



Identificar situaciones en las que el LDA puede ser útil

Calcular funciones LDA

Interpretar los resultados producidos por LDA descriptivo y predictivo


Description:

En este módulo de formación se te introducirá en el uso del Análisis Discriminante Lineal (LDA). LDA es un método para encontrar las combinaciones lineales de variables que mejor separan las observaciones en grupos o clases, y fue desarrollado originalmente por Fisher (1936).

Este método maximiza la relación entre la varianza entre clases y la varianza dentro de clase en cualquier conjunto de datos concreto. De este modo, se maximiza la variabilidad entre grupos, lo que se traduce en una separabilidad máxima.

El LDA puede utilizarse con fines puramente clasificatorios, pero también con objetivos predictivos.

Bibliography

Boedeker, P., & Kearns, N. T. (2019). Linear discriminant analysis for prediction of group membership: A user-friendly primer. Advances in Methods and Practices in Psychological Science, 2, 250-263.


Related training material

Miembros

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI