Upload
jaime-rivera
View
23
Download
0
Embed Size (px)
Citation preview
24/05/2012
1
José Manuel Andrade
Departamento de Química Analítica
Universidad de A Coruña
INTRODUCCIÓN AL ANÁLISIS
MULTIVARIABLE DE DATOS
José Manuel Andrade
Departamento de Química Analítica Universidad de A Coruña
PRIMERA INMERSIÓN PARA
QUÍMICOS ANALÍTICOS EN EL
ANÁLISIS MULTIVARIABLE DE
DATOS
24/05/2012
2
1.- Presentar los fundamentos de un conjunto de herramientas poderosas
para extraer información de los datos (en general, procedentes de
estudios amplios) de los cuales no sabemos nada (sin profundizar
mucho en las bases teóricas).
2.- Motivar la aplicación de dichas herramientas en estudios e industrias
que hagan uso de un número elevado de variables.
3.- Discutir con detalle algún ejemplo que sirva para clarificar los conceptos
presentados.
OBJETIVOS
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
ÍNDICE JMAG2012
TEMARIO GENERAL Parte 1: Definición, Objetivos y Planteamiento Básico
Parte 2: Pretratamiento de los datos
Parte 3: Análisis exploratorio no supervisado
Parte 4: Fundamentos de clasificación supervisada
24/05/2012
3
Proceso Analítico
Definir Análisis
para el Problema
Defición del
Problema
por cliente
Seleccionar
muestras
Estrategia
muestreo
Tratamiento de
Muestra (operaciones
previas)
Análisis
(Separación y
detección)
Procesar datos Y almacenar
Calibrar
Evaluar e
Interpretar Datos
Sistema Calidad
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
¿Cuándo nació?
Aprox. 1974 cuando Prof. Bruce Kowalski (Seattle, Washington) y Prof. Svante
Wold (Umeå, Suecia) necesitaron una palabra clave para incluir en proyectos y
describir su actividad (petición de financiación por parte del gobierno!!). “La
Sociedad de Quimiometría fue creada en 1974 durante una alegre noche en un MexTex restaurante
en Seattle” (Dave Duewer; http://www. namics.nysaes.cornell.edu/history.html)
Sus “parientes” más cercanos:
Biometría, Estadística Clínica, Psicometría, etc. (La Química fue una de las últimas ciencias en incluir las técnicas englobadas bajo esta
denominación). En la actualidad es un campo aplicado/desarrollado fundamentalmente en /
por la Química Analítica.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
4
Su definición y objetivo:
Conjunto de herramientas matemáticas, estadísticas y de la lógica formal
aplicadas para el diseño, selección y optimización de procedimientos
analíticos, así como para extraer la máxima información útil del sistema
bajo estudio.
En la actualidad es una rama fundamental de la Química Analítica y que ha
permitido una actualización en sus postulados epistemológicos (=misión de
la Química Analítica).
Los estudios quimiométricos (multivariantes) constan de dos etapas básicas:
1.- Realizar un tratamiento matemático (estadístico) de los datos
2.- Interpretar químicamente los resultados derivados de 1
(ambas son importantes)
Surgió como una consecuencia directa de los últimos avances en la Química
Analítica y su definición metodológica, la cual se centra en:
• Calidad (estandarización, trazabilidad, etc.)
• Diseño y optimización de métodos de medida
• Extracción de información
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
La Quimiometría NO es nueva en Química … Un Químico (William Sealy Gosset)
Control de Calidad en …
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
5
El uso de la estadística aplicada a la Química
requiere MUCHA precaución.
El profesor Forina nos lo recordaba en Junio2010:
• La mayoría de aplicaciones reales de la quimiometría se realizan usando softwares comerciales … donde aplicar un botón es tan fácil …
• Qué /quién puede apretar un botón ?
• El nivel de conocimientos quimiométricos es en general muy bajo. El uso “ciego” de los software comerciales hace que no se preste atención en las bases del problema, en su definición y la validación es muy defectuosa.
• Uno debe ser siempre muy riguroso, tanto como sea posible … pero no con rigor mortis: la relevancia química es lo primero (S. Wold, Chemolab 30 (1995) 109)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Antes de desarrollar cualquier tipo de modelo quimiométrico,
ES CRÍTICO RECORDAR SIEMPRE:
1.- Solo se pueden obtener estudios quimiométricos multivariantes correctos si los
datos de partida son exactos y precisos. Tan solo se podrá hacer una
interpretación correcta de los modelos/regresiones cuando los datos de partida
sean fiables y reflejen la realidad (lo cual no es fácil de asegurar!!!!). 2.- Los estudios quimiométricos multivariantes NO pueden mejorar la precisión, la
exactitud, etc.
GIGO (garbage in, garbage out)
3.- NO imponga “soluciones” iniciales a los datos. Es muy común y muy fácil
hacerlo (inconscientemente), en cuyo caso todo el estudio está sesgado.
(p.ej. “Quiero comprobar si puedo verificar …”)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
6
4.- Los resultados de la quimiometría multivariante NO son la realidad, ellos
tratan de resumirla y mostrarla al científico. Hay que ser muy cuidadoso con
las extrapolaciones.
5.- SEA CRÍTICO: diferentes técnicas conducen a soluciones diferentes;
estudielas todas, busque sus tendencias generales (el “consenso”) y verifique
que los hechos bien conocidos y los principios químicos no se violan. Las
computadoras ofrecen muchas tablas y dibujos pero es el Químico (el
científico o el técnico) quien es responsible por la correcta interpretación.
La perfección no existe (ni las soluciones perfectas) …
… ni tan siquiera para el ojo humano …
A pesar de que es una de las computadoras más perfectas que existen
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
1.- PROCESO GENERAL DE TRABAJO
Necesario probar varios modelos
Recuerde … sea paciente
1 Definición del problema
(clara y completa)
2 Obtener datos
3 Analizar
datos
4 Formular
Hipótesis/
conclusiones
5 Interpretar
Resultados
Validar tanto como sea posible
Adaptado de R. Kenett, Scientific Computing World, 91, 2007, 29
6 Presentar
Resultados
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
7
2.- CLASIFICACIÓN DE LAS TÉCNICAS QUIMIOMÉTRICAS
MULTIVARIANTES MÁS COMUNES
Rosa Lletí Contreras, Tesis Doct U. Burgos (Spain), 2004
• Nivel 0 : no se dispone de conocimiento previo técnicas no
supervisadas de reconocimiento de pautas técnicas exploratorias (sin
hipótesis previas)
PCA (análisis de componentes principales / análisis factorial), análisis Cluster, K-means,
redes neuronales artificiales de Kohonen, etc.
• Nivel 1: algún conocimiento previo métodos de clasificación
LDA, redes de neuronas artificiales, etc.
• Nivel 2: métodos para modelar clases (pueden calculares probabilidades de pertenencia
a grupos)
métodos supervisados
SIMCA, funciones de densidad, etc.
• Nivel 3: Modelos de regresión con una propiedad a predecir.
• Nivel 4: Modelos de regresión con varias propiedades a predecir.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
EN FUNCIÓN DEL GRADO DE CONOCIMIENTO PREVIO QUE SE TENGA DE LOS DATOS.
¿El “orden” de los datos?
Orden cero = un valor tomado de un equipo (pH) para una muestra Orden uno = una serie ordenada de datos tomados de un equipo para una muestra
(espectro, cromatograma, cinética, etc.)
Orden dos = una matriz de datos / muestra (CG-CG, CG-MS, Fluorescencia
emisión+absorción) Orden tres = un cubo de datos / muestra (CG-CG-HPLC, HPLC-Array)
Cuanto mayor sea el orden de los datos mejor se podrá determinar si existen
interferentes que contribuyan a la señal medida, cuantificar el analito de interés en su
presencia e, incluso, evaluar el grado de participación de los interferentes en la señal
que se mide (= ventaja de segundo orden, sólo para datos de orden 2 o superior)
Con la técnica PLS se podrá determinar el analito en presencia de interferentes que se
hayan modelado pero no en presencia de interferentes no incluidos en la calibración.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
8
CÓMO ORGANIZAR LOS DATOS
Y CÓMO PRE-TRATARLOS
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
TEMARIO GENERAL Parte 1: Definición, Objetivos y Planteamiento Básico
Parte 2: Pretratamiento de los datos
Parte 3: Análisis exploratorio no supervisado
Parte 4: Fundamentos de clasificación supervisada
2.1.- CÓMO ORGANIZAR LOS DATOS
Por convenio:
todos los software modernos asumen que los datos se han dispuesto como…
Variables
Muestras
(casos, objetos)
xij (minúscula) es un punto/dato, corresponde a la muestra i (=2) y la variable j (=3)
xi (negrilla, minúscula) indica un vector de datos
Puede ser una fila , todas las variables para la muestra i (=3)
Puede ser una columna todos los valores para la variable (5)
para todas las muestras
X (negrilla, mayúscula)= toda la matriz de datos (2 dimensiones)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
9
Muchas técnicas multivariantes analizan la varianza y tratan de descomponerla
en sus componentes mayoritarios (factores). Aunque no abordaremos
demasiadas matemáticas, es importante conocer la jerga.
CUESTIONES PREVIAS (1)
La varianza de una serie de resultados se define como SD2, Interpretación
química = dispersión, (las varianzas pueden ser sumadas, divididas, etc. … las
SD NO!!)
La covarianza de dos variables es una indicación de si varían al mismo tiempo
(una incrementa cuando la otra incrementa –o disminuye). Se define como:
)))(((1
1),( YYXX
nYXCov ))((
1
1),( 22 XX
nSDXXCov
La correlación es un caso especial de la covarianza, cuando se escalan las
variables (por su SDs). Se define como:
YX
i
ii
YXSS
YYXX
nYXCorr
.
))((
1
1),( ,
Interpretación: el coseno del
ángulo formado por dos vectores
(por esto, el coef. de correlación
varía -1<0<1)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Los métodos quimiométricos de reconocimiento de pautas tratan de:
* identificar las variables que están relacionadas y estudiar qué
relevancia tienen para describir las muestras
* identificar grupos de muestras similares
Veremos que esto corresponde con decidir qué varianzas (covarianzas) son más
relevantes y si existen diferencias significativas entre ellas.
PERO un problema es que nuestras variables pueden haber sido medidas en
diferentes escalas y/o extenderse en diferentes rangos: % humedad, pH, metales
mayoritarios (Ca, Ba, Mg, etc., en ppm), metales pesados (Cd, As, Hg, etc, en
ppb), pesticidas (ppb o ppt), etc.
Es previsible que la varianza de una variable medida en el rango de kg sea
mayor que la varianza de una variable medida en el rango de mg. Para nuestror
propósitos necesitaríamos algo similar a la RSD (DER) con objeto de
compararlas.
La situación es similar cuando se trabaja con las técnicas multivariantes si no
consideramos el efecto de las escalas podríamos llegar a conclusiones erróneas.
2.2.- CÓMO PRETRATAR LOS DATOS
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
10
Esto significa que ANTES de comenzar con los cálculos, debemos convertir todos los datos
a una escala común.
Desgraciadamente NO hay una regla de oro y tendremos que probar qué escala conduce
(aparentemente) a los resultados más interpretables. Esto es lo que se llama
pretratamiento de los datos y NO es una etapa trivial.
En casos complejos, por ejemplo, al analizar datos espectrales podemos necesitar filtrar
los datos o aplicar primera y/o segunda derivada (u otras opciones).
Reportar siempre el tratamiento de los datos realizado. Es vital interpretar los resultados y,
si no resultan satisfactorios repetir los cálculos con otro escalado.
Una regla sencilla, que SUELE funcionar bien:
Diferentes unidades en las variables autoescalado
Mismas unidades en las variables centrado en la media (o nada)
(Otros escalados habituales: log(x), normalización 0 -1 , etc)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
[n,p]=size(X) ; m1=mean(X) ; s1=std(X)
for i=1:p; X(:,i)=(X(:,i)-m1(:,i)) ; end
for i=1:p; X(:,i)=(X(:,i)-m1(:,i))/s1(:,i) ; end
z=max(X'); for i=1:n; X(i,:)=X(i,:)/z(1,i);end
for i=1:p; X(:,i)=log(X(:,i)+1) ; end
… y sus combinaciones
Algunos ejemplos:
Centrado en la media elimina el efecto de las escalas mediante la transformación de
todas las medidas a un orígen común, típicamente cero. La amplitud de las variables
todavía depende de la escala, i.e., todavía tenemos ppm, ppb, %, etc., aunque todos
los valores están en torno al cero (positivos y negativos).
Si crees que las diferencias entre las magnitudes de las variables es importante para
la clasificación (o para determinar una pauta), la primera elección debe ser centrado
en la media.
2.2.1.- Centrado en la media y autoescalado … Las dos opciones más usadas …
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
11
0 100 200 300 400 500 600-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
original
0 100 200 300 400 500 600-0.03
-0.02
-0.01
0
0.01
0.02
0.03
Centrado en media
outlier
Variables más importantes
Grupo 1
Grupo 2
EJEMPLO:
Las variables más relevantes de un espectro son las longitudes de onda con las
mayores absorbancias. Por tanto, el centrado en la media es habitualmente
apropiado para discriminar grupos de muestras.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Si no está claro si las diferencias entre las muestras son un reflejo de la magnitud de
las variables sino, más bien, de sus perfiles relativos Autoescalado debería ser la
primera opción.
Autoescalado lleva todas las variables a una misma escala, i.e., unidades de SD (o
varianza). Como consecuencia, las variables relevantes tienen el mismo peso que las
variables que tienen sólo ruído. De hecho, autoescalado puede dar demasiada
importancia a variables ruidosas (simplemente porque su varianza es relativamente
grande … porque … ellas son ruido!!!).
0 100 200 300 400 500 600-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
original
0 100 200 300 400 500 600-3
-2
-1
0
1
2
3
4
Autoescalado
outlier
Variables importantes?
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
12
TRATAMIENTOS TÍPICOS PARA LOS DATOS ESPECTRALES
0 100 200 300 400 500
Number of the variable-0.03
-0.02
-0.01
0
0.01
0.02
0.03
1st derivative
1ª (offset cte) y 2ª derivadas (offset proporcional)
(adicionalmente al tratamiento clásico de corrección de línea base espectral)
2.2.2.- Evitar efectos de línea de base
0 100 200 300 400 500 600-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 100 200 300 400 500 600-8
-6
-4
-2
0
2
4
6x 10
-3
2a derivada
CUIDADO:
1. Las derivadas degradan la relación S/N porque incrementan el ruido, para evitarlo conviene
filtrar antes de derivar (el problema es tanto mayor cuando mayor sea el orden de la
derivada).
2. Los modelos de calibración son menos robustos a pequeños cambios instrumentales,
especialmente pequeños desplazamientos de las long.ond.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
2.2.3.- Evitar espectros muy ruidosos
Filtrar varias opciones (filtros de Kalman, Savitsky-Golay (el más habitual), etc)
El filtrado mediante Savitzky–Golay (1964, Abraham Savitzky / Marcel J. E. Golay)
consiste en sustituir el dato “ruidoso” por un promedio de los valores que lo anteceden
y siguen. En esencia (hay varias posibilidades), se trata de realizar una regresión local
(empleando un polinomio de grado k) en un conjunto de al menos k+1 puntos
igualmente espaciados antes y después del punto a sustituir.
(NOTA: Con una aproximación similar también se calculan de forma inmediata las
primeras derivadas)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
13
2.2.4.- Evitar fenómenos asociados a la diferente penetración de la radiacion
Reflectancia total atenuada la penetración de la radiación es función del
número de onda –frecuencia- . Menores números de onda (mayores long.ond) conducen a
menores absorbancias que los números de onda mayores (menores long.ond).
También hay que tener en cuenta el buen contacto de la muestra con el cristal.
El espectro ATR (reflectancia) es ligeramente diferente al tradicional (de transmisión),
especialmente la intensidad relativa de los picos y, para realizar comparaciones,
debe corregirse.
Hay distintas funciones implementadas
en los softwares de los instrumentos
de medida.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
2.2.5.- REFLECTANCIA DIFUSA Standard Normal Variate (SNV) + Detrending
Los espectros obtenidos mediante reflectancia difusa se ven afectados por la
distribución no homogénea de las partículas (forma, tamaño y empaquetamiento) y el
diferente fenómeno de scattering que esto provoca (que puede constituir buena parte
de la varianza del espectro homogeneizar muestra
El grado de scattering (dispersión) depende de la longitud de onda y del índice de
refracción de la muestra. Típicamente se observan movimientos de la línea de base,
movimiento en los picos y/o curvaturas. Los efectos son más acusados con las
mayores long.ond.
A priori Aplicar cuando las respuestas son lineales con la concentración.
Convertir antes todos los espectros de unidades de reflectancia a Log(1/R) (para
asimilar a espectro de transmitancia) mediante ecuaciones de Kubelka-Munk.
Las diferencias entre los espectros de las muestras se deben principalmente a:
1. Dispersión no-específica en la superficie de las partículas
2. Penetración diferente de las long.ond a través de la muestra (“paso óptico” diferente)
3. Composición química de la muestra.
En calibración nos interesa considerar sólo la tercera opción.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
14
La dispersión se corrige normalizando
(autoescalando) cada espectro
empleando la media y la desv. stand.
de los datos a lo largo de la región
espectral.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Para evitar la apariencia de línea base en pendiente suele aplicarse “Detrending” (distintos algoritmos para distintas casas comerciales)
Se ajusta una parábola a los datos espectrales. A continuación,
dato corregido = dato espectral – dato ajustado en la parábola
La curvatura parabólica se elige para tratar de corregir los efectos
de tamaño de partícula y empaquetamiento de la muestra.
OJO: SNV puede provocar
alguna no linealidad en los
datos, tratar de que las
muestras no sean muy
diferentes!!!
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
15
Considera que el comportamiento/espectro de cada muestra (forma de dispersar la radiación y
cambios en el paso óptico) se aleja del espectro “ideal” de una muestra tipo no afectada por
fenómenos de dispersión indeseados
En la práctica el promedio de todas las muestras empleadas para el calibrado
( las muestras a predecir NO se alejarán demasiado de dicho promedio).
Cada espectro se corrige de forma que todas las muestras tengan el mismo nivel de
dispersión que la “ideal”.
Para cada muestra se hace una regresión entre su espectro y el “ideal”:
xi = a + b·xprom + e
La corrección MSC será:
xijMSC = (xij – a)/b (j=(num. variables)=1,2,…,p)
2.2.6.- Multiplicative Scatter Correction (MSC)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
CUIDADO !!!
NO realizar combinaciones muy complicadas o inusuales para el
pretratamiento de los datos porque pueden complicar la interpretación
de los resultados.
NOTA: MSC y SNV tienden a dar resultados equivalentes
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
16
2.2.7.- CROMATOGRAFÍA (ampliándose a espectroscopia) : Corregir por ligeros
desplazamientos de los picos Cromatográficos Técnicas de Warping
Referencias:
Tomasi, G., van den Berg, F., Andersson, C., Journal of Chemometrics, 18(2004) 231-241
Skov T, van den Berg F, Tomasi G, Bro R, Journal of Chemometrics, 20(11-12) (2006) 484-497
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
1
ESTUDIO DE LAS VARIABLES ANALÍTICAS Y REDUCCIÓN
DE LA DIMENSIONALIDAD:
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
TEMARIO GENERAL Parte 1: Definición, Objetivos y Planteamiento Básico
Parte 2: Pretratamiento de los datos
Parte 3: Análisis exploratorio no supervisado
Parte 4: Fundamentos de clasificación supervisada
Algunas de las técnicas para estudiar las muestras (métodos Cluster) son intuitivas y
fáciles pero no son la mejor opción para aproximarse por primera vez a los datos,
fundamentalmente porque pueden ofrecer resultados difíciles de interpretar.
El ser humano no puede ver en más de tres dimensiones, pero … cuantas dimensiones
hay en nuestros datos …??
Necesitamos una herramienta para reducir la dimensionalidad del problema (=número
de variables) PERO sin perder información relevante. Esta herramienta debería
permitirnos estudiar relaciones entre las variables y ver pautas en los datos.
Finalmente, necesitamos determinar la razón subyacente en las pautas observadas
(grupos de muestras) y, por tanto, interpretar lo que hay detrás de los datos.
Todo esto puede lograrse aplicando una técnica matemática que descompone la matriz de
datos (en realidad su varianza) en sus “componentes” principales (recordar ANOVA). Esto
se llama Análisis de Componentes Principales –PCA- (análisis factorial).
Los componentes extraidos se llaman Componentes Principales –PC-.
Aunque esto suena esotérico, se trata de una propiedad inherente a las matrices de datos.
3.1.- ANÁLISIS DE COMPONENTES PRINCIPALES, ¿POR QUÉ ?
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
2
Ejemplo:
Supongamos que hemos medido una muestra y hemos obtenido:
pH=4 , [Ca]=2.5 ppm, [Mg]=10 ppm
Una forma trivial de descomponer el vector (4, 2.5, 10) es considerar
los vectores unitarios: (1,0,0) (0,1,0) (0,0,1)
i.e. muestra 1= 4*(1,0,0)+2.5(0,1,0)+10*(0,0,1)
Estos vectores unitarios serían (en una primera aproximación) los
“componentes principales” de este vector. Esta descomposición es
más compleja para las matrices pero esa es la idea conceptual.
La idea general consiste en buscar un conjunto de vectores tal que cuando se
multiplican entre ellos se reproduzca la matriz de datos original. Aunque esto no es
fácil de visualizar en múltiples dimensiones, es bastante intuitivo para datos 3D.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
La principal ventaja de PCA es que permite la reducción de dimensionalidad de
los datos BAJO la condición de que se retiene tanta información (varianza)
como sea posible (esta cantidad puede calcularse fácilmente).
Debe destacar que PCA fue diseñado para analizar VARIABLES y buscar
asociaciones entre ellas, tendencias, retener varianza, etc.
No obstante, también se puede usar para analizar muestras (un “subproducto”
muy importante!!!!).
Ahora necesitamos revisar alguna matemática,
simplemente para saber qué subyace cuando
aplicamos PCA.
Hay tres grandes vías para descomponer una matriz:
• Calcular los eigenvalores y los eigenvectores, el método original más antiguo
• Descomposición en valores singulares (svd), el método de referencia
• Nipals, muy rápido, aunque aproximado
PCA en la práctica
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
3
Opción 1: Eigenvalores y Eigenvectores
Un vector v es un eigenvector (vector propio) de la matriz X, con un
eigenvalor (valor propio) λ cuando se satisface X·v = λ·v. Esto
conduce a un sistema de ecuaciones que se soluciona calculando
el llamado determinante característico (det(X – λ·I)=0). nnnnn
nn
nn
vavavx
vavavx
vavavx
)(...0
...
...)(0
...)(0
2211
2222121
1212111
Una vez que los eigenvalores se conocen, se determinan los vectores propios (eigenvectores, v).
De este determinante se deduce una ecuación polinómica (en λ),
por ejemplo λ3- 11λ2+36 λ-36=0
Para calcular las raices del polinomio (se podría hacer por el método de “Ruffini”) se impone la
condición de que los valores de λ verifiquen λ1> λ2> λ3> λ4> …
En este caso son λ =6, 3 y 2 y se corresponden, precisamente, con los valores propios de X
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Opción 2: Descomposición en Valores Singulares
La matriz X se descompone en un producto de tres matrices:
X = USVT
(n x p) = (n x k) · (k x k) · (k x p)
De tal forma que las columnas de V son los eigenvectores; S es una matriz diagonal cuyos
valores son las raíces cuadradas de los eigenvalores ( sii= λ );
las columnas de U (multiplicados por sii ) se llaman “scores” y están relacionados con las
muestras.
Las columnas de V se llaman “loadings”, y se relacionan con las variables.
(T) significa traspuesta
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
4
Opción 3: método Nipals
Es un método muy rápido y aproximado para descomponer una matriz en dos:
X=TPT (T) significa traspuesta
La matriz T se relaciona con las muestras y contiene los “scores”
La matriz P se relaciona con las variables y contiene los “loadings”
Los vectores de scores y loadings es lo que necesitamos para llevar a
cabo un PCA y tratar de obtener un buen conocimiento del problema.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Parece que no hemos hecho nada, pero :
• nosotros podemos retener sólo los primeros componentes principales (1, 2, 3) para
descomponer la matriz de datos; los restantes componentes principales pueden ser
considerados como aleatorios, reflejando ruido principalmente.
• ¿Por qué? Por definición, los primeros PCs explican la mayor parte de la varianza
(=información) en los datos, sólo se pierde una pequeña parte cuando los PCs finales
son descartados. Esto significa que podemos reducir la dimensionalidad del problema
(p.ej., desde 30 variables originales a, quizá, 3 PCs), SIN PERDER información
importante presente en los datos. La importancia de cada PC viene dada por su
eigenvalor.
• Muchas veces los PCs pueden tener un significado químico (mineralización de las
aguas, toxicidad, PAHs de dos anillos, etc.) y, por tanto, podemos resumir la
información presente en los datos en algunos conceptos químicos básicos.
Recuérdese que, por definición, el primer PC extraído es el más importante, el
segundo más que el tercero, etc.
Hay que evaluar críticamente no sólo el significado químico de cada componente sino
su posible relevancia estadística
VALE … Y AHORA … ¿QUÉ?
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
5
• También por definición los PCs son ortogonales. Esto significa que la
información explicada por un PC no se incluye en otros PCs.
Por tanto, si encontramos, por ejemplo, que PC1 está correlado principalmente
con la salinidad de la aguas, este efecto no debería estar presente en otros
factores.
• Como solo consideramos un número reducido de PCs, podemos obtener
fácilmente gráficos 2D y/o 3D los cuales nos permiten visualizar el problema
(variables y muestras)
Estas son ventajas muy importantes !!
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
En 1975 S. Wold, P. Geladi y otros presentaron en un libro del
prof. Kowalski una interpretación gráfica que muchos
empleamos (todavía!!) hoy
(es muy intuitiva y refleja lo que las matemáticas hacen,
pero NO es el proceso real de cálculo!!)
PC1=a*Var1 + b*Var2 + c*Var3
Línea de regresión (ajuste min.cuadrad) que ajusta mejor
todos los puntos => dirección de máxima varianza
(dispersión de los datos)
Importancia de esta variable para definir
esta línea = loading
Dónde está la muestra? Proyecta vert.
El punto (como siempre) y mide la
Distancia desde el origen = score
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Var1
Var2
Var3
24/05/2012
6
Podemos continuar hasta que el número de PCs iguala el número de variables
(o muestras, si son menos). Pero, en general, esto no es útil. Es mejor parar
cuando hemos obtenido 60-70% de la varianza total, que es lo típico para 2 o 3
PCs.
Var1
Var2
Var3
CUIDADO con las
muestras anómalas
(outliers). Hacer
estudios
preliminares
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
1
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
TEMARIO GENERAL Parte 1: Definición, Objetivos y Planteamiento Básico
Parte 2: Pretratamiento de los datos
Parte 3: Análisis exploratorio no supervisado
Parte 4: Fundamentos de clasificación supervisada
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Entramos así en lo que se denomina “Reconocimiento supervisado de pautas”, lo
que significa que disponemos de gran cantidad de información acerca de las
muestras y queremos modelar dicha información con objeto de realizar
predicciones sobre muestras nuevas desconocidas.
Hay muchas técnicas disponibles y sólo hablaremos de tres sencillas
PCA es la base para un gran número de técnicas con diferentes aplicaciones
interesantes. Por ejemplo:
• Análisis lineal discriminante (Linear Discriminant Analysis, LDA) para
clasificar muestras nuevas
• Curvas de potencia para clasificar muestras nuevas según una
probabilidad
• Rotación de Procrustes para comparar datos de varios muestreos,
producciones, etc.
para seleccionar mínimo conjunto de variables
24/05/2012
2
Sea cual sea la técnica de trabajo, para llevar a cabo el Reconocimiento Supervisado
de Pautas necesitamos:
1. Un conjunto de muestras de entrenamiento (aprendizaje, Training set): una
colección de muestras bien conocidas, sobre las que se han medido (con
exactitud) un conjunto de variables.
2. Seleccionar algunas variables que sean relevantes para la clasificación (o
discriminación).
3. Calcular una regla de clasificación, usando el training set
4. Un conjunto nuevo de muestras de validación (validation set) para validar las
reglas de clasificación to validate the classification rule (ojo!!, esas muestras deben
ser conocidas para nosotros pero no para los modelos)
Los items 2 y 3 determinan el método quimiométrico a emplear. Muchas posibilidades
veremos 2
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
4.1.- CLASIFICACIÓN DE MUESTRAS:
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
3
4.1.- INTRODUCCIÓN AL ANÁLISIS LINEAL DISCRIMINANTE
Clustering y PCA son métodos muy eficientes para realizar el reconocimiento de
pautas cuando no disponemos de ninguna información previa. PERO ELLOS
NO SON adecuados para problemas más avanzados (nivel 2 de reconocimiento
de pautas):
Supongamos que tenemos diferentes tipos de muestras (conocidos) y que,
además, hemos recibido nuevas muestras que deben ser clasificadas en uno de
“esos” tipos.
Clustering y PCA NO son adecuados para esta tarea … podría existir la
posibilidad de unir todas las muestras y repetir los estudios …
… no muy sensato ni efectivo
En lugar de ello nos gustaría disponer de una técnica que pudiese, primero,
distribuir muestras en grupos y, luego, asignar nuevas muestras a uno de esos
grupos
Hay varias técnicas quimiométricas que pueden hacer esto, con diversa
complejidad (SIMCA, LDA, etc.) AQUÍ LDA.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
CONCEPTOS BÁSICOS DE LDA
Disponemos de un conjunto de entrenamiento en el cual hay varias clases de
muestras y necesitamos seleccionar (calcular) qué variables son relevantes para
discriminar entre ellas.
PCA serviría para determinar si existen grupos de muestras (pero esto ya lo
sabemos !!!). El principal objetivo de PCA es encontrar una dirección que retenga la
máxima estructura en una dimensionalidad menor (los PCs). En LDA buscamos una
dirección que alcance la máxima separación entre las clases en una
dimensionalidad menor.
En LDA buscamos combinaciones de variables, llamadas funciones discriminantes,
variables canónicas o factores que discriminen entre las clases de muestras.
La importancia de cada variable en cada factor discriminante viene dada por su peso
/loading (weight) en el factor (combinación matemática).
(en PCA también hablamos de factores y loadings; en LDA no es lo mismo pero se pueden interpretar de
forma similar y, de hecho, muchas veces casi coinciden … pero NO necesariamente)
Si hay n clases, se necesitan n-1 funciones discriminantes.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
4
2
1
3
4
5
6
7
•8 •10 •12 •14 •15 •17 •19 •20
[Ca] PC1 = DF1
2
1
3
4
5
6
7
•8
•9 •11 •10 •12 •13
•14
•15 •16 •17 •18 •19 •20
pH
[Ca]
PC1
DF1
Factor 1 = w0 + w1*pH + w2*[Ca]
Datos autoescalados w0 = 0 (usual)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
•9 •11 •13
•16 •18
pH
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
PROBLEMAS TÍPICOS DE LDA:
1. Las Clases deben ser separables por
funciones lineales (QDA soluciona ese
problema).
2. Las Clases NO deben solapar (para
buenos resultados/modelos).
3. Cuidado con anómalos cuando
desarrolle el modelo.
2 1
3
4
5
6
7
•8 •9
•11
•10
•12 •13 •14
•15 •16 •17 •18 •19 •20
•8 •9 •10
•15 •16 •17 •18 •19 •20
2 1
3
4
5
6
7
•8 •9
•11
•10
•14
•15 •16 •17 •18 •19 •20
•8 •9 •10
•15 •16 •17 •18 •19 •20
4 6
7
4
7
2 1
3 5
11 10
•15 •16 •17 •18 •19
•15 •16 •17 •18 •19 •20
4 6 7
4 7
No línea recta
puede separar
No línea recta
puede separar
Realmente
pertenecen a
esas clases?
24/05/2012
5
MÁS PROBLEMAS DE LDA
4. LDA clasifica todas las muestras desconocidas. Incluso las muy diferentes
son asignadas a uno de los grupos.
5. Podríamos pensar que las muestras clasificadas en un grupo son
“claramente” parecidas a las que definían ese grupo en el aprendizaje, no
siempre es cierto.
6. n >>p, de lo contrario reducir p (por ejemplo por PCA) “regularized DA”.
7. No suele ser útil (punto de vista práctico) tener un número tan elevado de
funciones discriminantes como de variables originales.
8. LDA es bastante crítico con la normalidad de los datos, probar diferentes
transformaciones para normalizar los datos de partida. Además, LDA asume
covarianza aproximadamente igual en las diferentes clases. Si no es así aplicar
QDA.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
4.2.- DECISIONES BASADAS EN
PROBABILIDADES:
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
6
4.2.- INTRODUCCIÓN A LAS CURVAS DE POTENCIA
Desearíamos disponer de una técnica que, primero clasificase muestras
en grupos (modelo) y, luego, permitiese asignar las nuevas muestras al
grupo al que más se parezca (si es posible, según una probabilidad de
pertenencia para evitar decisiones subjetivas).
Hay varias técnicas que realizan esto (con varios niveles de
complejidad) (SIMCA, etc.). Aquí presentamos una sencilla y muy
intuitiva.
LDA no es capaz de reconcer que existen muestras que No son
realmente similares a las que tenía para definir los grupos en el training
set
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Pertenece a un tipo de métodos conocidos como “funciones de densidad (o
de probabilidad)”. En ellos se define una función (para todos los grupos la
misma) que limita una región espacial para cada grupo (diferentes funciones
diferentes métodos).
A continuación, se puede calcular la probabilidad de pertenencia de la
muestra a cada grupo, según su localización en el espacio.
La técnica elegida aquí se llama Curvas de Potencia y emplea las funciones
gausianas (aunque en dos dimensiones)
Isoprobability
elipses
a 1
( 1 ρ 2 )
A
A [X µx
σx
]2 [Y µy
σy
]2 2ρ [X µx
σx
] [Y µy
σy
]
f(X,Y)1
2πσxσy 1 ρ2
exp [A
2(1 ρ2 )] Prob [Sample Clase] 1 exp ( a /2) Area
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
7
Gausiana 2D
Elipses de isoprobabilidad
para un grupo en el
espacio PC1-PC2. Con
ellas se puede realizar la
clasificación fácilmente.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
El Procedimiento (incl. ejemplo)
1. Realizar un PCA y verificar que se
dispone de grupos diferenciados (i.e.,
relativamente bien separados y
relativamente homogéneos) en el
subespacio PC1-PC2 (el que explica más
información):
Classification of commercial liver pastes according to container type and heavy
metals contents by principal components analysis and potential curves Brito, Andrade, Havel, Diaz, Garcia, Pena-Mendez; Meat Science 74 (2006) 296–302
2. Alrededor de cada grupo, calcular una
función gausiana en 2-dimensiones
(dado que tenemos dos variables: PC1 y
PC2)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
8
Leyenda: A= ausencia de piezas de
carne; B= latas con piezas de carne;
C= paté de cerdo mezclado; D=paté
con aditivos declarados (paprica,
hierbas aromáticas, etc.)
3. Cada gausiana delimita una región en el espacioPC1-PC2 que es
específica para cada grupo. Dado que se almacenan los parámetros de
cada gausiana, las nuevas muestras se podrán proyectar en el modelo
original. 4. Los datos de las nuevas muestras se transforman a scores (usando el modelo
PCA) y se proyectan en el espacio PC1-PC2.
5. Dado que las funciones son conocidas, para cada grupo, podemos calcular la
probabilidad de pertenencia de cada una de las muestras a cada grupo.
6. Las muestras se asignan al grupo por el que muestren mayor probabilidad.
La Tabla muestras las
probabilidades de
pertenencia, a partir de
donde se toman decisiones Podemos “descubrir”
nuevos grupos
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
4.3.- DECISIONES BASADAS EN UN
ESTADÍSTICO:
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
9
4.3.- INTRODUCCIÓN A SIMCA
(Soft Independent Modelling of Class Analogy)
De forma similar a las curvas de potencia, SIMCA identifica muestras que pueden
pertenecer a varias clases y, por tanto no fuerza a las muestras a ser clasificadas en
un grupo (como LDA).
Una vez que se determina la existencia de clases, CADA UNA se caracteriza
mediante un PCA propio (modelo). Se determina la dimensionalidad de cada una de
ellas. Diferentes clases pueden tener dimensionalidades distintas (1 PC, 2 PCs, etc)
-ojo anómalos en cada clase-.
En torno a cada modelo se determina una región en la cual se sitúan las muestras de
calibrado mediante el cálculo de la distancia a la que se sitúan del modelo. A esto se
le llama distancia residual (1/muestra).
De ahí se calcula una distancia crítica que se podrá usar para predecir si las muestras
desconocidas se pueden considerar pertenecientes a esa región. La distancia crítica
se determina mediante un test F.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
En la actualidad los hiper-planos que definen los modelos SIMCA se “cierran”
mediante hiper-elipsoides calculados mediante estadísticos del tipo T2 de Hotelling
o la distancia de Mahalanobis.
Esto genera unas regiones en el espacio que caracterizan cada una de las clases:
1 PC cilindro 2 PCs paralelepípedo, etc.
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
24/05/2012
10
Para proceder a la clasificación de las muestras desconocidas, cada una de ellas se
proyecta en cada modelo (en cada clase habrá que conservar los parámetros de
escalado, loadings, etc.), Se calcula la distancia residual y la muestra se clasifica en la
clase para la cual su distancia residual sea menor que la crítica (esto permite clasificar
en varias clases).
De esta manera, la clasificación de una muestra viene dada por dos parámetros:
1. su distancia residual al modelo
2. su proyección dentro del modelo
Ambos deben ser menores que los valores límites de la distancia y del estadístico.
Los dos estadísticos más habituales son:
T2 de Hotelling:
= n · (x - µ)’ C-1 (x - µ)
Donde: n = muestras calibración, x
= vector problema, µ = media del
calibrado, C = matriz covarianza
Distancia de Mahalanobis (D):
= [(x - µ)’ C-1 (x - µ)]1/2
idem significados
La distancia de Mahalanobis es similar al
leverage, excepto por un factor de escala:
D = (n-1) * (h -1 /n)
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade
Gracias por su participación y paciencia
Congreso del AMQA, México DF, 25-29 de junio de 2012
José Manuel Andrade Garda