Material Curso Quimio

24/05/2012

1

José Manuel Andrade

Departamento de Química Analítica

Universidad de A Coruña

INTRODUCCIÓN AL ANÁLISIS

MULTIVARIABLE DE DATOS

José Manuel Andrade

Departamento de Química Analítica Universidad de A Coruña

PRIMERA INMERSIÓN PARA

QUÍMICOS ANALÍTICOS EN EL

ANÁLISIS MULTIVARIABLE DE

DATOS

24/05/2012

2

1.- Presentar los fundamentos de un conjunto de herramientas poderosas

para extraer información de los datos (en general, procedentes de

estudios amplios) de los cuales no sabemos nada (sin profundizar

mucho en las bases teóricas).

2.- Motivar la aplicación de dichas herramientas en estudios e industrias

que hagan uso de un número elevado de variables.

3.- Discutir con detalle algún ejemplo que sirva para clarificar los conceptos

presentados.

OBJETIVOS

CONGRESO AMQA Junio 2012 / Reconocimiento de Pautas JM Andrade

ÍNDICE JMAG2012

TEMARIO GENERAL Parte 1: Definición, Objetivos y Planteamiento Básico

Parte 2: Pretratamiento de los datos

Parte 3: Análisis exploratorio no supervisado

Parte 4: Fundamentos de clasificación supervisada

24/05/2012

3

Proceso Analítico

Definir Análisis

para el Problema

Defición del

Problema

por cliente

Seleccionar

muestras

Estrategia

muestreo

Tratamiento de

Muestra (operaciones

previas)

Análisis

(Separación y

detección)

Procesar datos Y almacenar

Calibrar

Evaluar e

Interpretar Datos

Sistema Calidad


¿Cuándo nació?

Aprox. 1974 cuando Prof. Bruce Kowalski (Seattle, Washington) y Prof. Svante

Wold (Umeå, Suecia) necesitaron una palabra clave para incluir en proyectos y

describir su actividad (petición de financiación por parte del gobierno!!). “La

Sociedad de Quimiometría fue creada en 1974 durante una alegre noche en un MexTex restaurante

en Seattle” (Dave Duewer; http://www. namics.nysaes.cornell.edu/history.html)

Sus “parientes” más cercanos:

Biometría, Estadística Clínica, Psicometría, etc. (La Química fue una de las últimas ciencias en incluir las técnicas englobadas bajo esta

denominación). En la actualidad es un campo aplicado/desarrollado fundamentalmente en /

por la Química Analítica.


http://www.namics.nysaes.cornell.edu/












24/05/2012

4

Su definición y objetivo:

Conjunto de herramientas matemáticas, estadísticas y de la lógica formal

aplicadas para el diseño, selección y optimización de procedimientos

analíticos, así como para extraer la máxima información útil del sistema

bajo estudio.

En la actualidad es una rama fundamental de la Química Analítica y que ha

permitido una actualización en sus postulados epistemológicos (=misión de

la Química Analítica).

Los estudios quimiométricos (multivariantes) constan de dos etapas básicas:

1.- Realizar un tratamiento matemático (estadístico) de los datos

2.- Interpretar químicamente los resultados derivados de 1

(ambas son importantes)

Surgió como una consecuencia directa de los últimos avances en la Química

Analítica y su definición metodológica, la cual se centra en:

• Calidad (estandarización, trazabilidad, etc.)

• Diseño y optimización de métodos de medida

• Extracción de información


La Quimiometría NO es nueva en Química … Un Químico (William Sealy Gosset)

Control de Calidad en …


24/05/2012

5

El uso de la estadística aplicada a la Química

requiere MUCHA precaución.

El profesor Forina nos lo recordaba en Junio2010:

• La mayoría de aplicaciones reales de la quimiometría se realizan usando softwares comerciales … donde aplicar un botón es tan fácil …

• Qué /quién puede apretar un botón ?

• El nivel de conocimientos quimiométricos es en general muy bajo. El uso “ciego” de los software comerciales hace que no se preste atención en las bases del problema, en su definición y la validación es muy defectuosa.

• Uno debe ser siempre muy riguroso, tanto como sea posible … pero no con rigor mortis: la relevancia química es lo primero (S. Wold, Chemolab 30 (1995) 109)


Antes de desarrollar cualquier tipo de modelo quimiométrico,

ES CRÍTICO RECORDAR SIEMPRE:

1.- Solo se pueden obtener estudios quimiométricos multivariantes correctos si los

datos de partida son exactos y precisos. Tan solo se podrá hacer una

interpretación correcta de los modelos/regresiones cuando los datos de partida

sean fiables y reflejen la realidad (lo cual no es fácil de asegurar!!!!). 2.- Los estudios quimiométricos multivariantes NO pueden mejorar la precisión, la

exactitud, etc.

GIGO (garbage in, garbage out)

3.- NO imponga “soluciones” iniciales a los datos. Es muy común y muy fácil

hacerlo (inconscientemente), en cuyo caso todo el estudio está sesgado.

(p.ej. “Quiero comprobar si puedo verificar …”)


24/05/2012

6

4.- Los resultados de la quimiometría multivariante NO son la realidad, ellos

tratan de resumirla y mostrarla al científico. Hay que ser muy cuidadoso con

las extrapolaciones.

5.- SEA CRÍTICO: diferentes técnicas conducen a soluciones diferentes;

estudielas todas, busque sus tendencias generales (el “consenso”) y verifique

que los hechos bien conocidos y los principios químicos no se violan. Las

computadoras ofrecen muchas tablas y dibujos pero es el Químico (el

científico o el técnico) quien es responsible por la correcta interpretación.

La perfección no existe (ni las soluciones perfectas) …

… ni tan siquiera para el ojo humano …

A pesar de que es una de las computadoras más perfectas que existen


1.- PROCESO GENERAL DE TRABAJO

Necesario probar varios modelos

Recuerde … sea paciente

1 Definición del problema

(clara y completa)

2 Obtener datos

3 Analizar

datos

4 Formular

Hipótesis/

conclusiones

5 Interpretar

Resultados

Validar tanto como sea posible

Adaptado de R. Kenett, Scientific Computing World, 91, 2007, 29

6 Presentar

Resultados


24/05/2012

7

2.- CLASIFICACIÓN DE LAS TÉCNICAS QUIMIOMÉTRICAS

MULTIVARIANTES MÁS COMUNES

Rosa Lletí Contreras, Tesis Doct U. Burgos (Spain), 2004

• Nivel 0 : no se dispone de conocimiento previo técnicas no

supervisadas de reconocimiento de pautas técnicas exploratorias (sin

hipótesis previas)

PCA (análisis de componentes principales / análisis factorial), análisis Cluster, K-means,

redes neuronales artificiales de Kohonen, etc.

• Nivel 1: algún conocimiento previo métodos de clasificación

LDA, redes de neuronas artificiales, etc.

• Nivel 2: métodos para modelar clases (pueden calculares probabilidades de pertenencia

a grupos)

métodos supervisados

SIMCA, funciones de densidad, etc.

• Nivel 3: Modelos de regresión con una propiedad a predecir.

• Nivel 4: Modelos de regresión con varias propiedades a predecir.


EN FUNCIÓN DEL GRADO DE CONOCIMIENTO PREVIO QUE SE TENGA DE LOS DATOS.

¿El “orden” de los datos?

Orden cero = un valor tomado de un equipo (pH) para una muestra Orden uno = una serie ordenada de datos tomados de un equipo para una muestra

(espectro, cromatograma, cinética, etc.)

Orden dos = una matriz de datos / muestra (CG-CG, CG-MS, Fluorescencia

emisión+absorción) Orden tres = un cubo de datos / muestra (CG-CG-HPLC, HPLC-Array)

Cuanto mayor sea el orden de los datos mejor se podrá determinar si existen

interferentes que contribuyan a la señal medida, cuantificar el analito de interés en su

presencia e, incluso, evaluar el grado de participación de los interferentes en la señal

que se mide (= ventaja de segundo orden, sólo para datos de orden 2 o superior)

Con la técnica PLS se podrá determinar el analito en presencia de interferentes que se

hayan modelado pero no en presencia de interferentes no incluidos en la calibración.


24/05/2012

8

CÓMO ORGANIZAR LOS DATOS

Y CÓMO PRE-TRATARLOS






2.1.- CÓMO ORGANIZAR LOS DATOS

Por convenio:

todos los software modernos asumen que los datos se han dispuesto como…

Variables

Muestras

(casos, objetos)

xij (minúscula) es un punto/dato, corresponde a la muestra i (=2) y la variable j (=3)

xi (negrilla, minúscula) indica un vector de datos

Puede ser una fila , todas las variables para la muestra i (=3)

Puede ser una columna todos los valores para la variable (5)

para todas las muestras

X (negrilla, mayúscula)= toda la matriz de datos (2 dimensiones)


24/05/2012

9

Muchas técnicas multivariantes analizan la varianza y tratan de descomponerla

en sus componentes mayoritarios (factores). Aunque no abordaremos

demasiadas matemáticas, es importante conocer la jerga.

CUESTIONES PREVIAS (1)

La varianza de una serie de resultados se define como SD2, Interpretación

química = dispersión, (las varianzas pueden ser sumadas, divididas, etc. … las

SD NO!!)

La covarianza de dos variables es una indicación de si varían al mismo tiempo

(una incrementa cuando la otra incrementa –o disminuye). Se define como:

)))(((1

1),( YYXX

nYXCov ))((

1

1),( 22 XX

nSDXXCov

La correlación es un caso especial de la covarianza, cuando se escalan las

variables (por su SDs). Se define como:

YX

i

ii

YXSS

YYXX

nYXCorr

.

))((

1

1),( ,

Interpretación: el coseno del

ángulo formado por dos vectores

(por esto, el coef. de correlación

varía -1<0<1)


Los métodos quimiométricos de reconocimiento de pautas tratan de:

* identificar las variables que están relacionadas y estudiar qué

relevancia tienen para describir las muestras

* identificar grupos de muestras similares

Veremos que esto corresponde con decidir qué varianzas (covarianzas) son más

relevantes y si existen diferencias significativas entre ellas.

PERO un problema es que nuestras variables pueden haber sido medidas en

diferentes escalas y/o extenderse en diferentes rangos: % humedad, pH, metales

mayoritarios (Ca, Ba, Mg, etc., en ppm), metales pesados (Cd, As, Hg, etc, en

ppb), pesticidas (ppb o ppt), etc.

Es previsible que la varianza de una variable medida en el rango de kg sea

mayor que la varianza de una variable medida en el rango de mg. Para nuestror

propósitos necesitaríamos algo similar a la RSD (DER) con objeto de

compararlas.

La situación es similar cuando se trabaja con las técnicas multivariantes si no

consideramos el efecto de las escalas podríamos llegar a conclusiones erróneas.

2.2.- CÓMO PRETRATAR LOS DATOS


24/05/2012

10

Esto significa que ANTES de comenzar con los cálculos, debemos convertir todos los datos

a una escala común.

Desgraciadamente NO hay una regla de oro y tendremos que probar qué escala conduce

(aparentemente) a los resultados más interpretables. Esto es lo que se llama

pretratamiento de los datos y NO es una etapa trivial.

En casos complejos, por ejemplo, al analizar datos espectrales podemos necesitar filtrar

los datos o aplicar primera y/o segunda derivada (u otras opciones).

Reportar siempre el tratamiento de los datos realizado. Es vital interpretar los resultados y,

si no resultan satisfactorios repetir los cálculos con otro escalado.

Una regla sencilla, que SUELE funcionar bien:

Diferentes unidades en las variables autoescalado

Mismas unidades en las variables centrado en la media (o nada)

(Otros escalados habituales: log(x), normalización 0 -1 , etc)


[n,p]=size(X) ; m1=mean(X) ; s1=std(X)

for i=1:p; X(:,i)=(X(:,i)-m1(:,i)) ; end

for i=1:p; X(:,i)=(X(:,i)-m1(:,i))/s1(:,i) ; end

z=max(X'); for i=1:n; X(i,:)=X(i,:)/z(1,i);end

for i=1:p; X(:,i)=log(X(:,i)+1) ; end

… y sus combinaciones

Algunos ejemplos:

Centrado en la media elimina el efecto de las escalas mediante la transformación de

todas las medidas a un orígen común, típicamente cero. La amplitud de las variables

todavía depende de la escala, i.e., todavía tenemos ppm, ppb, %, etc., aunque todos

los valores están en torno al cero (positivos y negativos).

Si crees que las diferencias entre las magnitudes de las variables es importante para

la clasificación (o para determinar una pauta), la primera elección debe ser centrado

en la media.

2.2.1.- Centrado en la media y autoescalado … Las dos opciones más usadas …


24/05/2012

11

0 100 200 300 400 500 600-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

original

0 100 200 300 400 500 600-0.03

-0.02

-0.01

0

0.01

0.02

0.03

Centrado en media

outlier

Variables más importantes

Grupo 1

Grupo 2

EJEMPLO:

Las variables más relevantes de un espectro son las longitudes de onda con las

mayores absorbancias. Por tanto, el centrado en la media es habitualmente

apropiado para discriminar grupos de muestras.


Si no está claro si las diferencias entre las muestras son un reflejo de la magnitud de

las variables sino, más bien, de sus perfiles relativos Autoescalado debería ser la

primera opción.

Autoescalado lleva todas las variables a una misma escala, i.e., unidades de SD (o

varianza). Como consecuencia, las variables relevantes tienen el mismo peso que las

variables que tienen sólo ruído. De hecho, autoescalado puede dar demasiada

importancia a variables ruidosas (simplemente porque su varianza es relativamente

grande … porque … ellas son ruido!!!).

0 100 200 300 400 500 600-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

original

0 100 200 300 400 500 600-3

-2

-1

0

1

2

3

4

Autoescalado

outlier

Variables importantes?


24/05/2012

12

TRATAMIENTOS TÍPICOS PARA LOS DATOS ESPECTRALES

0 100 200 300 400 500

Number of the variable-0.03

-0.02

-0.01

0

0.01

0.02

0.03

1st derivative

1ª (offset cte) y 2ª derivadas (offset proporcional)

(adicionalmente al tratamiento clásico de corrección de línea base espectral)

2.2.2.- Evitar efectos de línea de base

0 100 200 300 400 500 600-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 100 200 300 400 500 600-8

-6

-4

-2

0

2

4

6x 10

-3

2a derivada

CUIDADO:

1. Las derivadas degradan la relación S/N porque incrementan el ruido, para evitarlo conviene

filtrar antes de derivar (el problema es tanto mayor cuando mayor sea el orden de la

derivada).

2. Los modelos de calibración son menos robustos a pequeños cambios instrumentales,

especialmente pequeños desplazamientos de las long.ond.


2.2.3.- Evitar espectros muy ruidosos

Filtrar varias opciones (filtros de Kalman, Savitsky-Golay (el más habitual), etc)

El filtrado mediante Savitzky–Golay (1964, Abraham Savitzky / Marcel J. E. Golay)

consiste en sustituir el dato “ruidoso” por un promedio de los valores que lo anteceden

y siguen. En esencia (hay varias posibilidades), se trata de realizar una regresión local

(empleando un polinomio de grado k) en un conjunto de al menos k+1 puntos

igualmente espaciados antes y después del punto a sustituir.

(NOTA: Con una aproximación similar también se calculan de forma inmediata las

primeras derivadas)


24/05/2012

13

2.2.4.- Evitar fenómenos asociados a la diferente penetración de la radiacion

Reflectancia total atenuada la penetración de la radiación es función del

número de onda –frecuencia- . Menores números de onda (mayores long.ond) conducen a

menores absorbancias que los números de onda mayores (menores long.ond).

También hay que tener en cuenta el buen contacto de la muestra con el cristal.

El espectro ATR (reflectancia) es ligeramente diferente al tradicional (de transmisión),

especialmente la intensidad relativa de los picos y, para realizar comparaciones,

debe corregirse.

Hay distintas funciones implementadas

en los softwares de los instrumentos

de medida.


2.2.5.- REFLECTANCIA DIFUSA Standard Normal Variate (SNV) + Detrending

Los espectros obtenidos mediante reflectancia difusa se ven afectados por la

distribución no homogénea de las partículas (forma, tamaño y empaquetamiento) y el

diferente fenómeno de scattering que esto provoca (que puede constituir buena parte

de la varianza del espectro homogeneizar muestra

El grado de scattering (dispersión) depende de la longitud de onda y del índice de

refracción de la muestra. Típicamente se observan movimientos de la línea de base,

movimiento en los picos y/o curvaturas. Los efectos son más acusados con las

mayores long.ond.

A priori Aplicar cuando las respuestas son lineales con la concentración.

Convertir antes todos los espectros de unidades de reflectancia a Log(1/R) (para

asimilar a espectro de transmitancia) mediante ecuaciones de Kubelka-Munk.

Las diferencias entre los espectros de las muestras se deben principalmente a:

1. Dispersión no-específica en la superficie de las partículas

2. Penetración diferente de las long.ond a través de la muestra (“paso óptico” diferente)

3. Composición química de la muestra.

En calibración nos interesa considerar sólo la tercera opción.


24/05/2012

14

La dispersión se corrige normalizando

(autoescalando) cada espectro

empleando la media y la desv. stand.

de los datos a lo largo de la región

espectral.


Para evitar la apariencia de línea base en pendiente suele aplicarse “Detrending” (distintos algoritmos para distintas casas comerciales)

Se ajusta una parábola a los datos espectrales. A continuación,

dato corregido = dato espectral – dato ajustado en la parábola

La curvatura parabólica se elige para tratar de corregir los efectos

de tamaño de partícula y empaquetamiento de la muestra.

OJO: SNV puede provocar

alguna no linealidad en los

datos, tratar de que las

muestras no sean muy

diferentes!!!


24/05/2012

15

Considera que el comportamiento/espectro de cada muestra (forma de dispersar la radiación y

cambios en el paso óptico) se aleja del espectro “ideal” de una muestra tipo no afectada por

fenómenos de dispersión indeseados

En la práctica el promedio de todas las muestras empleadas para el calibrado

( las muestras a predecir NO se alejarán demasiado de dicho promedio).

Cada espectro se corrige de forma que todas las muestras tengan el mismo nivel de

dispersión que la “ideal”.

Para cada muestra se hace una regresión entre su espectro y el “ideal”:

xi = a + b·xprom + e

La corrección MSC será:

xijMSC = (xij – a)/b (j=(num. variables)=1,2,…,p)

2.2.6.- Multiplicative Scatter Correction (MSC)


CUIDADO !!!

NO realizar combinaciones muy complicadas o inusuales para el

pretratamiento de los datos porque pueden complicar la interpretación

de los resultados.

NOTA: MSC y SNV tienden a dar resultados equivalentes


24/05/2012

16

2.2.7.- CROMATOGRAFÍA (ampliándose a espectroscopia) : Corregir por ligeros

desplazamientos de los picos Cromatográficos Técnicas de Warping

Referencias:

Tomasi, G., van den Berg, F., Andersson, C., Journal of Chemometrics, 18(2004) 231-241

Skov T, van den Berg F, Tomasi G, Bro R, Journal of Chemometrics, 20(11-12) (2006) 484-497


24/05/2012

1

ESTUDIO DE LAS VARIABLES ANALÍTICAS Y REDUCCIÓN

DE LA DIMENSIONALIDAD:






Algunas de las técnicas para estudiar las muestras (métodos Cluster) son intuitivas y

fáciles pero no son la mejor opción para aproximarse por primera vez a los datos,

fundamentalmente porque pueden ofrecer resultados difíciles de interpretar.

El ser humano no puede ver en más de tres dimensiones, pero … cuantas dimensiones

hay en nuestros datos …??

Necesitamos una herramienta para reducir la dimensionalidad del problema (=número

de variables) PERO sin perder información relevante. Esta herramienta debería

permitirnos estudiar relaciones entre las variables y ver pautas en los datos.

Finalmente, necesitamos determinar la razón subyacente en las pautas observadas

(grupos de muestras) y, por tanto, interpretar lo que hay detrás de los datos.

Todo esto puede lograrse aplicando una técnica matemática que descompone la matriz de

datos (en realidad su varianza) en sus “componentes” principales (recordar ANOVA). Esto

se llama Análisis de Componentes Principales –PCA- (análisis factorial).

Los componentes extraidos se llaman Componentes Principales –PC-.

Aunque esto suena esotérico, se trata de una propiedad inherente a las matrices de datos.

3.1.- ANÁLISIS DE COMPONENTES PRINCIPALES, ¿POR QUÉ ?


24/05/2012

2

Ejemplo:

Supongamos que hemos medido una muestra y hemos obtenido:

pH=4 , [Ca]=2.5 ppm, [Mg]=10 ppm

Una forma trivial de descomponer el vector (4, 2.5, 10) es considerar

los vectores unitarios: (1,0,0) (0,1,0) (0,0,1)

i.e. muestra 1= 4*(1,0,0)+2.5(0,1,0)+10*(0,0,1)

Estos vectores unitarios serían (en una primera aproximación) los

“componentes principales” de este vector. Esta descomposición es

más compleja para las matrices pero esa es la idea conceptual.

La idea general consiste en buscar un conjunto de vectores tal que cuando se

multiplican entre ellos se reproduzca la matriz de datos original. Aunque esto no es

fácil de visualizar en múltiples dimensiones, es bastante intuitivo para datos 3D.


La principal ventaja de PCA es que permite la reducción de dimensionalidad de

los datos BAJO la condición de que se retiene tanta información (varianza)

como sea posible (esta cantidad puede calcularse fácilmente).

Debe destacar que PCA fue diseñado para analizar VARIABLES y buscar

asociaciones entre ellas, tendencias, retener varianza, etc.

No obstante, también se puede usar para analizar muestras (un “subproducto”

muy importante!!!!).

Ahora necesitamos revisar alguna matemática,

simplemente para saber qué subyace cuando

aplicamos PCA.

Hay tres grandes vías para descomponer una matriz:

• Calcular los eigenvalores y los eigenvectores, el método original más antiguo

• Descomposición en valores singulares (svd), el método de referencia

• Nipals, muy rápido, aunque aproximado

PCA en la práctica


24/05/2012

3

Opción 1: Eigenvalores y Eigenvectores

Un vector v es un eigenvector (vector propio) de la matriz X, con un

eigenvalor (valor propio) λ cuando se satisface X·v = λ·v. Esto

conduce a un sistema de ecuaciones que se soluciona calculando

el llamado determinante característico (det(X – λ·I)=0). nnnnn

nn

nn

vavavx

vavavx

vavavx

)(...0

...

...)(0

...)(0

2211

2222121

1212111

Una vez que los eigenvalores se conocen, se determinan los vectores propios (eigenvectores, v).

De este determinante se deduce una ecuación polinómica (en λ),

por ejemplo λ3- 11λ2+36 λ-36=0

Para calcular las raices del polinomio (se podría hacer por el método de “Ruffini”) se impone la

condición de que los valores de λ verifiquen λ1> λ2> λ3> λ4> …

En este caso son λ =6, 3 y 2 y se corresponden, precisamente, con los valores propios de X


Opción 2: Descomposición en Valores Singulares

La matriz X se descompone en un producto de tres matrices:

X = USVT

(n x p) = (n x k) · (k x k) · (k x p)

De tal forma que las columnas de V son los eigenvectores; S es una matriz diagonal cuyos

valores son las raíces cuadradas de los eigenvalores ( sii= λ );

las columnas de U (multiplicados por sii ) se llaman “scores” y están relacionados con las

muestras.

Las columnas de V se llaman “loadings”, y se relacionan con las variables.

(T) significa traspuesta


24/05/2012

4

Opción 3: método Nipals

Es un método muy rápido y aproximado para descomponer una matriz en dos:

X=TPT (T) significa traspuesta

La matriz T se relaciona con las muestras y contiene los “scores”

La matriz P se relaciona con las variables y contiene los “loadings”

Los vectores de scores y loadings es lo que necesitamos para llevar a

cabo un PCA y tratar de obtener un buen conocimiento del problema.


Parece que no hemos hecho nada, pero :

• nosotros podemos retener sólo los primeros componentes principales (1, 2, 3) para

descomponer la matriz de datos; los restantes componentes principales pueden ser

considerados como aleatorios, reflejando ruido principalmente.

• ¿Por qué? Por definición, los primeros PCs explican la mayor parte de la varianza

(=información) en los datos, sólo se pierde una pequeña parte cuando los PCs finales

son descartados. Esto significa que podemos reducir la dimensionalidad del problema

(p.ej., desde 30 variables originales a, quizá, 3 PCs), SIN PERDER información

importante presente en los datos. La importancia de cada PC viene dada por su

eigenvalor.

• Muchas veces los PCs pueden tener un significado químico (mineralización de las

aguas, toxicidad, PAHs de dos anillos, etc.) y, por tanto, podemos resumir la

información presente en los datos en algunos conceptos químicos básicos.

Recuérdese que, por definición, el primer PC extraído es el más importante, el

segundo más que el tercero, etc.

Hay que evaluar críticamente no sólo el significado químico de cada componente sino

su posible relevancia estadística

VALE … Y AHORA … ¿QUÉ?


24/05/2012

5

• También por definición los PCs son ortogonales. Esto significa que la

información explicada por un PC no se incluye en otros PCs.

Por tanto, si encontramos, por ejemplo, que PC1 está correlado principalmente

con la salinidad de la aguas, este efecto no debería estar presente en otros

factores.

• Como solo consideramos un número reducido de PCs, podemos obtener

fácilmente gráficos 2D y/o 3D los cuales nos permiten visualizar el problema

(variables y muestras)

Estas son ventajas muy importantes !!


En 1975 S. Wold, P. Geladi y otros presentaron en un libro del

prof. Kowalski una interpretación gráfica que muchos

empleamos (todavía!!) hoy

(es muy intuitiva y refleja lo que las matemáticas hacen,

pero NO es el proceso real de cálculo!!)

PC1=a*Var1 + b*Var2 + c*Var3

Línea de regresión (ajuste min.cuadrad) que ajusta mejor

todos los puntos => dirección de máxima varianza

(dispersión de los datos)

Importancia de esta variable para definir

esta línea = loading

Dónde está la muestra? Proyecta vert.

El punto (como siempre) y mide la

Distancia desde el origen = score


Var1

Var2

Var3

24/05/2012

6

Podemos continuar hasta que el número de PCs iguala el número de variables

(o muestras, si son menos). Pero, en general, esto no es útil. Es mejor parar

cuando hemos obtenido 60-70% de la varianza total, que es lo típico para 2 o 3

PCs.

Var1

Var2

Var3

CUIDADO con las

muestras anómalas

(outliers). Hacer

estudios

preliminares


24/05/2012

1







Entramos así en lo que se denomina “Reconocimiento supervisado de pautas”, lo

que significa que disponemos de gran cantidad de información acerca de las

muestras y queremos modelar dicha información con objeto de realizar

predicciones sobre muestras nuevas desconocidas.

Hay muchas técnicas disponibles y sólo hablaremos de tres sencillas

PCA es la base para un gran número de técnicas con diferentes aplicaciones

interesantes. Por ejemplo:

• Análisis lineal discriminante (Linear Discriminant Analysis, LDA) para

clasificar muestras nuevas

• Curvas de potencia para clasificar muestras nuevas según una

probabilidad

• Rotación de Procrustes para comparar datos de varios muestreos,

producciones, etc.

para seleccionar mínimo conjunto de variables

24/05/2012

2

Sea cual sea la técnica de trabajo, para llevar a cabo el Reconocimiento Supervisado

de Pautas necesitamos:

1. Un conjunto de muestras de entrenamiento (aprendizaje, Training set): una

colección de muestras bien conocidas, sobre las que se han medido (con

exactitud) un conjunto de variables.

2. Seleccionar algunas variables que sean relevantes para la clasificación (o

discriminación).

3. Calcular una regla de clasificación, usando el training set

4. Un conjunto nuevo de muestras de validación (validation set) para validar las

reglas de clasificación to validate the classification rule (ojo!!, esas muestras deben

ser conocidas para nosotros pero no para los modelos)

Los items 2 y 3 determinan el método quimiométrico a emplear. Muchas posibilidades

veremos 2


4.1.- CLASIFICACIÓN DE MUESTRAS:


24/05/2012

3

4.1.- INTRODUCCIÓN AL ANÁLISIS LINEAL DISCRIMINANTE

Clustering y PCA son métodos muy eficientes para realizar el reconocimiento de

pautas cuando no disponemos de ninguna información previa. PERO ELLOS

NO SON adecuados para problemas más avanzados (nivel 2 de reconocimiento

de pautas):

Supongamos que tenemos diferentes tipos de muestras (conocidos) y que,

además, hemos recibido nuevas muestras que deben ser clasificadas en uno de

“esos” tipos.

Clustering y PCA NO son adecuados para esta tarea … podría existir la

posibilidad de unir todas las muestras y repetir los estudios …

… no muy sensato ni efectivo

En lugar de ello nos gustaría disponer de una técnica que pudiese, primero,

distribuir muestras en grupos y, luego, asignar nuevas muestras a uno de esos

grupos

Hay varias técnicas quimiométricas que pueden hacer esto, con diversa

complejidad (SIMCA, LDA, etc.) AQUÍ LDA.


CONCEPTOS BÁSICOS DE LDA

Disponemos de un conjunto de entrenamiento en el cual hay varias clases de

muestras y necesitamos seleccionar (calcular) qué variables son relevantes para

discriminar entre ellas.

PCA serviría para determinar si existen grupos de muestras (pero esto ya lo

sabemos !!!). El principal objetivo de PCA es encontrar una dirección que retenga la

máxima estructura en una dimensionalidad menor (los PCs). En LDA buscamos una

dirección que alcance la máxima separación entre las clases en una

dimensionalidad menor.

En LDA buscamos combinaciones de variables, llamadas funciones discriminantes,

variables canónicas o factores que discriminen entre las clases de muestras.

La importancia de cada variable en cada factor discriminante viene dada por su peso

/loading (weight) en el factor (combinación matemática).

(en PCA también hablamos de factores y loadings; en LDA no es lo mismo pero se pueden interpretar de

forma similar y, de hecho, muchas veces casi coinciden … pero NO necesariamente)

Si hay n clases, se necesitan n-1 funciones discriminantes.


24/05/2012

4

2

1

3

4

5

6

7

•8 •10 •12 •14 •15 •17 •19 •20

[Ca] PC1 = DF1

2

1

3

4

5

6

7

•8

•9 •11 •10 •12 •13

•14

•15 •16 •17 •18 •19 •20

pH

[Ca]

PC1

DF1

Factor 1 = w0 + w1*pH + w2*[Ca]

Datos autoescalados w0 = 0 (usual)


•9 •11 •13

•16 •18

pH


PROBLEMAS TÍPICOS DE LDA:

1. Las Clases deben ser separables por

funciones lineales (QDA soluciona ese

problema).

2. Las Clases NO deben solapar (para

buenos resultados/modelos).

3. Cuidado con anómalos cuando

desarrolle el modelo.

2 1

3

4

5

6

7

•8 •9

•11

•10

•12 •13 •14

•15 •16 •17 •18 •19 •20

•8 •9 •10

•15 •16 •17 •18 •19 •20

2 1

3

4

5

6

7

•8 •9

•11

•10

•14

•15 •16 •17 •18 •19 •20

•8 •9 •10

•15 •16 •17 •18 •19 •20

4 6

7

4

7

2 1

3 5

11 10

•15 •16 •17 •18 •19

•15 •16 •17 •18 •19 •20

4 6 7

4 7

No línea recta

puede separar

No línea recta

puede separar

Realmente

pertenecen a

esas clases?

24/05/2012

5

MÁS PROBLEMAS DE LDA

4. LDA clasifica todas las muestras desconocidas. Incluso las muy diferentes

son asignadas a uno de los grupos.

5. Podríamos pensar que las muestras clasificadas en un grupo son

“claramente” parecidas a las que definían ese grupo en el aprendizaje, no

siempre es cierto.

6. n >>p, de lo contrario reducir p (por ejemplo por PCA) “regularized DA”.

7. No suele ser útil (punto de vista práctico) tener un número tan elevado de

funciones discriminantes como de variables originales.

8. LDA es bastante crítico con la normalidad de los datos, probar diferentes

transformaciones para normalizar los datos de partida. Además, LDA asume

covarianza aproximadamente igual en las diferentes clases. Si no es así aplicar

QDA.


4.2.- DECISIONES BASADAS EN

PROBABILIDADES:


24/05/2012

6

4.2.- INTRODUCCIÓN A LAS CURVAS DE POTENCIA

Desearíamos disponer de una técnica que, primero clasificase muestras

en grupos (modelo) y, luego, permitiese asignar las nuevas muestras al

grupo al que más se parezca (si es posible, según una probabilidad de

pertenencia para evitar decisiones subjetivas).

Hay varias técnicas que realizan esto (con varios niveles de

complejidad) (SIMCA, etc.). Aquí presentamos una sencilla y muy

intuitiva.

LDA no es capaz de reconcer que existen muestras que No son

realmente similares a las que tenía para definir los grupos en el training

set


Pertenece a un tipo de métodos conocidos como “funciones de densidad (o

de probabilidad)”. En ellos se define una función (para todos los grupos la

misma) que limita una región espacial para cada grupo (diferentes funciones

diferentes métodos).

A continuación, se puede calcular la probabilidad de pertenencia de la

muestra a cada grupo, según su localización en el espacio.

La técnica elegida aquí se llama Curvas de Potencia y emplea las funciones

gausianas (aunque en dos dimensiones)

Isoprobability

elipses

a 1

( 1 ρ 2 )

A

A [X µx

σx

]2 [Y µy

σy

]2 2ρ [X µx

σx

] [Y µy

σy

]

f(X,Y)1

2πσxσy 1 ρ2

exp [A

2(1 ρ2 )] Prob [Sample Clase] 1 exp ( a /2) Area


24/05/2012

7

Gausiana 2D

Elipses de isoprobabilidad

para un grupo en el

espacio PC1-PC2. Con

ellas se puede realizar la

clasificación fácilmente.


El Procedimiento (incl. ejemplo)

1. Realizar un PCA y verificar que se

dispone de grupos diferenciados (i.e.,

relativamente bien separados y

relativamente homogéneos) en el

subespacio PC1-PC2 (el que explica más

información):

Classification of commercial liver pastes according to container type and heavy

metals contents by principal components analysis and potential curves Brito, Andrade, Havel, Diaz, Garcia, Pena-Mendez; Meat Science 74 (2006) 296–302

2. Alrededor de cada grupo, calcular una

función gausiana en 2-dimensiones

(dado que tenemos dos variables: PC1 y

PC2)


24/05/2012

8

Leyenda: A= ausencia de piezas de

carne; B= latas con piezas de carne;

C= paté de cerdo mezclado; D=paté

con aditivos declarados (paprica,

hierbas aromáticas, etc.)

3. Cada gausiana delimita una región en el espacioPC1-PC2 que es

específica para cada grupo. Dado que se almacenan los parámetros de

cada gausiana, las nuevas muestras se podrán proyectar en el modelo

original. 4. Los datos de las nuevas muestras se transforman a scores (usando el modelo

PCA) y se proyectan en el espacio PC1-PC2.

5. Dado que las funciones son conocidas, para cada grupo, podemos calcular la

probabilidad de pertenencia de cada una de las muestras a cada grupo.

6. Las muestras se asignan al grupo por el que muestren mayor probabilidad.

La Tabla muestras las

probabilidades de

pertenencia, a partir de

donde se toman decisiones Podemos “descubrir”

nuevos grupos


4.3.- DECISIONES BASADAS EN UN

ESTADÍSTICO:


24/05/2012

9

4.3.- INTRODUCCIÓN A SIMCA

(Soft Independent Modelling of Class Analogy)

De forma similar a las curvas de potencia, SIMCA identifica muestras que pueden

pertenecer a varias clases y, por tanto no fuerza a las muestras a ser clasificadas en

un grupo (como LDA).

Una vez que se determina la existencia de clases, CADA UNA se caracteriza

mediante un PCA propio (modelo). Se determina la dimensionalidad de cada una de

ellas. Diferentes clases pueden tener dimensionalidades distintas (1 PC, 2 PCs, etc)

-ojo anómalos en cada clase-.

En torno a cada modelo se determina una región en la cual se sitúan las muestras de

calibrado mediante el cálculo de la distancia a la que se sitúan del modelo. A esto se

le llama distancia residual (1/muestra).

De ahí se calcula una distancia crítica que se podrá usar para predecir si las muestras

desconocidas se pueden considerar pertenecientes a esa región. La distancia crítica

se determina mediante un test F.


En la actualidad los hiper-planos que definen los modelos SIMCA se “cierran”

mediante hiper-elipsoides calculados mediante estadísticos del tipo T2 de Hotelling

o la distancia de Mahalanobis.

Esto genera unas regiones en el espacio que caracterizan cada una de las clases:

1 PC cilindro 2 PCs paralelepípedo, etc.


24/05/2012

10

Para proceder a la clasificación de las muestras desconocidas, cada una de ellas se

proyecta en cada modelo (en cada clase habrá que conservar los parámetros de

escalado, loadings, etc.), Se calcula la distancia residual y la muestra se clasifica en la

clase para la cual su distancia residual sea menor que la crítica (esto permite clasificar

en varias clases).

De esta manera, la clasificación de una muestra viene dada por dos parámetros:

1. su distancia residual al modelo

2. su proyección dentro del modelo

Ambos deben ser menores que los valores límites de la distancia y del estadístico.

Los dos estadísticos más habituales son:

T2 de Hotelling:

= n · (x - µ)’ C-1 (x - µ)

Donde: n = muestras calibración, x

= vector problema, µ = media del

calibrado, C = matriz covarianza

Distancia de Mahalanobis (D):

= [(x - µ)’ C-1 (x - µ)]1/2

idem significados

La distancia de Mahalanobis es similar al

leverage, excepto por un factor de escala:

D = (n-1) * (h -1 /n)



Gracias por su participación y paciencia

Congreso del AMQA, México DF, 25-29 de junio de 2012

José Manuel Andrade Garda

[email protected]

Documents

Material Curso Quimio