109

Ana Carolina de Oliveira Neves Dissertação de Mestrado

Embed Size (px)

Citation preview

Page 1: Ana Carolina de Oliveira Neves Dissertação de Mestrado
Page 2: Ana Carolina de Oliveira Neves Dissertação de Mestrado

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIÊNCIAS EXATAS E DA TERRA

PROGRAMA DE PÓS-GRADUAÇÃO EM QUÍMICA

Ana Carolina de Oliveira Neves

Espectroscopia no infravermelho próximo e métodos de calibração multivariada

aplicados à determinação simultânea de parâmetros bioquímicos em plasma sanguíneo

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Química da Universidade Federal do Rio Grande do Norte, como parte dos requisitos necessários para obtenção do título de Mestre em Química.

Orientador: Prof. Dr. Kássio Michell Gomes de Lima

NATAL – RN

2013

Page 3: Ana Carolina de Oliveira Neves Dissertação de Mestrado

Divisão de Serviços Técnicos

Catalogação da Publicação na Fonte. UFRN / Biblioteca Setorial do Instituto de Química

Neves, Ana Carolina de Oliveira.

Espectroscopia no infravermelho próximo e métodos de calibração multivariada aplicados à determinação simultânea de parâmetros bioquímicos em plasma sanguíneo / Ana Carolina de Oliveira Neves. Natal / RN, 2013.

106 f.

Orientador: Kássio Michell Gomes de Lima Dissertação (Mestrado em Química) - Universidade Federal do Rio Grande do

Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Química.

1. Análises clínicas - Dissertação. 2. Espectroscopia no infravermelho próximo -

Dissertação. 3. Calibração multivariada.- Dissertação. I. Lima, Kássio Michell Gomes de. III. Universidade Federal do Rio Grande do Norte. IV. Título.

RN/UFRN/BSE- I Química CDU 543 (043)

Page 4: Ana Carolina de Oliveira Neves Dissertação de Mestrado
Page 5: Ana Carolina de Oliveira Neves Dissertação de Mestrado

Com amor, dedico

A Deus, pela sua força, principalmente, nos

momentos em que a minha já não existia mais.

Por me iluminar e permitir a realização deste

trabalho.

Aos meus pais, Gladson e Maria da Conceição,

por todo amor e cuidado que sempre recebi.

Vocês são o que há de melhor em mim.

Ao meu irmão, Flávio, pelo lugar que ocupa em

meu coração.

Aos meus Avós, Walquíria (in memoriam) e

Nildo, e Consuelo e Benedito.

E, especialmente ao meu amado esposo, Fabrício

Gava Menezes. O nosso amor me torna uma

pessoa melhor e mais feliz a cada dia. Eu não

existo sem você.

Page 6: Ana Carolina de Oliveira Neves Dissertação de Mestrado

AGRADECIMENTOS

Ao meu orientador, Prof. Dr. Kássio Michell Gomes de Lima, sempre tão presente

durante a realização deste trabalho. Por sua orientação segura, atenção, paciência e, sobretudo,

motivação. Também agradeço de coração, como amiga, por sua compreensão nos momentos

em que estive mais ausente do laboratório, em virtude da preparação do meu casamento.

A Prof.ª Aurigena Antunes, do Departamento de Biociências da UFRN, por

gentilmente colaborar com este trabalho não somente cedendo as amostras utilizadas, mas

também sempre acreditando que seria possível realizá-lo.

Ao meu esposo, Fabrício, por me apoiar a cada dia com sua imensa generosidade,

cumplicidade, carinho e paciência; além das (sempre bem vindas) ajudas em química

orgânica.

Aos meus pais que, antes de tudo, me educaram priorizando a importância dos estudos

tanto em minha formação profissional quanto pessoal e, ainda, por me estimularem em cada

nova etapa de minha vida.

Aos meus amigos do GPQA pela companhia, momentos de descontração, momentos

de tensão (quando “nada fazia muito sentido”) e por compartilharmos juntos nossos

aprendizados.

Ao Instituto de Química da UFRN e a CAPES, pela bolsa concedida.

Page 7: Ana Carolina de Oliveira Neves Dissertação de Mestrado

“... a tarefa não é tanto ver aquilo que ninguém

viu, mas pensar o que ninguém ainda pensou

sobre aquilo que todo mundo vê.”

(Arthur Schopenhauer)

Page 8: Ana Carolina de Oliveira Neves Dissertação de Mestrado

RESUMO

No presente trabalho, a análise quantitativa de glicose, triglicerídeos e colesterol (total

e HDL) em plasma sanguíneo de ratos e humanos foi realizada sem necessidade de pré-

tratamentos de amostras, através do uso da espectroscopia no infravermelho próximo (NIR),

aliada a métodos multivariados. Para tanto, foram comparadas diferentes técnicas e algoritmos

utilizados para pré-processamentos de dados, seleção de variáveis e regressões multivariadas,

tais como a regressão por mínimos quadrados parciais (PLSR), regressão não linear via redes

neurais artificiais (ANN), regressão por mínimos quadrados parciais por intervalos (iPLS),

algoritmo genético (GA), algoritmo das projeções sucessivas (SPA), entre outros. Para as

determinações em sangue de ratos, os algoritmos de seleção de variáveis apresentaram

resultados satisfatórios tanto em relação aos coeficientes de correlação (R²) quanto para os

valores de erro quadrático médio de previsão (RMSEP) para os três analitos, especialmente

para triglicerídeos e colesterol-HDL. Os valores de RMSEP para glicose, triglicerídeos e

colesterol-HDL através do melhor modelo PLS foram de 6,08, 16,07 e 2,03 mg dL-1

,

respectivamente. Para as determinações em sangue de humanos, as previsões através de

modelos PLS apresentaram resultados insatisfatórios, com comportamento não linear e

presença de bias. A regressão ANN foi investigada como uma alternativa ao PLS, por sua

habilidade de modelar sistemas não lineares. O erro quadrático médio de monitoramento

(RMSEM) para glicose, triglicerídeos e colesterol total, para os melhores modelos ANN,

foram de 13,20, 10,31 e 12,35 mg dL-1

, respectivamente. Testes estatísticos (F e t) sugerem

que a espectroscopia NIR aliada a métodos de regressão multivariados (PLS e ANN) possuem

capacidade de quantificar os analitos (glicose, triglicerídeos e colesterol) mesmo quando os

mesmos estão presentes em fluidos biológicos altamente complexos, como o plasma

sanguíneo.

Palavras-chave: Análises clínicas. Espectroscopia no infravermelho próximo. Calibração

multivariada.

Page 9: Ana Carolina de Oliveira Neves Dissertação de Mestrado

ABSTRACT

In this work, the quantitative analysis of glucose, triglycerides and cholesterol (total

and HDL) in both rat and human blood plasma was performed without any kind of pre-

treatment of samples, by using near infrared spectroscopy (NIR) combined with multivariate

methods. For this purpose, different techniques and algorithms used to pre-process data, to

select variables and to build multivariate regression models were compared between each

other, such as partial least squares regression (PLS), non linear regression by artificial neural

networks, interval partial least squares regression (iPLS), genetic algorithm (GA), successive

projections algorithm (SPA), amongst others. Related to the determinations of rat blood

plasma samples, the variables selection algorithms showed satisfactory results both for the

correlation coefficients (R²) and for the values of root mean square error of prediction

(RMSEP) for the three analytes, especially for triglycerides and cholesterol-HDL. The

RMSEP values for glucose, triglycerides and cholesterol-HDL obtained through the best PLS

model were 6.08, 16.07 e 2.03 mg dL-1

, respectively. In the other case, for the determinations

in human blood plasma, the predictions obtained by the PLS models provided unsatisfactory

results with non linear tendency and presence of bias. Then, the ANN regression was applied

as an alternative to PLS, considering its ability of modeling data from non linear systems. The

root mean square error of monitoring (RMSEM) for glucose, triglycerides and total

cholesterol, for the best ANN models, were 13.20, 10.31 e 12.35 mg dL-1

, respectively.

Statistical tests (F and t) suggest that NIR spectroscopy combined with multivariate regression

methods (PLS and ANN) are capable to quantify the analytes (glucose, triglycerides and

cholesterol) even when they are present in highly complex biological fluids, such as blood

plasma.

Keywords: Clinical analysis. Near-infrared spectroscopy. Multivariate calibration.

Page 10: Ana Carolina de Oliveira Neves Dissertação de Mestrado

LISTA DE FIGURAS

Figura 1- Formas estruturais da glicose no sangue e suas respectivas

proporções .......................................................................................

19

Figura 2- Estrutura genérica de um triglicerídeo e exemplos de ácido graxos 20

Figura 3- Estrutura química do colesterol ....................................................... 20

Figura 4- Representação esquemática de uma lipoproteína de baixa

densidade (LDL) ..............................................................................

21

Figura 5- Ilustração comparativa das estruturas do HDL e do LDL ................ 22

Figura 6- Proporção de mortes globais por doenças não transmissíveis, em

pessoas com idade inferior a 70 anos, no ano de 2008 ....................

24

Figura 7- Reações químicas envolvidas na determinação de glicose através

do método enzimático-colorimétrico ................................................

25

Figura 8- Reações químicas envolvidas na determinação de triglicerídeos

através do método enzimático-colorimétrico ...................................

26

Figura 9- Reações químicas envolvidas na determinação de colesterol

através do método enzimático-colorimétrico ...................................

27

Figura 10- Componentes básicos de um equipamento que opera na região do

infravermelho ...................................................................................

32

Figura 11- Tipos de movimentos vibracionais existentes em ligações

químicas: a) estiramentos; b) deformações ......................................

33

Figura 12- Modelos harmônico (A) e anarmônico (B) para espectroscopia

vibracional ........................................................................................

35

Figura 13- Comparação entre métodos univariado (b) e multivariado (c) para

análise de gordura a partir de espectros obtidos na região do NIR

(a) .....................................................................................................

39

Figura 14- Ilustração esquemática de construção de uma matriz de respostas

instrumentais ....................................................................................

40

Figura 15- Projeção de X no espaço d-dimensional .......................................... 42

Figura 16- Fatores influentes na escolha do número de componentes .............. 43

Figura 17- Exemplos de gráficos de valores de resíduos contra valores

estimados de um determinado parâmetro: a) apresentando

posicionamento aleatório em torno do zero; b) apresentando

Page 11: Ana Carolina de Oliveira Neves Dissertação de Mestrado

comportamento tendencioso; c) apresentando curvatura ................. 48

Figura 18- Ilustração do funcionamento de uma rede neural artificial: a) passo

para frente; b) propagação para trás do erro .....................................

49

Figura 19- Seleção de variáveis, via iPLS, dentro de uma área espectral

ampla.................................................................................................

54

Figura 20- Ilustração esquemática do princípio de funcionamento do

algoritmo genético ............................................................................

56

Figura 21- Ilustração esquemática da etapa de mutação que acontece no

algoritmo genético ............................................................................

56

Figura 22- “Ciclo de evolução” básico do algoritmo genético .......................... 57

Figura 23- Detecção de amostras anômalas em modelos lineares: (a) anômala

em y; (b) anômala em x e y; (c) anômala em x ................................

58

Figura 24- Propriedades da distribuição normal: (i) aproximadamente 68%

dos valores caem em ± 1σ da média; (ii) aproximadamente 95%

dos valores caem em ± 2σ da média; (iii) aproximadamente 99,7%

dos valores caem em ± 3σ da média .................................................

62

Figura 25- Espectros NIR originais das 23 amostras de plasma sanguíneo de

ratos ..................................................................................................

72

Figura 26- Espectros NIR das 23 amostras de plasma sanguíneo de ratos, após

corte da região de 1900 a 2000 nm ...................................................

74

Figura 27- Espectro NIR das 23 amostras de plasma sanguíneo de ratos após

aplicação da suavização SG com janelas de três pontos ..................

75

Figura 28- Ampliação da banda de absorção na faixa de 1450 nm após

aplicação da suavização SG com polinômio do 1º grau; A) janelas

de 3 pontos; B) janelas de 11 pontos ...............................................

75

Figura 29- Espectros NIR das 23 amostras de plasma sanguíneo de ratos após

a aplicação da derivada SG; A) primeira ordem; B) segunda

ordem...............................................................................................

76

Figura 30- Concentrações preditas (PLS) contra medidas (método enzimático)

das amostras de calibração e validação, em plasma sanguíneo de

ratos, para glicose; (o) conjunto de calibração; (*) conjunto de

validação ..........................................................................................

78

Figura 31- Concentrações preditas (PLS) contra medidas (método enzimático)

Page 12: Ana Carolina de Oliveira Neves Dissertação de Mestrado

das amostras de calibração e validação, em plasma sanguíneo de

ratos, para triglicerídeos; (o) conjunto de calibração; (*) conjunto

de validação ......................................................................................

82

Figura 32- Concentrações preditas (PLS) contra medidas (método enzimático)

das amostras de calibração e validação, em plasma sanguíneo de

ratos, para HDL; (o) conjunto de calibração; (*) conjunto de

validação ..........................................................................................

85

Figura 33- Espectros NIR originais das 34 amostras de plasma sanguíneo de

humanos ...........................................................................................

86

Figura 34- EJCR para a inclinação e intercepto da regressão dos valores

previstos (ANN) contra valores medidos (método enzimático),

para as amostras de monitoramento dos melhores modelos: (azul)

glicose; (vermelho) triglicerídeos; (verde) colesterol ......................

89

Figura 35- Concentrações preditas contra medidas (método enzimático) das

amostras de calibração e validação, em plasma sanguíneo de

humanos: lado esquerdo, modelos PLS; lado direito, modelos

ANN. (a) glicose; (b) triglicerídeos; (c) colesterol; (o) conjunto de

calibração; (*) conjunto de validação ...............................................

91

Page 13: Ana Carolina de Oliveira Neves Dissertação de Mestrado

LISTA DE TABELAS

Tabela 1- Regiões espectrais no infravermelho .......................................................... 30

Tabela 2- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo dos

23 ratos Wistar .....................................................................................

68

Tabela 3- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo

humano de 34 pacientes de esquizofrenia ............................................

69

Tabela 4- Parâmetros de treinamento das redes neurais ............................................ 71

Tabela 5- Resultados para os conjuntos de calibração e validação externa para

glicose: RMSECV, RMSEP, coeficientes de correlação (R) e o número de

variáveis espectrais utilizadas (tamanho). O número de fatores nos modelos

PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses........

77

Tabela 6- Valores medidos (referência) e preditos (NIR) para as amostras de

previsão do melhor modelo, PLS (4)1, referentes à determinação de

glicose ..................................................................................................

79

Tabela 7- Resultados para os conjuntos de calibração e validação externa para

triglicerídeos: RMSECV, RMSEP, coeficientes de correlação (R) e o

número de variáveis espectrais utilizadas (tamanho). O número de fatores

nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre

parênteses .............................................................................................

80

Tabela 8- Valores medidos (referência) e preditos (NIR) para as amostras de

previsão do melhor modelo, PLS (4)1, referentes à determinação

triglicerídeos ........................................................................................

82

Tabela 9- Resultados para os conjuntos de calibração e validação externa para HDL:

RMSECV, RMSEP, coeficientes de correlação (R) e o número de variáveis

espectrais utilizadas (tamanho). O número de fatores nos modelos PLS,

iPLS, PLS-SPA e PLS-GA são representados entre parênteses ..............

83

Tabela 10- Valores medidos (referência) e preditos (NIR) para as amostras de

previsão do melhor modelo, PLS (4)1, referentes à determinação

HDL .....................................................................................................

85

Tabela 11- Resultados dos melhores modelos ANN para os conjuntos de

monitoramento de glicose, triglicerídeos e colesterol: RMSEM e

89

Page 14: Ana Carolina de Oliveira Neves Dissertação de Mestrado

coeficientes de correlação (R) são apresentados ....................................

Tabela 12- Resultados de modelos PLS para os conjuntos de calibração e validação

externa de glicose, triglicerídeos e colesterol: RMSECV, RMSEP,

coeficientes de correlação (R) e variáveis latentes (VL) dos modelos PLS

são apresentados ...................................................................................

90

Page 15: Ana Carolina de Oliveira Neves Dissertação de Mestrado

ÍNDICE DE ABREVIATURAS

ANN – redes neurais artificais (do inglês, artificial neural networks)

ASTM – Sociedade Americana para Testes e Materiais (do inglês, American Society for

Testing and Materials),

ATP – trifosfato de adenosina (do inglês, adenosine triphosphate)

CLAE – cromatografia líquida de alta eficiência

CM – centragem na média

CV – validação cruzada (do inglês, cross validation)

DNA – ácido desóxiribonuclêico (do inglês, desoxyribonucleic acid)

EJCR – região de confiança elíptica conjunta (do inglês, elliptical joint confidence region)

FIR – infravermelho distante (do inglês, far infrared)

GA – algoritmo genético (do inglês, genetic algorithm)

HDL – lipoproteína de alta densidade (do inglês, high-density lipoprotein)

Ip – injeções salinas intraperitoniais

iPLS – regressão pelo método do mínimos quadrados por intervalos (do inglês, interval

partial least squares),

IR – infravermelho (do inglês, infrared)

KS – algoritmo de seleção de amostras Kennard-Stone

LDL – lipoproteína de baixa densidade (do inglês, low-density lipoprotein)

MATLAB – software para cálculos numéricos (Matrix Laboratory)

MIR – infravermelho médio (do inglês, mid-infrared)

NIR – infravermelho próximo (do inglês, near infrared)

NCEP – programa nacional educacional sobre colesterol (do inglês, national cholesterol

education program)

N-PLS – regressão pelo método dos mínimos quadrados parciais não lineares (do inglês, non-

linear partial least squares)

PC – componente principal (do inglês, principal component)

PCA – análise por componentes principais (do inglês, principal component analysis)

PCR – regressão em componentes principais (do inglês, principal component regression)

PLS – mínimos quadrados parciais (do inglês, partial least squares)

RMSEC – raiz quadrada do erro médio de calibração (do inglês, root mean square error of

calibration)

R²mon – coeficiente de correlação para o grupo de monitoramento

Page 16: Ana Carolina de Oliveira Neves Dissertação de Mestrado

RMSECV – raiz quadrada do erro médio de validação cruzada (do inglês, root mean square

error of cross validation)

RMSEP – raiz quadrada do erro médio de previsão (do inglês, root mean square error of

prediction)

RNA – ácido ribonuclêico (do inglês, ribonucleic acid)

rpm – rotações por minuto

SEC – erro padrão de calibração (do inglês, standard error of calibration)

SG – Savitzky-Golay

SEP – erro padrão de previsão (do inglês, standard error of prediction)

SPA – algoritmo das projeções sucessivas (do inglês, successive projections algorithm)

SVM – máquinas de vetores de suporte (do inglês, support vector machine)

UV – ultravioleta

VLDL – lipoproteína de muito baixa densidade (do inglês, very low-density lipoprotein)

WHO – organização mundial de saúde (do inglês, World Health Organization)

Page 17: Ana Carolina de Oliveira Neves Dissertação de Mestrado

SUMÁRIO

1 INTRODUÇÃO ....................................................................................... 18

1.1 ANÁLISES CLÍNICAS E PARÂMETROS BIOLÓGICOS................. 18

1.1.1 Glicose ...................................................................................................... 18

1.1.2 Triglicerídeos ........................................................................................... 19

1.1.3 Colesterol ................................................................................................. 20

1.2 SÍNDROME METABÓLICA E DOENÇAS NÃO TRANSMISSÍVEIS 22

1.3 MÉTODOS TRADICIONAIS PARA DETERMINAÇÃO DE

GLICOSE, TRIGLICERÍDEOS E COLESTEROL ..............................

25

1.3.1 Determinação de glicose ......................................................................... 25

1.3.2 Determinação de triglicerídeos .............................................................. 26

1.3.3 Determinação de colesterol .................................................................... 27

1.4 INFRAVERMELHO: a descoberta ......................................................... 29

1.4.1 Espectroscopia no infravermelho próximo ........................................... 30

1.4.1.1 Principais características e aplicações ....................................................... 31

1.4.1.2 Instrumentação .......................................................................................... 32

1.4.2 Aspectos teóricos da espectroscopia NIR .............................................. 32

1.5 QUIMIOMETRIA E CALIBRAÇÃO MULTIVARIADA ................... 37

1.5.1 Análise por componentes principais – PCA ......................................... 41

1.5.2 Regressão por mínimos quadrados parciais – PLS ............................. 44

1.5.3 Redes neurais artificiais – ANN ............................................................ 47

1.5.4 Pré-processamento de dados .................................................................. 50

1.5.4.1 Centragem na média .................................................................................. 51

1.5.4.2 Suavização ou filtro digital ........................................................................ 51

1.5.4.3 Derivada .................................................................................................... 52

1.5.5 Seleção de amostras ................................................................................. 53

1.5.6 Seleção de variáveis ................................................................................. 53

1.5.6.1 Mínimos quadrados parciais por intervalos – iPLS .................................. 54

1.5.6.2 Algoritmo das projeções sucessivas – SPA .............................................. 55

1.5.6.3 Algoritmo genético – GA ......................................................................... 55

1.5.7 Detecção de amostras anômalas (outliers) ............................................ 57

1.5.8 Testes estatísticos ................................................................................... 60

Page 18: Ana Carolina de Oliveira Neves Dissertação de Mestrado

1.6 ESPECTROSCOPIA NIR E CALIBRAÇÃO MULTIVARIADA

APLICADAS EM ANÁLISES CLÍNICAS ..........................................

63

2 JUSTIFICATIVAS E OBJETIVOS .................................................... 66

3 PARTE EXPERIMENTAL ................................................................. 67

3.1 EXPERIMENTO EM ANIMAIS ........................................................... 67

3.2 EXPERIMENTO EM HUMANOS ........................................................ 67

3.3 MÉTODOS DE REFERÊNCIA ............................................................. 68

3.3.1 Plasma de ratos ....................................................................................... 68

3.3.2 Plasma de humanos ................................................................................ 69

3.4 INSTRUMENTAÇÃO NIR .................................................................... 69

3.5 ANÁLISE DOS DADOS ........................................................................ 70

3.5.1 Plasma de ratos ........................................................................................ 70

3.5.2 Plasma de humanos ................................................................................. 70

4 RESULTADOS E DISCUSSÃO ........................................................... 72

4.1 ANÁLISES EM PLASMA SANGUÍNEO DE RATOS ........................ 72

4.1.1 Atribuição de bandas .............................................................................. 72

4.1.2 Pré-processamentos espectrais ............................................................... 74

4.1.3 Determinação de glicose .......................................................................... 76

4.1.4 Determinação de triglicerídeos ............................................................... 80

4.1.5 Determinação de HDL ............................................................................ 83

4.2 ANÁLISES EM PLASMA SANGUÍNEO DE HUMANOS ................. 86

4.2.1 Atribuição de bandas e pré-processamentos ......................................... 86

4.2.2 Regressão multivariada linear – emprego do PLS ............................... 87

4.2.3 Quantificações de glicose, triglicerídeos e colesterol total através de

regressão multivariada não linear – emprego do ANN ........................

89

4.2.4 Comparação PLS versus ANN: quantificações de glicose,

triglicerídeos e colesterol total ................................................................

90

5 CONCLUSÕES ........................................................................................ 93

5.1 DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E HDL EM

PLASMA SANGUÍNEO DE RATOS ....................................................

93

5.2 DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E

COLESTEROL TOTAL EM PLASMA SANGUÍNEO DE HUMANOS

93

6 PERSPECTIVAS .................................................................................. 95

Page 19: Ana Carolina de Oliveira Neves Dissertação de Mestrado

REFERÊNCIAS .................................................................................... 96

APÊNDICES ......................................................................................... 104

Page 20: Ana Carolina de Oliveira Neves Dissertação de Mestrado

18

1 INTRODUÇÃO

“Não existem métodos fáceis para resolver problemas difíceis.”

(René Descartes)

1.1 ANÁLISES CLÍNICAS E PARÂMETROS BIOLÓGICOS

A análise clínica lida diretamente com a coleta de dados referentes a parâmetros

biológicos e relaciona os mesmos à saúde de pacientes1.Uma vez que cerca de 60 a 70% das

decisões médicas, atualmente, são baseadas em resultados obtidos através de testes

diagnósticos in vitro, os mesmos desempenham um papel de extrema relevância na

identificação, tratamento e, inclusive, prevenção de diversas patologias2. Dessa forma, tais

análises devem produzir resultados confiáveis e precisos, uma vez que falsos diagnósticos

podem levar a decisões médicas inapropriadas e erros terapêuticos, e, consequentemente,

tratamentos inadequados e desnecessários, além de altos gastos com repetitivas realizações de

uma mesma análise, que poderiam ser evitados3.

A bioquímica clínica é responsável por analisar materiais orgânicos, tais como sangue,

urina e fezes, mais especificamente, as dosagens de glicose, colesterol, triglicerídeos, ácido

úrico, uréia, creatinina, ácido fólico,entre outros4. Sendo assim, tais investigações estão

presentes em todos os ramos da medicina e, fortemente, inseridas nas relações entre médicos e

pacientes.

1.1.1 Glicose

Os carboidratos são compostos orgânicos (em geral, poli-hidroxialdeídos ou poli-

hidroxicetonas), de maior abundância no mundo vegetal, atuando nas estruturas de

sustentação de plantas. Os animais (incluindo os seres humanos) obtêm carboidratos ao se

alimentarem de plantas, porém não armazenam muito do que comem. De fato, menos de 1%

do peso corporal dos animais é atribuído aos carboidratos, que compõem seus tecidos

conectivos e constituem as estruturas dos ácidos nucleicos, tais como o DNA e o RNA5.Com

relação ao metabolismo animal, o principal papel dos carboidratos é prover energia para as

funções do organismo, tendo na glicose o seu principal exemplo. A glicose coexiste em três

formas estruturais distintas no sangue, conforme apresentado na Figura 1.

Page 21: Ana Carolina de Oliveira Neves Dissertação de Mestrado

19

Figura 1 - Formas estruturais da glicose no sangue e suas respectivas proporções.

Fonte: Autor.

Distúrbios no metabolismo endócrino relacionados à glicose são conhecidos como

diabetes.Aproximadamente 150 milhões de pessoas são diabéticas e estima-se que outros

milhões apresentem a doença ainda não diagnosticada6. A diabetes mellitus é caracterizada

pelos níveis insuficientes de insulina no sangue que, quando em nível muito baixo, fazem com

que os músculos e o fígado não absorvam glicose e assim ocorra a hiperglicemia, que

prejudica o metabolismo de gorduras e proteínas, e pode ocasionar diversas patologias tais

como cegueira, danos no sistema nervoso, insuficiência renal, danos na formação fetal,

aumento no risco de doenças cardíacas e amputações de membros, coma e, até mesmo, morte.

Daí a importância de controlar periodicamente os níveis de glicose presentes no sangue, como

forma de prevenir a ocorrência de diabetes, bem como, de suas complicações relacionadas7.

1.1.2 Triglicerídeos

Os lipídeos compõem uma grande família de substâncias com as mais variadas

funções químicas presentes em suas estruturas, cuja característica em comum é a alta

solubilidade em solventes orgânicos e baixa solubilidade em água (do grego lipo, gordura).

Lipídeos são de extrema importância para os organismos vivos devido às suas funções de

armazenamento de energia, proteção, componentes das membranas celulares, mensageiros

químicos e vitaminas. Os triglicerídeos (ou triacilgliceróis) são triésteres formados a partir do

glicerol e ácidos carboxílicos graxos (cadeias longas, entre 12 e 20 átomos de carbono,

saturadas ou insaturadas), conforme apresentado na Figura 2.

OHO

HO

OHOH

OH

OHO

HOOH

OH

OHO

H

OH

OH

OH

OH

HO

-D-glicopiranose D-glicose -D-glicopiranose

(~36%) (<1%) (~64%)

Page 22: Ana Carolina de Oliveira Neves Dissertação de Mestrado

20

Figura 2 - Estrutura genérica de um triglicerídeo e exemplos de ácido graxos.

Fonte:Autor.

Os triglicerídeos são os componentes majoritários dos óleos e gorduras, que têm como

diferença o fato de os primeiros serem líquidos a temperatura ambiente e os segundos,

sólidos, em função do número e natureza (cis ou trans) das insaturações presentes nas cadeias

desses ésteres. As gorduras possuem importante papel nos organismos vivos, atuando como

fonte de energia, como isolante térmico e protegendo os mesmos contra choques mecânicos.

Todavia, altos níveis de triglicerídeos no plasma sanguíneo podem estar diretamente

relacionados à ocorrência de doenças cardiovasculares, em função, principalmente, do

entupimento das veias e artérias, e podendo ser consequência de outras patologias, como, por

exemplo, diabetes mellitus8-10

.

1.1.3 Colesterol

Nos animais, o colesterol é o lipídeo mais abundante e importante pertencente à classe

dos esteroides5,11

. Conforme visto na Figura 3, sua estrutura química é derivada do esqueleto

hidrocarbônico ciclopentilperidrofenantreno, contendo um grupamento álcool e uma

insaturação.

Figura 3 - Estrutura química do colesterol.

Fonte:Autor.

Ao contrário do que se noticia, o colesterol não é um vilão. Tal lipídeo é componente

do plasma sanguíneo e está presente em todas as células animais, como constituinte e

regulador das membranas celulares. Além disso, atua no metabolismo de vitaminas

O

O O

O

R3

O

R2

O

R1

triglicerídeo

HO

O ácido olêico (insaturado -9

O

HO

O

HO

ácido linolênico (poliinsaturado -3,6,9)

ácido esteárico (saturado)

HO

H

H H

Page 23: Ana Carolina de Oliveira Neves Dissertação de Mestrado

21

lipossolúveis (A, D, E e K) e é precursor sintético de outros esteroides, tais como os

hormônios sexuais e adrenocorticóides, além de participar, também, na formação dos sais

biliares (agentes dispersantes de lipídeos no organismo), sendo fundamental para que o

organismo desempenhe de forma harmoniosa grande parte de suas funções.O colesterol é

sintetizado no fígado, a partir de gorduras, e está em uma situação dinâmica, circulando

constantemente pelo sangue. Todavia, por ser insolúvel no meio aquoso, o mesmo deve ser

transportado, e para tal função existem as chamadas lipoproteínas, dentre elas: a LDL

(lipoproteína de baixa densidade - do inglês low-density lipoprotein) e a HDL (lipoproteína de

alta densidade - do inglês high-density lipoprotein)5,9,12

.

A LDL, conforme representada na Figura 4, é originada através da remoção dos

triglicerídeos e proteínas (exceto a apoB-100) presentes em outra espécie de lipoproteína,

chamada VLDL (do inglês, very low-density lipoprotein), no momento em que a mesma

atinge o tecido de músculos ou gorduras.A lipoproteína resultante é composta, agora, de 25%

de proteínas e 50% de colesterol, além de outros lipídeos, incluindo alguns de caráter anfótero

com relação à solubilidade em água (possuem uma parte hidrofílica e uma parte

hidrofóbica)5,10

.

Figura 4- Representação das espécies constituintes de uma lipoproteína de baixa densidade (LDL).

Fonte:http://thehealthycow.blogspot.com.br/2012/09/everything-you-need-to-know-about.html

A LDL é popularmente conhecida como “colesterol ruim”, justamente por executar a

função de transporte do lipídeo até a superfície das células, mais precisamente, a receptores

Apoproteína B-100

Éster de colesterol

Éster de esterol

Fosfolipídeo

Colesterol livre(não esterificado)

Page 24: Ana Carolina de Oliveira Neves Dissertação de Mestrado

22

específicos que permitem que a mesma seja introduzida e, por ação de enzimas, libere o

colesterol em sua forma livre5,7

. A característica aterogênica associada a esta lipoproteína

ocorrerá quando a mesma estiver em excesso, em função de altos níveis de colesterol

produzidos a partir de uma dieta rica em gorduras. Tal fato, induz à deposição do lipídeo nos

vasos sanguíneos, provocando, consequentemente, entupimento dos mesmos, podendo

originar patologias tais como diabetes mellitus e aterosclerose, responsáveis por ataques

cardíacos, derrames e disfunções renais5,7,9,10

.

Nem todo colesterol depositado nas veias e artérias lá o permanece,e essa função de

“limpeza” é executada pela HDL. Esta lipoproteína, de tamanho menor que a LDL, é

constituída de30% de proteínas e 30% de colesterol, além de outros lipídeos. Essa razão entre

as espécies é que determina que a mesma possua alta densidade. Uma vez que a densidade das

proteínas é maior que a do colesterol, a razão m/V aumenta quando em comparação à LDL.

Tal fato é observado através da Figura 5, onde claramente se verifica a diferença tanto entre a

proporção dos constituintes (proteínas e colesterol) quanto no tamanho das lipoproteínas LDL

e HDL.

Figura 5 -Ilustração comparativa das espécies constituintes das estruturas do HDL e do LDL.

Fonte: http://www.umm.edu/patiented/articles/hdl_ldl_000362.htm

A HDL absorve parte do colesterol em excesso nas veias e artérias e o transporta até as

células do fígado, onde o lipídeo irá atuar na síntese dos hormônios esteroidais e sais biliares.

Tal mecanismo, conhecido como “transporte reverso”, confere à HDL, popularmente, o título

de “bom colesterol”, uma vez que tal lipoproteína atua evitando a formação de placas de

ateromas e a ocorrência de diversas patologias a elas relacionadas7,9,10,13

.

ProteínasColesterol

Page 25: Ana Carolina de Oliveira Neves Dissertação de Mestrado

23

1.2 SÍNDROME METABÓLICA E DOENÇAS NÃO TRANSMISSÍVEIS

Como já mencionado nos itens 1.1.1 até 1.1.3, níveis anormais de glicose,

triglicerídeos e colesterol presentes no sangue, frequentemente associados à obesidade, são

responsáveis pela ocorrência de diferentes patologias. Entretanto, na década de 80, foi

observado que havia, ainda, outro tipo de associação entre os fatores de risco para o

desenvolvimento doenças cardiovasculares e diabetes, especialmente chamado de resistência

insulínica. Dessa forma, surgiu a “síndrome metabólica” que, de acordo com a Sociedade

Brasileira de Endocrinologia e Metabologia, é definida como um conjunto de doenças cuja

base é a resistência insulínica, uma vez que além de retirar a glicose do sangue e levá-la até as

células, a insulina também exerce diversas outras atividades no organismo, inclusive, durante

o metabolismo de gorduras7,14-16

. Os dois critérios mais aceitos para definição desta síndrome,

são o da Organização Mundial de Saúde (WHO, do inglês, World Health Organization) e do

National Cholesterol Education Program (NCEP) – americano. Entretanto, o Brasil já dispõe

do seu Consenso Brasileiro sobre Síndrome Metabólica, que caracteriza que tal síndrome está

presente quando no mínimo três dos critérios abaixo são positivos14,16

:

i) Obesidade central - circunferência da cintura igual ou superior a 88 cm na mulher

e 102 cm no homem;

ii) Hipertensão arterial - pressão arterial sistólica≥ 130 e/ou pressão arterial diatólica

≥ 85 mmHg;

iii) Glicemia alterada (glicemia em jejum > 100 mg dL-1

) ou diagnóstico de diabetes;

iv) Triglicerídeos ≥ 150 mg dL-1

;

v) HDL colesterol < 40 mg dL-1

em homens, e HDL colesterol<50 mg dL-1

em

mulheres.

Novamente, de acordo com a Sociedade Brasileira de Endocrinologia e Metabologia, o

número de mortes causadas por doenças cardiovasculares, em pessoas que sofrem desta

síndrome, é três vezes maior. Ainda, outra questão importante é que para a maioria dos

portadores, a síndrome apresenta-se de forma assintomática, fazendo com que muitas pessoas

Page 26: Ana Carolina de Oliveira Neves Dissertação de Mestrado

24

estejam nas faixas de risco para desenvolvimento de doenças graves, como as

cardiovasculares e diabetes, e sequer tenham conhecimento disto7,14

.

Das 57 milhões de mortes que ocorreram em todo o mundo, no ano de 2008, 36

milhões (aproximadamente 63%) foram causadas por doenças não transmissíveis,

representadas proporcionalmente em seus diversos tipos através da Figura 6, segundo dados

da Organização Mundial de Saúde17

.

Figura 6 - Proporção de mortes globais por doenças não transmissíveis, em pessoas com idade inferior a 70

anos, no ano de 2008.

Fonte: adaptado da referência17

Em pessoas com idade abaixo de 70 anos, as doenças cardiovasculares foram

responsáveis por 39% dos 36 milhões de mortes calculadas e, por sua vez, a diabetes

representou um total de 4%, que é bastante inferior quando comparado às doenças

cardiovasculares, porém, sem dúvidas, bastante significativo17

.

Tais números elevados de mortes relacionadas a doenças não transmissíveis estão

diretamente associados ao hábito de vida da população, especialmente no século 21, e fatores

econômicos, que podem levar a um precário serviço de saúde pública. Sendo assim, melhorias

nos setores de saúde, proporcionando detecção precoce e tratamento realizado de forma

oportuna no momento em que a doença é diagnosticada, atuam como fatores indispensáveis

para diminuição do impacto causado pela epidemia das doenças não transmissíveis, uma vez

que as intervenções médicas realizadas nos tratamentos dessas patologias são de alto custo,

principalmente quando a mesma atingiu estágios elevados, por falta de

diagnósticoadequado17

. Portanto, a Organização Mundial de Saúde tem incentivado que os

países adotem políticas a níveis nacionais e globais com o objetivo, principalmente, de

Câncer

Doenças cardiovasculares

Doenças respiratórias crônicas

Diabetes

Doenças do aparelho digestivo

Outras doenças não comunicadas

Page 27: Ana Carolina de Oliveira Neves Dissertação de Mestrado

25

integrar a prevenção e controle dessas doenças. Neste sentido, os laboratórios de análises

clínicas desempenham um papel de relevância na implementação destas metas, uma vez que

contribuem diretamente para diagnósticos e tratamentos feitos com mais segurança, sendo,

então, parte essencial dos processos de cuidados com os pacientes13

.

1.3 MÉTODOS TRADICIONAIS PARA DETERMINAÇÃO DE GLICOSE,

TRIGLICERÍDEOS E COLESTEROL

Diversos são os métodos e técnicas relatados na literatura envolvendo análises de

parâmetros bioquímicos3,13,18-20

. Atualmente, o principal método aplicado em determinações

rotineiras dos níveis de glicose, triglicerídeos e colesterol em fluidos sanguíneos, é chamado

de enzimático colorimétrico, cujos protocolos oficiais são, inclusive, disponibilizados pela

organização mundial de saúde12,21

.O método é baseado em reações mediadas por enzimas, que

levam à formação de substâncias coloridas, possíveis de serem analisadas por espectroscopia

na região do visível.

1.3.1 Determinação de glicose

A glicose é um açúcar redutor, e pode ser oxidada ao derivado ácido glucônico, via

reação com oxigênio molecular, na presença da enzima glicose oxidase. O subproduto da

reação, peróxido de hidrogênio, reage com 4-aminofenazona (4-aminoantipirina), em

presença de fenol e da enzima peroxidase, levando à formação do derivado cromógeno

quinoneimina, cuja absorção máxima é em 505 nm. O método é ilustrado na Figura 7.

Figura 7 - Reações químicas envolvidas na determinação de glicose através do

método enzimático-colorimétrico.

Fonte: Autor.

Page 28: Ana Carolina de Oliveira Neves Dissertação de Mestrado

26

Ao se realizar uma determinação de um parâmetro biológico, deve-se levar em

consideração as substâncias que podem interferir nos resultados da análise2,7

. Com relação à

glicose, os principais interferentes são: ácido ascórbico (acima de 10 mg dL-1

), bilirrubina

(acima de 20 mg dL-1

), triglicerídeos (acima de 250 mg dL-1

) e hemoglobina (acima de 160

mg dL-1

)

1.3.2 Determinação de triglicerídeos

Na Figura 8 é apresentado o método enzimático colorimétrico para dosagem dos

triglicerídeos. Toda reação de hidrólise de triglicerídeos, aqui mediada pela enzima lipase

lipoprotéica, leva à formação de glicerol (juntamente com os ácidos graxos ou seus

respectivos sais), que é fosforilado, em presença de ATP, Mg2+

e glicerolquinase, ao glicerol-

3-fosfato. Este, por sua vez, é seguidamente oxidado a dihidroxiacetona pela ação de oxigênio

em conjunto com a enzima glicerol-3-fasfato oxidase. O peróxido de hidrogênio formado

nessa etapa de oxidação, em presença da enzima peroxidase (de forma similar ao

procedimento envolvendo glicose) propicia a formação da quinoneimina (absorção máxima

em 505 nm), através da reação entre 4-aminoantipirina e 4-clorofenol.

Figura 8 - Reações químicas envolvidas na determinação de triglicerídeos através do

método enzimático-colorimétrico.

Fonte:Autor.

NN

ONH2

+

OH

NN

ON

Cl

peroxidase

4-aminoantipirina 4-clorofenol quinonimina (max = 505nm)

O

O

O

O

R2

O

R1

O

R3

triglicerídeos

lipase lipoprotéicaHO

OH

OH

glicerol

(+ R1CO2H + R2CO2H + R3CO2H)

ácidos graxos

ATP, Mg2+,

glicerol quinase

HO

OH

OPO32-

O2,glycerol -3-phospate

oxidaseHO

O

OH

1,3-diidroxiacetona

+

Cl

O

glicerol-3-fosfato

H2O2

peróxido dehidrogênio

Page 29: Ana Carolina de Oliveira Neves Dissertação de Mestrado

27

Nas análises de triglicerídeos, os principais interferentes são: ácido ascórbico (mesmo

em baixas concentrações), bilirrubina (acima de 5mg dL-1

), álcool, contraceptivos orais e

estrógeno, além de luz direta.

1.3.3 Determinação de colesterol

Para análise do colesterol total, o mesmo é obtido a partir da hidrólise dos seus

respectivos ésteres, mediada pela enzima colesterol esterase. O colesterol livre é oxidado via

reação com oxigênio molecular em presença de colesterol oxidase, formando a colest-5-en-3-

ona juntamente de peróxido de hidrogênio. Esse último, de forma idêntica à análise de

glicose, leva a formação do cromógeno quinoneimina, com absorção máxima em 505 nm. O

método é apresentado na Figura 9.

Figura 9 - Reações químicas envolvidas na determinação de colesterol através do

método enzimático-colorimétrico.

Fonte: Autor.

Para dosagens individuais dos níveis de HDL e LDL, é realizada uma precipitação de

todos os tipos de colesterol, através da reação com fosfotungstato e magnésio, exceto o HDL,

que fica como sobrenadante, e é quantificado de forma similar ao método descrito na Figura

9. A concentração de LDL é determinada a partir da equação de Friedewald: LDL = colesterol

total – (HDL + VLDL); sendo VLDL = triglicerídeos / 5.

O2,colesterol oxidase

NN

ONH2

+

OH

NN

ON

O

peroxidase

ésteres de colesterol

colest-5-en-3-ona

4-aminoantipirina fenol quinonimina (max = 500nm)

O

H

H H

OR

colesterol esterase

colesterol

HO

H

H H

+

O

H

H H

H2O2

peródixo dehidrogênio

Page 30: Ana Carolina de Oliveira Neves Dissertação de Mestrado

28

Nas análises de colesterol, os principais interferentes são: ácido ascórbico (acima de

10 mg dL-1

), hemoglobina (acima de 180 mg dL-1

), bilirrubina (acima de 5mg dL-1

) e lipemia

(triglicerídeos acima de 2600 mg dL-1

).

Os métodos enzimáticos colorimétricos empregados para determinação de glicose,

triglicerídeos e colesterol, discutidos nos itens 1.3.1 até 1.3.3, ainda são considerados os mais

importantes e utilizados nas análises clínicas rotineiras em laboratórios20

, por serem bem

estabelecidos e contemplarem características consideradas essenciais para o tipo de análise em

questão: resposta rápida, exatidão/precisão, sensibilidade, estabilidade, além de medições com

ampla abrangência dentro das faixas de concentrações dos analitos. Entretanto, tais métodos

possuem desvantagens inerentes às suas aplicações. Das mais relevantes, podem ser citadas2,7

:

i) Tempo de análise: em média, 25 minutos para determinação de cada analito,

em uma única amostra;

ii) Influência de fontes de variação, especialmente, biológica e analítica:

reagentes, interferentes, diferentes respostas metabólicas dos indivíduos;

iii) Necessidade de reagentes/equipamentos específicos (enzimas): essa questão

naturalmente implica altos gastos para realização das análises. Por exemplo, na

França, em 2007, determinações de glicose foram o terceiro tipo de ensaio

clínico mais realizado nos laboratórios médicos, somando um total de

aproximadamente 21 milhões de análises que representaram um custo de 42

milhões de euros para o sistema de saúde francês3.

iv) Geração de resíduos químicos provenientes das diversas etapas durante as

reações químicas mediadas por enzimas e outros reagentes22

;

v) Controle de temperatura: uma vez que tais reações enzimáticas devem ocorrer

em temperatura de 36°C, simulando a temperatura corporal.

Dessa maneira, buscam-se novos métodos analíticos que possam vir a minimizar as

desvantagens encontradas através das metodologias de referência para ensaios clínicos,

levando em consideração, principalmente, sua importância indiscutível no que diz respeito à

prevenção, diagnóstico e tratamento de diversas doenças, sendo, assim, parte indispensável

nos procedimentos médicos.

Page 31: Ana Carolina de Oliveira Neves Dissertação de Mestrado

29

1.4 INFRAVERMELHO: a descoberta

A radiação no infravermelho (IR, do inglês,infrared) foi descoberta pelo astrônomo e

músico inglês, Frederik William Herschel, em 1800. Entre suas tentativas de descoberta do

planeta Urânio, Herschel alcançou um resultado de relevância em um experimento que visava

encontrar a contribuição individual das cores, provenientes da decomposição da luz solar, no

aumento da temperatura de objetos expostos a tal radiação. Ao contrário do que se esperava,

Herschel observou que, surpreendentemente, mesmo depois do fim da região visível de cor

vermelha da luz dispersada, a temperatura do termômetro por trás dos objetos continuava

subindo. Na realização do experimento, o cientista utilizou termômetros de bulbo negro e

prismas de vidro transparentes à radiação IR, e publicou sua descoberta se referindo a tal

região como “raios caloríficos”. Posteriormente, a mesma foi nomeada como infravermelho,

usando o prefixo grego “infra” que significa “abaixo”. Dessa forma, então, foi determinada a

primeira parte não visível do espectro eletromagnético23,24

.

Em 1881, Abney e Festing foram os responsáveis pela obtenção do primeiro espectro

no infravermelho próximo (NIR, do inglês, near infrared), utilizando líquidos orgânicos, na

faixa de 1 até 1,2 μm. Este trabalho foi de grande significância, não só por ser a primeira

medição NIR, mas também devido ao reconhecimento de grupos atômicos e da importância

da ligação de hidrogênio,nos espectros NIR24

. Entretanto, apesar de só ter sido descoberta

depois, a região do infravermelho médio (MIR, do inglês, mid-infrared) ganhou rapidamente

muito mais aceitação, logo após os trabalhos desenvolvidos por Coblentz, em 1900, que

verificou a utilidade da região MIR para identificação de grupos funcionais orgânicos.

Durante a primeira metade do século 20, a maioria dos pesquisadores se dedicou a ampliar a

base de dados de compostos orgânicos e atribuir características espectrais à presença de

grupos funcionais específicos, em diversas moléculas23

. A pesquisa na região do

infravermelho próximo teve o comportamento oposto ao observado no MIR, devido ao fato de

que muitos pesquisadores consideravam os espectros NIR muito confusos de interpretação,

uma vez que os sinais registrados eram picos de fraca intensidade e muito sobrepostos entre

si, resultados de vários sobretons e bandas de combinação.

Entretanto, a década de 1980 representa um marco para a utilização da técnica NIR,

que até então, só constava de aproximadamente 255 trabalhos publicados. Tal fato foi

claramente evidenciado na publicação de Wetzel, em 1983, que tinha o título sugestivo “Near

Infrared Reflectance Analysis - sleeper among spectroscopic techniques”, onde o autor

destacava as vantagens e potencial da técnica, embora ainda tão pouco utilizada. Durante a

Page 32: Ana Carolina de Oliveira Neves Dissertação de Mestrado

30

década de 80, o microprocessador passou a ser integrado no desenvolvimento de instrumentos

eletrônicos, de forma que a aquisição, manipulação e interpretação de dados complexos,

passou a ser feita de forma muito mais sofisticada, através de diversos programas

computacionais. O resultado desse avanço tecnológico levou a um grande aumento no número

de trabalhos realizados envolvendo a espectroscopia NIR. Na década de 90, listava-se mais de

1000 publicações, cujos títulos buscavam se adaptar à nova realidade vivenciada pela técnica,

que, na época, passou a ser chamada de “estrela d‘alva da espectroscopia”24

.

1.4.1 Espectroscopia no infravermelho próximo

A região do espectro eletromagnético correspondente ao infravermelho se estende na

faixa de radiação, em número de onda, de aproximadamente 12800 a 10 cm-1

. Esta, conforme

apresentado na Tabela 1, é subdividida em três regiões distintas: infravermelho próximo

(NIR), médio (MIR) e distante (FIR, do inglês, far infrared).

Tabela 1 - Regiões espectrais no infravermelho.

Região

Intervalo de

número de

onda (cm-1

)

Região em

comprimento de

onda (nm)

Região de frequência

(Hz)

Próximo (NIR) 12800 – 4000 780 – 2500 3,8 x 1014

– 1,2 x 1014

Médio (MIR) 4000 – 200 2500 – 5000 1,2 x 1014

– 6,0 x 1012

Distante (FIR) 200 – 10 5000 - 100000 6,0 x 1012

– 3,0 x 1011

Fonte: referência25

.

A espectroscopia no infravermelho próximo tem caráter vibracional, uma vez que

utiliza fótons de energia, na faixa de 780 a 2500 nm, que são energéticos o suficiente para

promoverem moléculas a seus estados vibracionais excitados, porém, incapazes de provocar

transições eletrônicas nas mesmas24,25

. Ao submeter uma determinada amostra à radiação NIR

é possível se obter diversas informações qualitativas, bem como, quantitativas sobre a mesma,

levando em consideração as interações entre a energia, em forma de radiação, e os

constituintes da amostra, uma vez que haja alterações nos momentos de dipolo das moléculas

em questão.

Page 33: Ana Carolina de Oliveira Neves Dissertação de Mestrado

31

1.4.1.1 Principais características e aplicações

Métodos analíticos que se baseiam no uso da espectroscopia NIR se utilizam de suas

mais relevantes características, tais como:

Rapidez na obtenção de espectros (1 minuto ou menos, por amostra);

Natureza não destrutiva;

Natureza não invasiva, mas com alta penetração do feixe de luz (cerca de 1 a 3

mm);

Quase universalidade em termos de aplicações (considerando que pode ser

aplicada a quaisquer moléculas contendo as ligações C-H, N-H, O-H ou S-H);

Mínima ou nenhuma preparação das amostras;

Possibilidade de aplicações em linha (analisadores de processo);

Determinações simultâneas (através de calibração multivariada);

Todavia, como toda técnica analítica, a espectroscopia NIR também possui

limitações/desvantagens, das quais podem ser citadas, principalmente:

A técnica não é muito sensível (limite de detecção 1%);

Baixa seletividade;

Em muitos casos, as bandas de combinação e sobretom da água podem ser

mais intensas que os sinais referentes à ligação C-H em compostos orgânicos,

o que prejudica a análise dessas substâncias em presença de água.

Espectros de interpretação complexa, em função da natureza dos sinais

observados (sobreposições e bandas de combinação).

Atualmente, muitas são as áreas que tem se utilizado da espectroscopia NIR como

base de diferentes métodos analíticos. Pode-se citar agricultura26

, alimentos27

, biodiesel28

,

petróleo29

, clínica30

, farmacêutica31

, entre outras.Apesar de sua grande aplicabilidade, a

espectroscopia NIR não é normalmente utilizada como uma técnica de análise direta. Em

virtude da complexidade inerente de seus dados, é preciso que primeiramente seja construído

um modelo de calibração que será baseado nos espectros NIR juntamente a uma determinada

técnica de referência. Uma vez construído tal modelo pode ser aplicado à novas amostras

(previsão), objetivando a determinação de uma propriedade de interesse (por exemplo,

concentração) das mesmas. Para tanto, são utilizados métodos multivariados, provenientes da

Page 34: Ana Carolina de Oliveira Neves Dissertação de Mestrado

32

quimiometria, que lidam de forma muito satisfatória com a alta complexidade dos espectros

NIR e ampliam, ainda mais, a gama de aplicabilidade da técnica24,32

.

1.4.1.2 Instrumentação

Um espectrofotômetro NIR consiste principalmente da fonte de luz, do seletor de

comprimentos de onda, do suporte para a amostra e do detector óptico, conforme ilustrado na

Figura 10.

Figura 10 -. Componentes básicos de um equipamento que opera na região do infravermelho.

Fonte: Autor.

Cada um desses componentes pode ter propriedades e origens diferentes, de modo que

se torna possível classificar os espectrofotômetros NIR de acordo com as características de

seus constituintes33

. Em relação à seleção de comprimentos de onda, os espectrofotômetros

NIR de espectro contínuo incluindo um interferômetro e transformada de Fourier são, sem

dúvidas, aqueles que contêm a combinação das melhores características em termos de

precisão e exatidão na recuperação dos comprimentos de onda, alta relação sinal/ruído e

rapidez nas varreduras, possibilitando a obtenção de espectros em um minuto, ou menos24

.

1.4.2 Aspectos Teóricos da Espectroscopia NIR

Naturalmente, os átomos envolvidos em ligações químicas não estão localizados sobre

posições fixas, uma vez que estão continuamente desenvolvendo movimentos vibracionais e

rotacionais em torno de um eixo, ou átomo central. Basicamente, conforme visto na Figura

11, tais movimentos podem ser classificados como estiramentos ou deformações angulares,

podendo, ambos, serem simétricos ou assimétricos.

Os estiramentos são vibrações que ocorrem ao longo do eixo da ligação química, e sua

consequência é o alongamento ou encurtamento da ligação. Esse movimento é simétrico

quando os átomos vibrantes se afastam e se aproximam do átomo central ao mesmo tempo, ou

assimétrico, quando à medida que um átomo vibrante se afasta, o outro se aproxima do átomo

Page 35: Ana Carolina de Oliveira Neves Dissertação de Mestrado

33

central. Por outro lado, as vibrações por deformação angular consistem em movimentos que

um átomo realiza e alteram o ângulo de ligação entre três átomos.

Figura 11-Tipos de movimentos vibracionais existentes em ligações químicas:

a) estiramentos; b) deformações.

Fonte: Autor.

As vibrações por deformação angular podem ocorrer tanto no plano quanto fora do

plano e, ainda, serem simétricas ou assimétricas, dependendo do sentido em que cada átomo

esteja se movimentando26

. Tais movimentos vibracionais (e também os rotacionais) podem

acarretar em mudanças nos momentos dipolares das moléculas, de forma que, só assim, uma

determinada radiação incidente, neste caso, a radiação NIR, poderá interagir com as mesmas e

provocar mudanças nas amplitudes de suas vibrações e rotações. O tal momento dipolar é

dependente da magnitude da diferença de carga entre os átomos (calculada através da

eletronegatividade dos mesmos) e pela distância entre estes centros de carga. O campo

elétrico produzido pelas vibrações ou rotações de átomos unidos por ligações químicas pode

interagir com o campo elétrico da radiação incidente e, se as frequências de ambos forem as

mesmas, então ocorrerá a absorção da radiação pela molécula.

simétrica assimétrica

a) vibrações de estiramento

balanço no plano recorte no plano

desvio fora do plano torção fora do plano

b) vibrações de deformação

Page 36: Ana Carolina de Oliveira Neves Dissertação de Mestrado

34

A frequência desses movimentos é definida pela força da ligação e massas individuais

dos átomos ligantes. Já as amplitudes são de poucos nanômetros e poderão aumentar se

alguma energia for transferida à molécula. Essa transferência pode ocorrer através de um

fóton de um dado comprimento de onda (λ), onde a energia (Ep) pode ser expressa como:

Ep = hν = hc / λ

Onde h é a constante de Planck e c, a velocidade da luz.

Considerando uma molécula diatômica como duas massas esféricas (m1 e m2) unidas

por uma mola com constante de força (k), através do modelo do oscilador harmônico simples

e da Lei de Hooke, a energia (E) do sistema é dada por:

Onde μ é a massa reduzida: μ = m1m2 / m1 + m2

Considerando o clássico modelo do oscilador harmônico, a energia potencial (V) de

uma vibração será função do afastamento dos átomos, sendo expressa por:

Apesar de útil para o entendimento do conceito de energia vibracional, tal abordagem

é falha quando são considerados sistemas microscópicos, como no caso das moléculas, pelo

fato de que tais sistemas não assumem perfis contínuos de energia, como seria previsto por

esse modelo clássico. De acordo com a mecânica quântica, tais sistemas moleculares só

podem assumir níveis discretos de energia (Eυ), definidos como:

Onde υ é o número quântico vibracional, Eυ é a energia associada com esse

determinado nível quântico, ν é a frequência vibracional fundamental que, de acordo com o

modelo clássico, é dada por:

(1)

(2)

(3)

(4)

Page 37: Ana Carolina de Oliveira Neves Dissertação de Mestrado

35

De acordo com esse modelo quântico/harmônico, as transições entre os diferentes

níveis vibracionais adjacentes só podem acontecer quando Δυ = ± 1. Ainda, essa diferença de

energia entre os níveis é sempre a mesma. E, para que uma molécula absorva energia e,

consequentemente, seja promovida até um nível vibracional excitado, a radiação incidente

deve corresponder exatamente à diferença entre os dois níveis energéticos adjacentes.

Portanto, a energia do fóton deve ser:

ΔE = Eυ2 – Eυ1 = h

Embora possa explicar a espectroscopia vibracional, o modelo harmônico,

representado na Figura 12-A, apresenta certas limitações em relação ao entendimento dos

sinais observados experimentalmente, através da espectroscopia NIR, uma vez que não são

permitidas transições com Δυ maior que 1.

Figura 12-Modelos harmônico (A) e anarmônico (B) para espectroscopia vibracional.

Fonte: adaptado da referência

24.

Transições com Δυ ± 2 ou maior são proibidas pelo modelo harmônico/quântico e,

portanto, muitos dos fenômenos observados (bandas de sobretons) na região NIR não

existiram. Outro fator importante do modelo harmônico, é que todas as vibrações são

independentes entre si, logo, as bandas de combinação NIR também não deveriam ser

Potencial harmônico Potencial anarmônico

Distância interatômica

En

erg

ia p

ote

nci

al (U

)

(5)

(6)

Page 38: Ana Carolina de Oliveira Neves Dissertação de Mestrado

36

observadas. Todavia, tanto as bandas de combinação quanto os sobretons existem e são

experimentalmente visualizados, na região NIR25

.Para contornar tais restrições, um modelo

mais realístico foi proposto, onde uma molécula diatômica ainda é tratada com a aproximação

de duas “bolas” unidas por uma “mola”, entretanto, o novo modelo considera, agora, alguns

comportamentos não ideais do oscilador, tais como: as forças de repulsão entre as nuvens

eletrônicas à medida que os átomos se aproximam e a energia de dissociação, que prevê que

quando os átomos estão a uma distância muito grande a ligação química passa a não existir

mais.

Esse comportamento anarmônico é aproximado através da equação de Morse24

, que

descreve a energia potencial da molécula diatômica, como:

Onde a é uma constante molecular, De é a energia de dissociação, reé a distância

interatômica de equilíbrio e r é a distância interatômica a um dado instante.

Aplicando a mecânica quântica à função de Morse, a equação resultante descreve os níveis

vibracionais, como:

Em que xm é a constante de anarmonicidade da vibração.

Dessa forma, o modelo anarmônico/quântico, ilustrado na Figura 12-B, explica a

ocorrência de transições com Δυ ± 2 ou maior (sobretons) e bandas de combinação entre

vibrações, que são, ambos, os tipos de bandas com maior predominância na região espectral

NIR. Outra contribuição importante é que o modelo prevê que a separação entre dois níveis

vibracionais adjacentes diminui com o aumento do número quântico vibracional, υ, não sendo

mais igualmente espaçadas, como previa o modelo harmônico.

Dessa forma, a energia total vibracional (Eυ) é resultante da interação entre diferentes níveis e

pode ser calculada como:

(7)

(8)

(9)

Page 39: Ana Carolina de Oliveira Neves Dissertação de Mestrado

37

A anarmonicidade também pode estar presente nas propriedades elétricas das

moléculas. Especificamente, isso irá afetar no momento de dipolo, que em um modelo

anarmônico, não tem dependência linear com a distância interatômica. Esse tipo de

anarmonicidade pode fornecer caminhos para ocorrência de sobretons e bandas de

combinação, mesmo se nenhum desvio mecânico do modelo harmônico for observado no

sistema em questão, tornando os espectros NIR ainda mais complexos25

.

1.5 QUIMIOMETRIA E CALIBRAÇÃO MULTIVARIADA

A quimiometria pode ser definida como a utilização de conceitos matemáticos e

estatísticos, visando planejar e selecionar procedimentos experimentais otimizados, bem como

obter o máximo de informações químicas, a partir de um conjunto de dados. O seu

desenvolvimento e utilização é fortemente relacionado ao uso de computadores em

laboratórios químicos. Na década de 1970, muitos pesquisadores já utilizavam matemática e

estatística em seus experimentos, entretanto, a quimiometria só se firmou à medida que os

sistemas computacionais passaram a ser aprimorados, de forma que a aquisição e manipulação

dos mesmos passou a ser mais simples e comum, tornando-os mais acessíveis a pesquisadores

de diversas áreas, especialmente, na química analítica34,35

. Essa maior disponibilidade em

relação aos computadores, bem observada a partir dos anos 1980, proporciona uma nova era

para a aquisição, processamento e interpretação de dados químicos, através de métodos

estatísticos e matemáticos aliados a programas computacionais, uma vez que essa união

possibilita aos pesquisadores trabalharem com informações de natureza complexa e também a

busca pelo desenvolvimento de novos métodos34

. Em virtude de sua vasta aplicabilidade, a

quimiometria foi dividida em diversas áreas, das quais podem ser citadas:

Processamento de sinais analíticos;

Planejamento e otimização de experimentos;

Reconhecimento de padrões e classificação de dados;

Calibração multivariada;

Métodos de inteligência artificial.

Tratamento de imagens hiperespectrais.

Page 40: Ana Carolina de Oliveira Neves Dissertação de Mestrado

38

A calibração multivariada provavelmente é uma das áreas da quimiometria que tem

atraído mais atenção36,37

. Calibração pode ser definida como operações que visam estabelecer

uma relação entre respostas e fatores, ou, por exemplo, entre medidas instrumentais e uma

propriedade de interesse34,37

. A clássica calibração univariada é muito bem estabelecida na

química analítica e, para um modelo linear, trata-sede uma função matemática que relaciona

os grupos das variáveis dependentes (Y) e independentes (X) da seguinte forma:

Y = b0 + b1X

Em que “b” representa os coeficientes da equação e X trata-se de medidas

instrumentais realizadas em um determinado comprimento de onda,λ, como, por exemplo, um

valor de absorbância, A.

Entretanto, é preciso certificar-se de que as medidas realizadas sobre um dado

comprimento de onda não sejam afetadas por sinais de outras fontes (interferentes), além

daquela de interesse (analito), para que os resultados fornecidos pelo modelo univariado

sejam exatos e confiáveis. Para medidas analíticas que não apresentam alta seletividade em

seus sinais, a calibração univariada deve apresentar resultados muito desviados do valor

real36

. A espectroscopia NIR é uma das técnicas analíticas que apresenta baixa seletividade

em seus sinais, devido à complexidade inerente dos mesmos, por serem oriundos de sobretons

e bandas de combinação de vários tipos de ligações químicas envolvidas nas diversas

moléculas presentes na amostra. Dessa forma, normalmente não é possível se utilizar apenas

um comprimento de onda para a determinação da concentração, por exemplo, de um

parâmetro de interesse. Esse problema pode ser ilustrado através da Figura 13, onde a

concentração de gorduras em 103 amostras de carne bovina e suína foi determinada,

individualmente, pelos métodos univariado (Fig. 13-b) e multivariado (Fig. 13-c), através dos

espectros NIR (Fig. 13-a), obtidos na faixa de 850 a 1050 nm, resultando num total de 100

variáveis:

(10)

Page 41: Ana Carolina de Oliveira Neves Dissertação de Mestrado

39

Figura 13 -Comparação entre métodos univariado (b) e multivariado (c) para análise de gordura a partir de

espectros obtidos na região do NIR (a).

Fonte: adaptado da referência

36.

A calibração univariada utilizou apenas as medidas instrumentais a 940 nm, que

corresponde ao terceiro sobretom do grupo CH2. A melhor correlação obtida por este método

foi de 0,23, sendo um valor bastante insatisfatório. Por outro lado, quando foi aplicada a

calibração multivariada neste conjunto de dados, utilizando todas as 100 variáveis espectrais,

o valor do coeficiente de correlação aumentou significativamente para 0,97, evidenciando

que, em muitos casos, a combinação de informações provenientes de muitas ou até mesmo

todas as variáveis espectrais é muito mais vantajosa36

. Além do aproveitamento da informação

química útil fornecida por cada uma das variáveis espectrais, a calibração multivariada

também apresenta outras vantagens de grande importância para métodos analíticos, tais como

a possibilidade de construir modelos mesmo na presença de interferentes, desde que os

Comprimento de onda (nm)Referência de gordura (% de peso)

Pre

diç

ão

de g

ord

ura

(%

de p

eso

)

Referência de gordura (% de peso)

Pre

diç

ão

de

go

rdu

ra (

% d

e p

eso

)

Page 42: Ana Carolina de Oliveira Neves Dissertação de Mestrado

40

mesmos encontrem-se também na fase de calibração e não somente na previsão de novas

amostras, além da possibilidade de determinações simultâneas em uma única análise38

.

Um modelo linear multivariado pode ser representado como uma função matemática

que representa a relação entre X e Y, da seguinte maneira36

:

Onde K representa o número de variáveis presentes na equação e f, os resíduos.

Neste tipo de calibração as medidas (respostas) instrumentais X são representadas em

forma de matriz, enquanto a propriedade de interesse Y, que é determinada por uma

metodologia padrão, é representada por um vetor39

. A Figura 14mostra um exemplo da

construção de uma matriz de respostas instrumentais.

Figura 14- Ilustração esquemática de construção de uma matriz de respostas instrumentais.

Fonte: Autor.

Diversos são os métodos de regressão atualmente empregados na calibração

multivariada. Dentre os mais utilizados para modelagem linear estão as regressões em

componentes principais (PCR, do inglês, principal component regression) e por mínimos

quadrados parciais (PLS, do inglês, partial least squares). Por sua vez, as redes neurais

artificiais (ANN, do inglês, artificial neural network), os mínimos quadrados parciais não

lineares (N-PLS) e as máquinas de vetores de suporte (SVM, do inglês, support vector

(11)

Page 43: Ana Carolina de Oliveira Neves Dissertação de Mestrado

41

machine) tem aplicação de destaque como métodos multivariados de regressão não linear

[35].

Outra área da quimiometria que apresenta grande destaque, além da calibração

multivariada, é o reconhecimento de padrões que pode ser aplicado com diversas finalidades,

especialmente na análise exploratória de dados e classificação de objetos. Uma vez que as

respostas instrumentais carregam informações químicas e físicas das amostras, a análise

exploratória é usada para detecção de padrões de associação nos conjuntos de dados e, a partir

destes padrões, é possível se estabelecer relações entre as amostras e variáveis, descobrir

amostras anômalas (outliers) ou agrupa-las conforme determinadas características35,40

. Para

tanto, um dos métodos mais utilizados é a análise por componentes principais (PCA, do

inglês, principal component analysis) que tem como maiores objetivos reduzir a

dimensionalidade do conjunto de dados e colinearidade existente entre as diversas variáveis

instrumentais, preservando, ao mesmo tempo, o máximo de informação útil à análise36,37

. O

conjunto de dados resultante da PCA é muitas vezes utilizado como base para construção de

diversos modelos multivariados e fornecem resultados mais satisfatórios quando comparados

àqueles obtidos através do conjunto de dados originais. Dessa forma, a fundamentação

envolvida nos cálculos da PCA é inerente a muitos métodos multivariados, sejam eles de

regressão ou classificação36

.

1.5.1 Análise por componentes principais – PCA

O princípio geral da PCA é realizar uma aproximação da matriz original das respostas

instrumentais (X) como um produto de duas outras matrizes, de menores dimensões, os scores

e loadings. Essa transformação é realizada da seguinte maneira34,41

:

Onde:

X é a matriz de dados originais,

T é a matriz dos scores;

P é a matriz dos loadings;

E é a matriz residual;

T é a matriz transposta.

(12)

Page 44: Ana Carolina de Oliveira Neves Dissertação de Mestrado

42

Na projeção de X no subespaço d-dimensional,conforme mostrado na Figura 15, os

scores representam as coordenadas das amostras no sistema definido pelas componentes

principais (PC, do inglês, principal component). Os loadings são os cossenos dos ângulos dos

vetores de direção da variabilidade das amostras (componentes principais). Por sua vez, a

matriz residual representa a quantidade de informação espectral que não foi descrita através

das componentes principais41

.

Figura 15 - Projeção de X no espaço d-dimensional.

Fonte: referência

33.

A matriz obtida pela PCA, descrita pelas componentes principais, contém novas

variáveis que não são correlacionadas entre si. Cada PC carrega informações diferentes sobre

as amostras e variáveis originais, e são calculadas através de um processo iterativo, em que a

equação (12) é usada para extrair o primeiro termo T1P1T (PC1)da matriz X. A matriz residual

E é submetida ao mesmo cálculo para a obtenção de T2P2T (PC2), dando origem a uma nova

matriz residual que, por sua vez, contém menos informação. Esse processo se repete até que a

matriz residual contenha uma quantidade de informação comparável ao nível de ruído

instrumental41

. Desse modo, a maior parte da variabilidade presente no conjunto de dados

estará contida na primeira PC; a segunda PC terá mais informação que a terceira, e assim por

diante34

.

Um aspecto importante para qualquer método de compressão de dados, como a PCA, é

a escolha do número ótimo de variáveis ou componentes que deve ser usado. Se muitas

componentes são selecionadas, muita redundância das variáveis de X será incorporada no

modelo, ocasionando o sobreajuste do mesmo (overfitting). Por outro lado, se for usada uma

quantidade insuficiente de componentes o modelo não terá capacidade de explicar toda a

variabilidade necessária presente em X (underfitting)36

.

Page 45: Ana Carolina de Oliveira Neves Dissertação de Mestrado

43

Figura 16 - Fatores influentes na escolha do número de componentes.

Fonte: adaptado da referência

36.

Conforme é visto através da Figura 16, dois fatores devem ser considerados para que

seja feita a escolha certa do número de componentes a se utilizar: o erro do modelo e a

estimativa de erro (“simulação de erro para novas amostras”). À medida que o número de

componentes aumenta, o erro do modelo diminui, uma vez que uma maior variabilidade de X

é contemplada. Ao contrário, a estimativa de erro cresce em função do aumento de parâmetros

a serem estimados. Portanto, o número ideal de componentes a ser utilizado deve encontrado

no ponto médio entre os valores máximos do erro e estimativa de erro do modelo

multivariado36

.Um dos métodos mais utilizados para seleção do número correto de

componentes (ou fatores) a ser selecionado é chamado de validação cruzada (CV, do inglês,

cross validation). Esta técnica consiste em calcular uma estimativa de erro que o modelo

multivariado apresentaria frente a novas amostras desconhecidas para previsão de um

parâmetro de interesse. Para tanto, são utilizadas as próprias amostras de calibração, e suas

respectivas respostas instrumentais, que foram usadas na construção do modelo. O método de

validação cruzada leave-one-out realiza esse cálculo deletando uma amostra por vez, e

calculando o modelo na sua ausência.A habilidade de previsão deste modelo é, então, testada

utilizando a amostra que foi mantida fora da construção do mesmo. Este procedimento é

repetido até que todas as amostras de calibração disponíveis tenham sido excluídas uma vez e

reincorporadas no modelo, individualmente. A estimativa de erro é dada pela raiz quadrada do

erro médio de validação cruzada (RMSECV, do inglês, root mean square error of cross

validation), que é definido como:

Número de componentes

Err

o d

e p

red

içã

o

Underfitting Overfitting

(13)

Page 46: Ana Carolina de Oliveira Neves Dissertação de Mestrado

44

Em que ŷcv,i é a estimativa para yi baseada na equação da calibração (construção do

modelo) com a amostra i excluída, e N é o número de amostras do conjunto de calibração36

.

Os valores de RMSECV são calculados para todas as componentes (ou fatores) do

modelo e plotados em um gráfico como função das mesmas. Através desse gráfico é possível

observar um ponto em que o erro se torne mínimo (conforme ilustrado na Figura 16) e esse,

então, deve ser o número ideal de componentes a ser selecionado.

1.5.2 Regressão por mínimos quadrados parciais – PLS

O método dos mínimos quadrados parciais é um tipo de regressão multivariada

amplamente utilizado em análises quantitativas, uma vez que o mesmo correlaciona dados

espectroscópicos (matriz X) com uma ou mais propriedade(s) química(s) ou física(s) de

interesse (matriz Y). O PLS é baseado em variáveis latentes (ou componentes PLS)uma vez

que a decomposição da matriz X durante a regressão é guiada pela variação em Y, ou seja, a

covariância entre X e Y é maximizada. Para tanto, ocorrem pequenas distorções nas direções

dos loadings, de modo que estes perdem sua ortogonalidade, sendo essa uma diferença

importante comparada à PCA, onde tais vetores ainda são ortogonais entre si37,39

. Esta

diferença leva a componentes PLS que são mais diretamente relacionadas à variabilidade em

Y do que são as componentes principais (PC)34,36,42

. As matrizes X e Y são relacionadas

através de operações lineares algébricas entre seus scores, T. Estes são obtidos pela

decomposição de X e Y em matrizes menores, de acordo com o seguinte esquema:

(14)

(15)

Page 47: Ana Carolina de Oliveira Neves Dissertação de Mestrado

45

Em que:

X é a matriz das respostas instrumentais;

Y é a matriz das respostas da propriedade de interesse;

T são os scores de X e Y;

P e q são os loadings de X e Y, respectivamente;

E e f correspondem às matrizes residuais de X e Y, respectivamente;

A é o número de variáveis latentes utilizadas para o desenvolvimento do modelo.

As estimativas (previsões) da propriedade de interesse (ŷ) para um dado conjunto de

amostras são obtidas pela multiplicação da matriz original das respostas instrumentais (X)

pelo vetor de regressão apropriado (b), conforme a equação abaixo:

Em que W é a matriz loadings weights, determinada durante os cálculos do algoritmo

PLS36,43

.

Alguns parâmetros relativos ao erro devem ser considerados para a avaliação da

eficiência de um modelo multivariado tanto na fase em que o mesmo está sendo construído,

ou seja, na calibração, quanto na utilização do modelo para novas amostras desconhecidas

(previsão). O erro padrão de previsão (SEP, do inglês, standard error of prediction) pode ser

definido como um desvio padrão dos resíduos de previsão, conforme a equação 17, abaixo36

:

Em que em que ŷi é o valor estimado calculado pelo modelo para uma dada amostra i,

yi é o valor medido pelo método padrão, e Np é o número de amostras de previsão.O BIAS

pode ser definido como o somatório do erro sistemático presente no modelo44

e é calculado

como mostrado na equação 18, a seguir:

(16)

(17)

Page 48: Ana Carolina de Oliveira Neves Dissertação de Mestrado

46

Outro tipo de medidor de erro também amplamente utilizado na calibração

multivariada é o RMSEP, raiz quadrada do erro médio de previsão (do inglês, root mean

square error of prediction). Este é calculado por:

A relação entre o SEP e RMSEP é simples36

:

Em que a igualdade não é utilizada, pois o denominador do SEP é (Np-1) enquanto o

do RMSEP é apenas (Np).

Preferencialmente, o RMSEP é muito mais utilizado quando comparado ao SEP. A

justificativa para isso é que o SEP é uma medida da precisão do modelo, ou seja, a diferença

calculada entre repetidas medições. Já o RMSEP refere-se à exatidão e precisão do método

multivariado, uma vez que mede a diferença entre o valor real e o estimado pelo modelo.

É importante mencionar que todos esses erros também são aplicados à calibração do

modelo, onde recebem a letra C ao final das suas siglas, tornando-se RMSEC e SEC, sendo

calculados de maneira similar ao apresentado anteriormente, para a previsão.

Em que A representa o número de variáveis latentes ou componentes do modelo

multivariado.

(18)

(19)

(20)

(21)

Page 49: Ana Carolina de Oliveira Neves Dissertação de Mestrado

47

1.5.3 Redes neurais artificiais – ANN

Na química analítica nem sempre uma abordagem linear pode proporcionar os

melhores e mais adequados resultados para determinada análise. Muitas causas de não

linearidade podem ser observadas em dados espectroscópicos, como, por exemplo, no caso da

lei de Beer que relaciona linearmente a absorbância de espécies em uma mistura às suas

concentrações, desde que se trate de um sistema diluído ou não saturado. Outros tipos de

desvio da linearidade podem ocorrer se a amostra for altamente absorvente ou não

homogênea, se os tamanhos das partículas não forem constantes para todas as amostras (no

caso de espécies cristalinas), se alguns sinais forem significativamente sobrepostos, se

houverem alterações na temperatura durante a análise, imperfeições na ótica do equipamento

utilizado, interações intermoleculares entre os constituintes das amostras, presença de

umidade induzindo à formação de ligações de hidrogênio, entre outros fatores36,45

. Na

presença de um ou mais destes fatores, a relação entre X e Y não será perfeitamente linear,

havendo moderada ou forte não linearidade que levará a altos erros se uma abordagem linear

for empregada. Na calibração multivariada, o PLS, apesar de amplamente utilizado por

apresentar resultados satisfatórios em diversos tipos de análises, tenderia a altos valores de

erros em suas determinações, por se tratar de um método de regressão linear36

. Em algumas

situações, a presença de não linearidade pode ser corrigida através de pré-processamentos

espectrais (suavizações, derivadas, correções de espalhamento de luz, etc) ou mesmo pela

incorporação de um número maior de componentes (ou fatores) aos modelos multivariados

lineares. Uma regra geral para detecção da presença de não linearidade em um conjunto de

dados é feita através da observação dos resíduos de um modelo linear36,45

. Os resíduos são a

medida do erro entre o valor real e o valor predito pelo modelo, (y – ŷ). O gráfico plotando os

valores de resíduo contra os valores estimados do parâmetro pode evidenciar facilmente não

linearidade quando os pontos apresentarem comportamentos tendenciosos (Figura 17-b) ou

curvaturas (Figura 17-c), uma vez que deveriam posicionar-se aleatoriamente, em torno do

zero (Figura 17-a).

Page 50: Ana Carolina de Oliveira Neves Dissertação de Mestrado

48

Figura 17-Exemplos de gráficos de valores de resíduos contra valores estimados de um determinado parâmetro:

a) apresentando posicionamento aleatório em torno do zero; b) apresentando comportamento

tendencioso; c) apresentando curvatura.

Fonte: referência

44.

Entretanto, quando as aproximações lineares não funcionam bem, métodos de

regressão mais complexos devem ser utilizados, visando a obtenção de resultados cada vez

mais próximos aos valores reais. As redes neurais artificiais (ANN, do inglês, artificial neural

network)apresentam-se como um dos métodos de regressão multivariada não linear bastante

utilizado para modelagem de dados de natureza mais complexa, como os não lineares36,45

.

As redes neurais vêm do campo da inteligência artificial e foram desenvolvidas com a

motivação inicial de “imitar” algumas características únicas do cérebro humano, como a

habilidade de aprender mecanismos gerais a partir de um número limitado de exemplos45

. Na

calibração multivariada, as redes neurais permitem estimar relações entre variáveis

independentes (X) e respostas ou variáveis dependentes (Y). A informação fornecida a uma

rede é distribuída entre diversas células (nodos ou neurônios) e suas conexões, chamadas

“pesos” (do inglês, weights)45

. Um exemplo simples de uma rede neural multicamadas do tipo

back-propagation é mostrado a seguir, através da Figura 18.

Page 51: Ana Carolina de Oliveira Neves Dissertação de Mestrado

49

Figura 18 -Ilustração do funcionamento de uma rede neural artificial: a) passo para frente;

b) propagação para trás do erro.

Fonte: adaptado da referência

38.

A rede mostrada possui apenas 4 variáveis espectrais, x1a x4, e uma única resposta y. A

informação é inicialmente armazenada na camada de entrada (input layer) e então pesada

através das conexões w’ij entre as camadas de entrada e escondida (hidden layer). Por sua vez,

a camada escondida recebe essa informação já processada e realiza duas funções:

i) Um somatório das informações pesadas seguido por uma projeção em uma

função de transferência fh(hiperbólica)para produzir uma ativação;

ii) As ativações da camada escondida são novamente pesadas pelas conexões w’’j

e enviadas aos nodos da camada de saída (output layer).

Da mesma forma, na camada de saída é realizado um novo somatório e a informação

resultante é encaminhada à função de transferência fo(linear). Assim, o valor predito (resposta

estimada) contido no único nodo da camada de saída é calculado da seguinte maneira45

:

Em que nd e nh são o número de variáveis de entrada e nodos na camada escondida.

As conexões w’ij e w’’j e os biases θ’ e θ’’ são parâmetros ajustáveis pelo algoritmo no

momento em que os cálculos estão sendo realizados. Esses parâmetros são determinados

Camada de

entrada

Camada

escondida

Camada de

saída

“passo para frente”

Camada de

entrada

Camada

escondida

Camada de saída

Propagação para trás do erro

(22)

Page 52: Ana Carolina de Oliveira Neves Dissertação de Mestrado

50

através de um procedimento iterativo chamado training ou learning. Inicialmente, são

atribuídos valores aleatórios a todos os parâmetros passíveis de ajuste e, então, o treinamento

é iniciado, passando por duas etapas principais:

1. A primeira parte consiste no forward pass (ou “passo para frente”). Essa etapa é

realizada pela rede utilizando um conjunto de amostras de treinamento (training set)

onde os valores experimentais de y (obtidos por metodologia padrão) são conhecidos.

Ao fim desse passo, a magnitude do erro entre o valor real e o estimado é calculada;

2. Com os valores de erro calculados ao fim do passo 1, inicia-se a segunda etapa,

chamada de back-propagation pass (ou “passo de propagação para trás”). Nesse

momento, o erro calculado é propagado por todas as conexões da rede, seguido pelo

ajuste das mesmas no sentido de diminuir a diferença entre o valor real e o calculado

pelo modelo.

Esses dois passos constituem uma iteração ou época. No momento em que as conexões

são ajustadas, uma nova época é iniciada até que nenhuma melhora significativa do erro seja

alcançada. Neste momento, a arquitetura da rede está otimizada45

.

É importante enfatizar uma característica marcante das redes neurais: sua flexibilidade.

As redes podem ser aplicadas a dados que apresentem comportamento não linear mesmo

quando a fonte da não linearidade não é bem determinada, o que em acontece em diversos

casos45

. Graças a sua habilidade de conseguir ajustar uma relação entre X e Y a partir de um

conjunto de amostras de treinamento, as redes podem evitar gasto de tempo desnecessário

devido à tentativa da construção de um modelo multivariado por outros métodos. Em

compensação, a desvantagem dessa grande flexibilidade pode ser o sobreajuste dos dados de

calibração, levando a uma baixa habilidade de generalização, ou seja, a capacidade do modelo

produzir respostas corretas quando novas amostras forem fornecidas à rede (previsão). Os

cálculos dos erros nas redes neurais são realizados da mesma maneira conforme apresentado

no item 1.5.2para o PLS45

.

1.5.4 Pré-processamento de dados

A área de pré-processamento de sinais apresenta-se como uma das subdivisões

fundamentais dentro da quimiometria. O princípio comum a todos os diversos métodos de

Page 53: Ana Carolina de Oliveira Neves Dissertação de Mestrado

51

pré-processamento é que os dados contenham o mínimo possível de informações irrelevantes

para que possam,então, ser usados na construção de modelos multivariados.Dessa forma, a

aplicação de um simples pré-processamento pode causar uma grande melhoria na qualidade

do modelo final por maximizar a razão sinal/ruído e a quantidade de informação química

referente aos analitos, ignorando a presença de efeitos físicos que causam variações aleatórias

e sistemáticas às medidas instrumentais34,36

. Atualmente, diversos são os métodos de pré-

processamento existentes. Dentre eles, o filtro digital ou suavização (do inglês, smoothing), o

cálculo da derivada, a correção do espalhamento de luz (para o modo de reflectância) e a

centragem na média (do inglês, mean centering) tem um papel de destaque em dados

espectroscópicos complexos, como os espectros NIR.

1.5.4.1 Centragem na média

É um dos pré-tratamentos mais simples. Primeiramente, calcula-se a média de cada

variável, conforme a equação abaixo:

Onde Xcj é a matriz dos dados Xij contido em uma coluna (variáveis). Em seguida,

subtrai-se os dados originais pela média calculada:

Esse pré-tratamento é utilizado com o objetivo de diminuir a flutuação do sinal

analítico (offset) que pode ocorrer devido a efeitos físicos ou erros sistemáticos. Após essa

correção, as flutuações no sistema são causadas devido à composição química das amostras40

.

1.5.4.2 Suavização ou filtro digital

Esse tipo de pré-tratamento visa aumentar a relação sinal/ruído o máximo possível,

uma vez que quanto maior for esse valor, maior será a intensidade do sinal em comparação ao

padrão ou “branco” (background). Os melhores métodos de suavização são aqueles que

(23)

(24)

Page 54: Ana Carolina de Oliveira Neves Dissertação de Mestrado

52

pesam os dados originais diferentemente através de operações polinomiais e não por funções

lineares, pois estas tendem a diminuir a intensidade no ponto central do pico, levando a perda

de informação37

. A suavização Savitzky-Golay46

é um tipo de filtro polinomial dos mais

utilizados em dados espectrais e consiste em aplicar regressões polinomiais através de uma

janela de k pontos, movendo-se um ponto por vez. Os coeficientes da função calculam o valor

do ponto central da janela, que será o valor suavizado, conforme a equação abaixo34

:

Onde NORM é o fator de normalização obtido a partir do somatório dos coeficientes

cj.

Ao se utilizar filtros digitais é importante determinar a melhor largura da janela de

pontos para cada conjunto de dados em particular. Quando a suavização é feita em excesso os

picos dos sinais são prejudicados tanto em intensidade quanto em resolução. Se, por outro

lado, a suavização aplicada não for suficiente, mesmo após a sua utilização o ruído ainda

permanecerá37

.

1.5.4.3 Derivada

O cálculo das derivadas é comumente empregado em dados espectroscópicos para

remover deslocamentos de linha de base e espalhamentos ou flutuações do sinal analítico, e

também para melhorar a resolução espectral36

. Um dos métodos mais utilizados e de

abordagem sofisticada foi desenvolvido por Savitzky-Golay46

que, da mesma forma que na

suavização, aplica regressões polinomiais para o cálculo de derivadas de primeira ou segunda

ordem. Também é necessário selecionar uma janela de pontos (medidas instrumentais) nos

quais será aplicada a derivada. A derivada de primeira ordem iguala a zero o ponto central de

um pico, sendo esse um bom modo de localizar precisamente a posição de picos largos.

Entretanto, a diferenciação pode trazer algumas desvantagens como a diminuição da razão

sinal/ruído, uma vez que tal cálculo tende a amplificar o ruído, especialmente em dados muito

ruidosos. Para evitar tal efeito, é indicado que junto à aplicação da derivada seja realizada

uma suavização nos dados37

.

(25)

Page 55: Ana Carolina de Oliveira Neves Dissertação de Mestrado

53

1.5.5 Seleção de amostras

Quanto maior o número de amostras disponível para construção do modelo,

provavelmente,melhor será a eficiência do mesmo. Mas não é este o único fator importante

relacionado às amostras utilizadas. Uma escolha correta das amostras de calibração e previsão

também desempenha um papel fundamental na habilidade de previsão e eficiência de um

modelo multivariado, evitando, ainda, situações de extrapolações. As amostras de calibração

devem ser escolhidas de modo que as de validação (previsão) sejam bem representadas pelas

primeiras36

. Quanto mais representativo for o modelo na calibração, menor é a chance de erro

frente a amostras desconhecidas. Uma ótima e muito utilizada forma de seleção de amostras é

através do algoritmo Kennard-Stone47

.O algoritmo calcula a distância Euclidiana entre os

vetores x para cada par de amostras (p,q), dada por:

Em que xp (j) e xq(j) são respostas instrumentais nos j-ésimos comprimentos de onda

para as amostras p e q, respectivamente. J representa o número de comprimentos de onda de

um espectro, por exemplo48

.

De acordo com Dantas Filho49

, a seleção inicia-se escolhendo o par (p1,p2) de

amostras para as quais a distância dx (p1,p2) seja maior. Em cada interação subsequente, o

algoritmo seleciona a amostra que apresentar maior distância em relação a alguma amostra já

selecionada48

.Esse procedimento é repetido até que o número desejado de amostras para cada

conjunto seja alcançado. Dessa forma, garante-se que as amostras de calibração sejam aquelas

com maior variabilidade, ou seja, que carregam o máximo de informações químicas e físicas

relacionadas às propriedades das amostras, e que as amostras desconhecidas sejam

devidamente bem contempladas36

.

1.5.6 Seleção de variáveis

Na calibração multivariada, selecionar variáveis a partir de um conjunto de dados

espectrais significa escolher uma ou mais partes das respostas instrumentais para utilização na

construção de modelos. É, portanto, uma alternativa à utilização de toda faixa espectral,

(26)

Page 56: Ana Carolina de Oliveira Neves Dissertação de Mestrado

54

podendo tornar os modelos mais simples, robustos e de fácil interpretação, além de contribuir

para facilitar a aquisição dos dados espectrais36

. Ainda, tal ferramenta pode também melhorar

sobremaneira os resultados de um dado modelo multivariado, seja ele linear ou não linear,

tornando-o mais exato em suas determinações, uma vez que serão consideradas somente as

regiões que contenham informações úteis à análise, e eliminadas aquelas que contribuem

apenas como fontes de incertezas e adição de ruídos50

. Neste trabalho, foram empregados os

algoritmos iPLS (do inglês, interval partial least squares), SPA (do inglês, successive

projections algorithm) e o GA (do inglês, genetic algorithm) como métodos de seleção de

variáveis.

1.5.6.1 Mínimos quadrados parciais por intervalos – iPLS

É um dos métodos mais simples para seleção de variáveis, considerando que o mesmo

seleciona faixas espectrais e não variáveis isoladas. O iPLS é uma extensão do PLS, onde são

construídos diversos modelos independentes por mínimos quadrados parciais utilizando

subdivisões equidistantes, dentro de toda a faixa espectral51

, conforme ilustrado na Figura 19.

Figura 19 - Seleção de variáveis, via iPLS, dentro de uma área espectral ampla.

Fonte: Autor.

As faixas espectrais que supostamente apresentam ruídos e informações prejudiciais à

análise são ignoradas e, então, um novo modelo PLS é feito utilizando somente a(s) faixa(s)

espectral que apresentou os melhores resultados. A identificação das melhores sub-regiões é

feita através da comparação dos valores de RMSECV para cada modelo iPLS comparados ao

Page 57: Ana Carolina de Oliveira Neves Dissertação de Mestrado

55

modelo global (com toda a faixa espectral). O subintervalo que apresentar o menor erro será a

faixa correspondente às variáveis selecionadas pelo método50

.

1.5.6.2 Algoritmo das projeções sucessivas – SPA

É um tipo de algoritmo de seleção de variáveis que, através de diversas projeções

vetoriais, seleciona as variáveis espectrais mais relevantes, com o mínimo de colinearidade e

redundância, para construção de modelos multivariados52

. Seu procedimento inicia

selecionando uma única variável (comprimento de onda) e continua incorporando novas

variáveis à medida que são realizadas as iterações, até que um número N de comprimentos de

onda seja alcançado53

. Devido ao modo como as projeções vetoriais são realizadas, o SPA

tem um número máximo de variáveis que podem ser selecionadas; este número é sempre

menor ou igual à quantidade total de amostras de calibração53

.

1.5.6.3 Algoritmo genético – GA

O algoritmo genético é um método de seleção variáveis que tenta “copiar” condições

evolucionárias, onde variações aleatórias na composição genética combinadas com a seleção

dos indivíduos mais adaptados leva a progressivas melhorias em seus descendentes36

.

Baseado em inteligência artificial, as variáveis são representadas por genes em um

cromossomo, e são selecionadas através dos cromossomos que apresentam maior aptidão ou

capacidade de adaptação, ou seja, as variáveis que apresentam os menores somatórios dos

erros quadráticos de previsão ou de validação cruzada36

. As variáveis são representadas por

códigos binários, onde aquelas que forem selecionadas recebem o código 1, enquanto as

excluídas, 0. Os operadores genéticos básicos que envolvem o procedimento são a seleção, o

cruzamento e a mutação. O processo de seleção copia cromossomos “parentes” na tentativa de

gerar uma nova população.

Page 58: Ana Carolina de Oliveira Neves Dissertação de Mestrado

56

Figura 20 -Ilustração esquemática do princípio de funcionamento do algoritmo genético.

Fonte: adaptado da referência

36.

O cruzamento consiste em compartilhar informação útil entre dois indivíduos bem

adaptados, conforme visto na Figura 20. As variáveis que serão cruzadas são escolhidas

aleatoriamente, dando origem a novos descendentes que carregam genes de ambos os

parentes. Por último, acontece a mutação (Figura 21)que inverte aleatoriamente os genes

escolhidos em um cromossomo, a uma dada probabilidade de mutação54,55

.

Figura 21- Ilustração esquemática da etapa de mutação que acontece no algoritmo genético.

Fonte: adaptado da referência

36.

Todo esse processo se repete, onde os cromossomos já modificados terão maiores

chances de serem escolhidos nas próximas seleções. O ciclo de evolução, conforme

esquematizado na Figura 22, é repetido até que um critério de parada desejado seja

alcançado46

.

Mutação

Antes: 0 1 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 Depois: 0 1 0 0 1 0 1 0 0 1 0 1 1 0 1 0 0 0

Page 59: Ana Carolina de Oliveira Neves Dissertação de Mestrado

57

Figura 22 - “Ciclo de evolução” básico do algoritmo genético.

Fonte: adaptado da referência46

.

Esse critério pode ser ajustado através do número de ciclos de evolução, pelas

probabilidades de mutação e cruzamento ou por um valor pré-definido de aptidão dos

cromossomos55

.

1.5.7 Detecção de amostras anômalas (outliers)

Existem diversas razões para que uma amostra seja considerada como anômala. Uma

delas é se uma dada amostra pertencer a uma população diferente das demais (“normais”) de

modo que a relação entre as variáveis (X) dessa amostra será significativamente diferente da

outras. Outro ponto importante é quando o instrumento utilizado para obtenção das medidas

não está funcionando corretamente, o que pode levar a um sinal errôneo ou enganoso de uma

só amostra, ou até mesmo, de uma grande quantidade delas. Ainda existem os erros causados

durante as metodologias de referência, que fornecerão valores Y (de um parâmetro) com

grandes fontes de incerteza.É importante mencionar que outliers não são necessariamente

observações errôneas, mas, simplesmente, observações diferentes da maioria e podem,

provavelmente, ter grande influência sobre os resultados36,43

.

É muito importante determinar a presença de amostras anômalas nas fases de

calibração e previsão de um modelo multivariado. Especialmente, as amostras de calibração

são utilizadas para a construção do modelo e se contiverem outliers presentes e estas forem

População P(t)

Seleção

Cruzamento

Mutação

População P(t+1)

Reprodução

Avaliação de aptidão

Decodificar cadeia

Page 60: Ana Carolina de Oliveira Neves Dissertação de Mestrado

58

incorporadas, poderão prejudicar a equação final, o que trará consequências para amostras

futuras36

. Também é muito útil distinguir qual o tipo de outlier em questão para tomar a

decisão de excluí-la ou não da construção de um modelo. As amostras anômalas podem ser

consideradas em duas diferentes classes:

Anômalas em x: são aquelas que, de algum modo, o vetor com suas medidas

instrumentais (X) está posicionado anormalmente em relação à maioria do

conjunto de dados;

Anômalas em y: são observações que apresentam uma relação diferente entre

X e Y;

As outliers em x são relevantes tanto quando são amostras de calibração quanto de

previsão, uma vez que ambos os tipos têm um vetor de medidas instrumentais (x). Através da

Figura 23, é possível observar o efeito que uma amostra anômala (um tipo de outlier em cada

gráfico) pode causar nas regressões dos modelos.

Figura 23 - Detecção de amostras anômalas em modelos lineares: (a) anômala em y; (b) anômala em x e y; (c)

anômala em x.

Fonte: adaptado da referência

36.

xm x

y(a)

xm x

y(b)

xm x

y(c)

Page 61: Ana Carolina de Oliveira Neves Dissertação de Mestrado

59

Na Figura 23(a), a amostra anômala é do tipo outlier em y uma vez que está próxima à

média de x, e influencia suavemente a equação de regressão. No segundo caso, Figura 23(b), a

outlier é anômala tanto em x quanto na relação entre x e y, tendo uma influência muito forte

sobre a regressão. No último caso, Figura 23(c), a amostra é anômala em x, mas está

posicionada bem próxima à linha reta do ajuste da regressão, tendo, assim, pouco efeito sobre

a equação de regressão. Desse modo, é sempre indicado avaliar o conjunto de dados em

busca, principalmente, das amostras anômalas que exerçam forte influência sobre o ajuste da

regressão36

.

Neste trabalho a detecção de outliers na construção de modelos PLS foi feita seguindo

as recomendações da norma E1655-00 da ASTM (do inglês, American Society for Testing and

Materials), conforme descrito nas referências 39 e 40. Deste modo, a análise das amostras é

feita baseando-se no leverage extremo, nos resíduos não modelados nos dados espectrais e

nos resíduos não modelados na variável dependente.

O leverage representa o quanto uma amostra está posicionada distante em relação ao

centro dos dados, e pode ser definido como:

Em que T representa os scores de todas as amostras de calibração ou previsão, ti é o

vetor dos scores é de uma amostra em particular e A é o número de variáveis latentes do

modelo.

As amostras que apresentarem o valor de hi calculado superior ao valor do limite (hlim)

deverão ser removidas do conjunto de dados, para posterior construção do modelo. O valor

limite para o leverage é calculado da seguinte maneira:

Tendo I como o número de amostras de calibração (ou previsão).

A análise de outliers baseada nos resíduos espectrais não modelados é realizada por

meio da comparação do desvio padrão residual total (s(e)) com o desvio padrão residual de

uma amostra (s(ei)). As equações abaixo são utilizadas para o cálculo dos resíduos total (29) e

individual de uma amostra (30).

(27)

(28)

Page 62: Ana Carolina de Oliveira Neves Dissertação de Mestrado

60

Em que J é o número de variáveis espectrais, xij é o valor de absorbância da amostra i

no comprimento de onda j, e xeij é o seu valor estimado usando A variáveis latentes.

Se uma amostra apresentar s(ei) >ns(e), em que n é uma constante que pode variar de 2

ou 3, a amostra deve ser removida do conjunto de dados. Neste trabalho, o valor atribuído

para a constante foi igual a 2, que fornece bons resultados, sendo capaz de perceber amostras

com resíduos significativamente maiores que as demais.

A identificação de amostras anômalas através dos resíduos não modelados nas

variáveis dependentes é feita por comparação do valor do RMSEC (do inglês, root mean

square error of calibration) com o valor do erro absoluto de uma amostra em particular.

Se uma amostra apresenta uma diferença entre o seu valor de referência (y) e o seu

valor estimado (ŷ) maior que o valor da constante (que pode variar de duas a três vezes do

RMSEC) é dita como anômala.

Todos os testes discutidos anteriormente podem ser aplicados à amostras de calibração

ou validação. É importante lembrar que em alguns casos pode acontecer o chamado “efeito

bola de neve” (do inglês, snowball), ou seja, quando amostras anômalas são encontradas em

um modelo, depois de excluídas, o modelo é refeito e novamente são detectadas novas

outliers. A norma da ASTM recomenda que amostras anômalas só devem ser excluídas até o

segundo modelo, onde será construído, ainda, um terceiro modelo, e este deve ser o final.

1.5.8 Testes estatísticos

É muito importante que os métodos analíticos sejam livres de erros sistemáticos, uma

vez que os mesmos influenciam diretamente na exatidão ou acurácia dos resultados. Os testes

(29)

(30)

(31)

Page 63: Ana Carolina de Oliveira Neves Dissertação de Mestrado

61

de significância são utilizados de modo a se avaliar se a diferença entre um valor obtido e um

valor esperado (real) é causada apenas pela ocorrência dos erros aleatórios (e não

sistemáticos). Se a diferença calculada entre os valores das medidas for significativa a uma

determinada probabilidade, é atribuída a presença de erros sistemáticos ao método em

questão44

.

Um dos testes mais utilizados para comparação de dois métodos analíticos é o teste t

(ou t pareado). Ao se avaliar a diferença entre as medidas fornecidas por dois métodos

analíticos distintos é preciso considerar a provável presença de erros aleatórios nas análises, a

variação entre as amostras (por exemplo, amostras com diferentes valores de concentração do

analito) e, ainda, a variação entre os próprios métodos analíticos em questão. Neste último

quesito é que está o objetivo do teste t: avaliar se os métodos produzem resultados

significativamente diferentes. A grande vantagem do teste t pareado, calculado conforme

equação 32, para esta aplicação é que o mesmo é capaz de separar a diferença entre os

métodos da diferença entre as amostras, por meio do cálculo de d, que representa a diferença

entre cada par de medidas (resultados dos dois métodos), para uma única amostra.

Em que dm e sd são a média e o desvio padrão, respectivamente, de d, a diferença entre

valores pareados; e n representa o número de amostras.

A hipótese nula avaliada é se dm difere significativamente de 0 (zero). O valor de t

calculado é comparado com um valor de t crítico (ou limite, tcrit) que é tabelado e selecionado

de acordo com os graus de liberdade de t (n – 1). Se t > tcrit, então, existe diferença

significativa entre os dois métodos analíticos, ao nível de confiança utilizado.

A probabilidade de que a hipótese nula seja aceita (ou seja, que não haja diferença

entre os dois métodos, ou que a diferença seja causada por erros aleatórios ou acaso) é

chamada de nível de confiança e usualmente vale 95%. Isso quer dizer que existe em média1

a cada 20chances (nível de significância 5%) de que a hipótese nula seja rejeitada mesmo

quando ela, de fato, for verdadeira. Existem outros níveis de confiança que também podem

ser utilizados, e quanto maior for o nível de confiança, maiores serão as chances de que

hipótese nula seja aceita (ou verdadeira), logo, menos rigoroso será o teste. É possível

observar esse comportamento, facilmente, através da Figura 24.

(32)

Page 64: Ana Carolina de Oliveira Neves Dissertação de Mestrado

62

Figura 24 - Propriedades da distribuição normal: (i) aproximadamente 68% dos valores caem em ± 1σ da média;

(ii) aproximadamente 95% dos valores caem em ± 2σ da média; (iii) aproximadamente 99,7% dos valores caem

em ± 3σ da média.

Fonte: referência44

.

Para uma distribuição normal com média μ e desvio padrão σ, a probabilidade de que

os valores caiam entre ± σ da média é de 68%. Aumentando a probabilidade para 95%, os

valores podem variar em ± 2σ da média. No último caso, a uma probabilidade de 99,7%, os

valores podem em até ± 3σ da média.

Outro tipo de teste de significância é o teste F, utilizado quando se deseja comparar a

precisão entre dois métodos, dessa forma, é feita a análise dos erros aleatórios das medidas,

utilizando as suas variâncias (ou quadrados dos desvios padrão). Por definição, o teste F é

expresso da seguinte maneira:

(33)

Page 65: Ana Carolina de Oliveira Neves Dissertação de Mestrado

63

Em que a hipótese nula é s12 = s2

2, ou seja, não existe diferença significativa (a um

nível de confiança) entre as variâncias dos dois métodos. O valor calculado de F é comparado

com os valores críticos deste critério para os graus de liberdade n1 – 1 e n2 – 1, para o

numerador e denominador, respectivamente.

Neste trabalho, foi realizada uma aproximação do teste F, descrito acima, onde foram

utilizados os valores de RMSEP de diferentes modelos PLS, como forma de obter estimativas

de suas precisões.

O EJCR (do inglês, elliptical joint confidence region) é também um tipo de teste de

significância muito utilizado na calibração multivariada. O objetivo do mesmo, de forma

similar ao teste t, é detectar a presença de erros sistemáticos em um método analítico,

avaliando, assim, a exatidão do mesmo, comparada a de um método padrão (referência). Os

cálculos envolvem comparar as inclinações e interceptos das regressões lineares entre ambos

os métodos alternativo e de referência. A equação 34, abaixo, é utilizada para o cálculo da

elipse de confiança.

Em que â e þ são a inclinação e intercepto estimados; a e b são a inclinação e

intercepto do método padrão; Ndat é o número de amostras; cact são os valores reais (referência)

do parâmetro (ex. concentração); s2

é a variância do método analisado e Fα,2,Ndat-2 é o valor de

F crítico com 2 e (Ndat -2) graus de liberdade, a um nível de confiança (usualmente, 95%).

Se o ponto crítico (1,0) correspondente à inclinação e intercepto, estiver contido na

elipse de confiança calculada, então a hipótese nula é aceita, afirmando que as diferenças

observadas entre os dois métodos analíticos são provenientes de erros aleatórios e não

sistemáticos56

.

1.6 ESPECTROSCOPIA NIR E CALIBRAÇÃO MULTIVARIADA APLICADAS EM

ANÁLISES CLÍNICAS

A espectroscopia NIR é uma técnica promissora e tem sido bastante utilizada nos ramo

de análises clínicas, uma vez que não necessita de reagentes específicos, os equipamentos são

de fácil utilização, a obtenção dos espectros pode ser realizada de forma bastante rápida e,

(34)

Page 66: Ana Carolina de Oliveira Neves Dissertação de Mestrado

64

ainda, oferece a possibilidade de análises simultâneas mesmo em matrizes extremamente

complexas, como as biológicas (sangue, plasma ou soro sanguíneo, urina). Entretanto, é bem

estabelecido que os dados NIR são bastante complexos e, especialmente para amostras

biológicas, a maior dificuldade para análises de constituintes do sangue é que os mesmos

apresentam sinais muito fracos na região NIR, quando comparados àqueles provenientes da

água presente nas amostras. De forma a superar tais dificuldades, o emprego da

espectroscopia NIR vem aliado à aplicação da quimiometria (análise multivariada).Isso é o

que permite utilizar tais dados complexos, aproveitando somente a informação significativa e,

inclusive, ignorando a presença dos vários interferentes contidos nas amostras57-60

. Em

análises clínicas, tal combinação (quimiometria e espectroscopia NIR) tem sido

constantemente relatada na literatura, fornecendo resultados bastante relevantes.

Hazen e colaboradores determinaram os níveis de proteínas totais, albumina,

globulina, triglicerídeos, colesterol, ureia, glicose e lactato em plasma sanguíneo, usando

espectroscopia NIR e calibração multivariada. Modelos PLS forneceram valores de RMSEP

de 3,23 mg dL-1

para glicose61

. Kang e colaboradores empregaram espectroscopia NIR e

ferramentas multivariadas para a quantificação de colesterol, glicose e ureia, em amostras de

soro sanguíneo bovino. Os melhores resultados para a previsão de colesterol, glicose e ureia

apresentaram valores de RMSEP de 6,68, 10,35 e 1,28 mg dL-1

, respectivamente57

.

Kassemran e colaboradores desenvolveram modelos PLS, usando a espectroscopia NIR, para

a determinação de glicose em soro sanguíneo bovino. Os autores obtiveram modelos

mostrando valores de RMSEP de 25,31 mg dL-1

e coeficiente de correlação de 0,9962

. Em

outro experimento, Petter e colaboradores propuseram determinar as quantidades de HDL e

LDL em soro sanguíneo humano, através da espectroscopia NIR e técnicas de calibração

multivariada (PCR, do inglês, principal component regression, e PLS). Os autores usaram

como adsorvente o TiO2, para imobilizar seletivamente o LDL e HDL e, posteriormente,

analisaram as amostras via espectroscopia NIR com reflectância difusa. Neste trabalho, as

amostras de soro pré-tratadas foram previstas através de um modelo PLS, onde o desvio

padrão do método de referência em relação aos valores previstos pelo NIR, para seis amostras

numa faixa de concentração de 500 a 2500 ppm, foi menor que 10%63

. Filho e Poppi

avaliaram o uso da espectroscopia NIR e métodos de calibração multivariada para medir os

níveis de triglicerídeos, em plasma sanguíneo humano. Os autores compararam o desempenho

de técnicas de regressão como PLS e MLR (do inglês, multiple linear regression) como

também do algoritmo genético como método de seleção de variáveis. Para as medições dos

Page 67: Ana Carolina de Oliveira Neves Dissertação de Mestrado

65

níveis de triglicerídeos, a metodologia mostrou erros de aproximadamente 9%, que é um erro

relativo aceitável para este parâmetro64

.

Page 68: Ana Carolina de Oliveira Neves Dissertação de Mestrado

66

2 OBJETIVOS E JUSTIFICATIVAS

“A imaginação é mais importante que a ciência, porque a ciência

é limitada, ao passo que a imaginação abrange o mundo inteiro.”

(Albert Einstein)

É fundamental que os métodos utilizados nas análises de materiais biológicos

contemplem as seguintes características: resposta rápida, precisão, sensibilidade, abrangência,

robustez e seletividade 59,65

. Dentre os métodos que satisfazem tais requisitos, a cromatografia

líquida de alta eficiência (CLAE) utilizando-se de detectores de ultravioleta, fluorescência

e/ou espectrometria de massas tem sido comumente empregadas para determinar

concentrações de princípios ativos de medicamentos e seus metabólitos em fluidos

biológicos60

. Entretanto, fatores como a necessidade de pessoal especializado, para

preparação de reagentes e manipulação das amostras em cada análise, bem como o uso de

equipamentos sofisticados e reagentes específicos, apresentam-se como as principais

limitações destes métodos. Tais fatos têm levado ao crescente desenvolvimento de técnicas

que simplifiquem esses procedimentos, contemplando as características indispensáveis para

esses tipos de análises.

Baseado nas justificativas apresentadas acima, os objetivos do presente trabalho são

enunciados a seguir:

- Realizar uma análise quantitativa de glicose, triglicerídeos e HDL em plasma sanguíneo de

ratos, simultaneamente, a partir dos espectros NIR das amostras, sem o uso de qualquer pré-

tratamento de amostras. Comparar diferentes técnicas de calibração multivariada utilizadas

para seleção de variáveis, tais como iPLS, SPA e GA, em modelos lineares do tipo PLS.

Ainda, avaliar o desempenho destes modelos multivariados antes e após a detecção de

outliers.

- Realizar uma análise quantitativa de glicose, triglicerídeos e colesterol total em plasma

sanguíneo de humanos, simultaneamente, a partir dos espectros NIR das amostras, sem o uso

de qualquer pré-tratamento de amostras. Comparar o desempenho de modelos lineares tipo

PLS e não lineares, tipo ANN, utilizando, ainda, diferentes pré-tratamentos espectrais e

algoritmo genético para seleção de variáveis.

Page 69: Ana Carolina de Oliveira Neves Dissertação de Mestrado

67

3 PARTE EXPERIMENTAL

“A simplicidade é o último grau da sofisticação.”

(Leonardo da Vinci)

3.1EXPERIMENTO EM ANIMAIS

Vinte e três ratos machos e adultos, da raça Wistar, pesando em média 300g, foram

disponibilizados pelo Departamento de Biofísica e Farmacologia Animal da UFRN. Todos os

animais foram expostos às mesmas condições ambientais: controle de luz com ciclos

luz/escuro de 12/12 horas, temperatura e alimentação e água ad libitum. Os animais eram

induzidos a jejum de 12 horas antes de coleta do sangue, que culminava no sacrifício dos

mesmos. O trabalho utilizou dois grupos de ratos, classificados como controle e experimental,

com quatro subgrupos em cada um. O grupo de controle recebeu injeções salinas

intraperitoniais (ip), enquanto o grupo experimental recebeu o antibiótico tobramicina ip, em

dose única (4mg Kg-1

). Os dados utilizados no presente estudo foram obtidos a partir de um

estudo experimental pré-clínico em ratos com o objetivo de avaliar os parâmetros bioquímicos

(glicose, HDL e triglicerídeos) durante o uso de tobramicina por um período de 4 semanas,

uma vez que tal medicamento pode levar a toxicidade renal em função do acúmulo e retenção

do fármaco nas células renais tubulares proximais66,67

. O estudo tentou simular as condições

de dosagem quantitativa e duração do tratamento de infecções graves potencialmente

causadas por Pseudomonas aeruginosa, em humanos68,69

. A cada semana, um subgrupo, de

cada grupo, foi eutanasiado via injeção de tiopental sódico (50 mg Kg-1

) de acordo com o

protocolo aprovado pelo comitê de ética e pesquisa da UFRN, parecer número 177 -

2007,para uso de animais. As amostras de sangue foram submetidas às análises bioquímicas

dos níveis de glicose, triglicerídeos e HDL.

3.2 EXPERIMENTO EM HUMANOS

As amostras de sangue foram coletadas de pacientes portadores de esquizofrenia CID-

10, maiores de 18 anos, de ambos os sexos (masculino e feminino), fazendo uso dos

antipsicóticos risperidona ou olanzapina por pelo menos 6 meses, e que estivessem

cadastrados no Hospital Colônia Dr. João Machado, localizado na cidade de Natal, Rio

Grande do Norte (RN/Brasil). A amostragem contou com 34 indivíduos que consentiram a

Page 70: Ana Carolina de Oliveira Neves Dissertação de Mestrado

68

coleta de sangue domiciliar. Os pacientes foram divididos inicialmente quanto ao tipo de

antipsicótico atípico usado: 15 usuários de olanzapina e 16 usuários de risperidona. Entretanto

outros três pacientes utilizavam olanzapina, mas durante o tratamento tiveram que mudar para

risperidona devido à interrupção do fornecimento da olanzapina, pelo Governo do Estado do

RN.Todos os 34 pacientes, foram divididos em subgrupos em relação ao sexo (masculino ou

feminino): 10 pacientes do sexo masculino e 5 do sexo feminino utilizaram (somente)

olanzapina. Para a risperidona (somente) foram 8 pacientes do sexo masculino e 8 do sexo

feminino. Os três pacientes que trocaram de medicação durante o tratamento eram dois do

sexo masculino e apenas 1 do sexo feminino. Quanto às dosagens bioquímicas, os pacientes

foram previamente orientados a permanecerem em jejum por um período de 8 a 12 horas,

obtendo-se assim as amostras a serem analisadas no Laboratório de Farmacologia da UFRN.

O estudo foi aprovado pelo comitê de ética e pesquisa da UFRN, parecer número 207 – 2009.

3.3 MÉTODOS DE REFERÊNCIA

3.3.1 Plasma de ratos

As amostras de sangue dos ratos sacrificados foram coletadas em tubos Falcon cônicos

de 15 mL (16.5mm x 120mm) e mantidas a temperatura ambiente (25 oC) para coagular. O

soro foi obtido por centrifugação a 3000 rpm durante 10 minutos. Os níveis de glicose, HDL e

triglicerídeos foram determinados pelos métodos glicose oxidase,colesterol oxidase e glicerol

quinase70

, respectivamente, utilizando kits fornecidos pela Bioclin Brasil, e seguindo as

instruções fornecidas. As absorbâncias foram medidas utilizando um BioPlus 2000. As faixas

de variação da concentração, média e desvio padrão dos valores calculados pelos métodos de

referência para glicose, colesterol – HDL e triglicerídeos são apresentados na Tabela 2, a

seguir.

Tabela 2- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo dos 23 ratos Wistar.

Parâmetro Concentração Média Desvio padrão

(mg dL-1

) (mg dL-1

) (mg dL-1

)

Glicose 73 – 130 106,2 15,05

Colesterol – HDL 25,4 –52,7 37,02 7,9

Triglicerídeos 22 – 135 70,6 31,5

Fonte: Autor.

Page 71: Ana Carolina de Oliveira Neves Dissertação de Mestrado

69

3.3.2 Plasma de humanos

As coletas, preparação e dosagens dos níveis de glicose, triglicerídeos e colesterol para

o método de referência foram realizadas de forma idêntica ao descrito no item 3.3.1. A Tabela

3, abaixo, mostra as faixas de variação da concentração, média e desvio padrão dos valores

calculados pelos métodos de referência para glicose, colesterol total e triglicerídeos. Para

esses três parâmetros, o erro máximo aceitável pelo método de referência é de 5% (kits

Bioclin).

Tabela 3- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo humano

de 34 pacientes de esquizofrenia.

Parâmetro Concentração Média Desvio padrão

(mg dL-1

) (mg dL-1

) (mg dL-1

)

Glicose 76 – 260 101,5 31,6

Colesteroltotal 78 – 265 162,5 43,2

Triglicerídeos 30 – 468 124,9 91,8

Fonte: Autor.

3.4 INSTRUMENTAÇÃO NIR

A aquisição dos espectros NIR para as determinações de glicose, triglicerídeos e

colesterol em plasma sanguíneo de ratos e de humanos foi realizada de forma análoga. As

medidas espectrais foram realizadas em um espectrofotômetro MB 160 Bomem FT-NIR

(ABB Bomem, Quebec, Canadá). Os espectros NIR foram obtidos entre 1100 e 2500 nm com

uma resolução de 8 cm-1

. O tempo de medida foi de 41 s (50 varreduras) por espectro. Os

espectros de absorbância foram obtidos utilizando uma cubeta de quartzo de 1mm (NSG

precision cells, Inc., model 21UV1). As amostras foram introduzidas na cubeta utilizando

uma seringa descartável de 1mL. Após cada medida, as células eram limpas utilizando a

sequência: ácido acético glacial, água ultra pura e acetona, e seguidamente secas. A

temperatura foi mantida em 25 oC durante todo o experimento.

Page 72: Ana Carolina de Oliveira Neves Dissertação de Mestrado

70

3.5 ANÁLISE DOS DADOS

3.5.1 Plasma de ratos

As análises dos dados foram realizadas através do software MATLAB versão 6.5 (The

Math-Works, Nastick, USA), utilizando o PLS-toolbox (Engenvector Research, Inc.,

Wenatchee, WA, USA, versão 6.01). Diferentes métodos de pré-processamento foram

utilizados, incluindo cálculo de derivada e suavização Savitzky-Golay (SG), variando o

número de janelas de pontos (3, 5 e 7). As amostras foram divididas em conjuntos de

calibração (17 amostras) e previsão (6 amostras), aplicando o clássico algoritmo de seleção de

amostras Kennard-Stone (KS) aos espectros NIR. Os menores erros quadráticos médios de

previsão (RMSEP) foram obtidos na utilização do número ótimo de fatores PLS, os quais

foram encontrados através da variância das matrizes de resposta instrumental (matriz X) e dos

erros quadráticos médios de validação cruzada, RMSECV. O conjunto de previsão foi

utilizado para testar a habilidade preditiva dos modelos PLS. Os resultados de previsão para

os modelos de calibração construídos através do PLS a partir das regiões espectrais

selecionadas pelo iPLS, GA e SPA foram comparados àqueles encontrados pelo PLS usando

toda a região espectral. Finalmente, os resultados dos melhores modelos para cada parâmetro

foram comparados antes e após a utilização da detecção de outliers.

3.5.2 Plasmas de humanos

As análises dos dados foram realizadas utilizando os mesmos programas

computacionais, conforme descrito no item 3.5.1. Diferentes métodos de pré-processamento

foram utilizados, incluindo cálculo de derivada e suavização SG, variando o número de

janelas de pontos (3, 5 e 7). Inicialmente, as 34 amostras foram divididas entre calibração (24)

e validação (10) para as análises através da regressão linear PLS. Por outro lado, para a

aplicação das redes neurais na construção dos modelos não lineares bem como para

construção de modelos PLS comparativos, as amostras foram divididas em conjuntos de

treinamento (30) e monitoramento (4), através do algoritmo KS. Todos os modelos PLS

foram construídos por validação cruzada, utilizando o método leave-one-out. Os números

ótimos de componentes no PLS foram aqueles que apresentaram os menores erros

quadráticos, entre o valor de referência e o parâmetro medido pelo modelo, RMSECV. Os

modelos ANN foram construídos a partir de um número reduzido de variáveis, utilizando os

Page 73: Ana Carolina de Oliveira Neves Dissertação de Mestrado

71

scores de um PCA do espectro original, suavizado e derivado, como dados de entrada, sob

uma faixa de comprimento de onda de 1100-2500 nm. A arquitetura específica utilizada na

rede foi do tipo back-propagation. Os parâmetros usados no treinamento dos modelos ANN

estão apresentados na Tabela 4.

A rede otimizada, aquela com menor erro de monitoramento obtido (RMSEM, do

inglês, root mean square error of monitoring) e máximo coeficiente de correlação (R²) entre

os valores experimentais e estimados, foi selecionada para cada um dos três analitos. Os

modelos ANN foram construídos a partir do ANN toolbox do MATLAB (versão 7, Math

Work Inc.).

Tabela 4 - Parâmetros de treinamento das redes neurais.

Algoritmo Levenberg-Marquardt

Função de minimização de erro Erro quadrático médio

Aprendizado Supervisionado

Função de transferência Camada de entrada a

Camada escondida Hiperbólica tangente

Camada de saída Linear

Número de interações no

treinamento

10

Número máximo de épocas 500

Número de neurônios de entrada

(componentes principais)

1 – 10

Número de neurônios escondidos 1 – 5

a Nenhuma função de transferência.

Fonte: Autor.

Page 74: Ana Carolina de Oliveira Neves Dissertação de Mestrado

72

4 RESULTADOS E DISCUSSÃO

“Os problemas significativos que enfrentamos não podem ser

resolvidos no mesmo nível de pensamento em que estávamos

quando os criamos.”

(Albert Einstein)

4.1 ANÁLISES EM PLASMA SANGUÍNEO DE RATOS

4.1.1 Atribuição de bandas

Na Figura 25, são observados os 23 espectros NIR de absorbância das amostras de

plasma sanguíneo de ratos. Como cada grupo de átomos envolvidos nas ligações químicas

apresenta sinal específico na região NIR, mesmo apesar de não serem bem definidos, é

possível ser feita uma atribuição dessas bandas observadas nos espectros em função das

estruturas químicas dos parâmetros em análise (glicose, colesterol e triglicerídeos). Na região

por volta de 1150 – 1165 nm são encontrados os sinais provenientes do segundo sobretom de

estiramento assimétrico do grupo CH3 (presente na estrutura química do colesterol e

triglicerídeos). Um pouco mais a frente, na faixa de 1185 – 1195 nm, está presente o segundo

sobretom do grupo CH. Seguindo na região de 1200 a 1210 nm, encontra-se o segundo

sobretom de estiramento simétrico do grupo CH2, bem presente nas estruturas químicas dos

três parâmetros.

Figura 25 -Espectros NIR originais das 23 amostras de plasma sanguíneo de ratos.

Fonte: Autor.

Page 75: Ana Carolina de Oliveira Neves Dissertação de Mestrado

73

Nas faixas de 1395 – 1425 nm e 1500 – 1595 nm estão contidos sinais relativos aos

primeiros sobretons do grupo OH de alcoóis, na forma livre e realizando ligação de

hidrogênio, respectivamente. A forte banda de absorção próxima a 1450 nm foi assinalada

como o primeiro sobretom da ligação OH, na água. O grupo CONH (amida secundária)

quando envolvido em ligação de hidrogênio apresenta sinal na região de 1460 a 1510 nm,

relativo ao primeiro sobretom. Quando livre, o grupamento apresenta primeiro sobretom na

faixa de 1530 a 1670 nm e combinações de estiramentos em 2110 – 2170 nm. Essas bandas

referentes à amida são bastante importantes na determinação de HDL, uma vez que tal

lipoproteína é composta por uma boa quantidade de proteínas, que são formadas através de

aminoácidos unidos por ligações peptídicas. O grupo C=C (alceno), encontrado nas

composições químicas do colesterol e triglicerídeos, possui sinal na faixa de 1675 – 1695 nm,

referente ao primeiro sobretom, e também na faixa de 2135 – 2340 nm, proveniente de

combinações de estiramentos e deformações angulares. O grupo aldeído (presente na estrutura

química da glicose) possui banda de combinação na região de 2190 – 2210 nm. O grupo

COOR (éster), encontrado nas moléculas de triglicerídeos, apresenta segundo sobretom

localizado em aproximadamente 1850 a 1920.

Uma questão importante para esse conjunto de dados é a saturação da banda na faixa

de 1940, referente às combinações de estiramentos e deformações angulares do grupo OH da

água. Para as análises clínicas, a presença de água é altamente prejudicial uma vez que a

mesma apresenta fortes absorções nas mesmas regiões que diversas moléculas biologicamente

importantes, tais como glicose, triglicerídeos e colesterol, e ainda constitui grande parte da

composição química das amostras (cerca de 90% do plasma sanguíneo é composto de água

[6]). Devido a isso, é necessário realizar pré-processamentos nos dados visando diminuir ou

até mesmo remover os efeitos de absorção de água. Dessa forma, conforme visto na Figura

26, a região entre 1900 e 2000 nm foi eliminada antecipadamente ao desenvolvimento de

modelos de calibração para os três parâmetros.

Page 76: Ana Carolina de Oliveira Neves Dissertação de Mestrado

74

Figura 26 - Espectros NIR das 23 amostras de plasma sanguíneo de ratos,

após corte da região de 1900 a 2000 nm.

Fonte: Autor.

A região eliminada leva também informações referentes a outros grupos presentes nas

moléculas como, por exemplo, a banda do segundo sobretom da amida secundária (1910 –

1930 nm). Todavia, como já comentado, as bandas oriundas de combinações e sobretons de

estiramentos e deformações angulares das ligações C-H, OH, N-H e outras, são encontradas

nas regiões entre 1100 – 1900 e 2000 – 2500 nm, tornando-as adequadas para a aquisição de

informações importantes relacionadas aos três analitos e, consequentemente, para seleção de

variáveis e construção de modelos PLS71

. Portanto, neste trabalho, a matriz original será

tratada como aquela obtida após a exclusão da região do sinal saturado (1900 a 2000 nm),

compreendendo exatamente as faixas de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm.

4.1.2 Pré-processamentos espectrais

Alguns pré-processamentos espectrais foram aplicados à matriz original antes da

construção dos modelos multivariados, visando que mais informação útil às análises pudesse

ser considerada para determinação dos coeficientes das regressões multivariadas. A Figura 27,

abaixo, mostra o espectro NIR resultante da aplicação da suavização SG (ou filtro digital)

com janelas de três pontos e polinômio do 1º grau.

Page 77: Ana Carolina de Oliveira Neves Dissertação de Mestrado

75

Figura 27 - Espectro NIR das 23 amostras de plasma sanguíneo de ratos após aplicação da suavização SG

com janelas de três pontos.

Fonte: Autor.

A suavização foi aplicada objetivando aumentar a razão sinal/ruído na matriz das

respostas instrumentais (X). Diferentes janelas de pontos foram testadas e através da Figura

28 é possível perceber o efeito do aumento da largura das janelas polinomiais.

Figura 28 - Ampliação da banda de absorção na faixa de 1450 nm após aplicação da suavização SG

com polinômio do 1º grau; A) janelas de 3 pontos; B) janelas de 11 pontos.

Fonte: Autor.

É possível notar que à medida que a largura da janela de pontos é aumentada, ocorre

um maior efeito de alisamento nas bandas espectrais. Entretanto, esse efeito deve ser

ponderado, uma vez que sendo muito pronunciado, pode acarretar em distorções nas formas

dos picos/sinais, levando a perda de informação química.

Page 78: Ana Carolina de Oliveira Neves Dissertação de Mestrado

76

A Figura 29 mostra as matrizes X após o cálculo da derivada SG de primeira (Figura

29-a) e segunda ordem (Figura 29-b).

Figura 29 - Espectros NIR das 23 amostras de plasma sanguíneo de ratos após a aplicação da derivada SG:

A) primeira ordem; B) segunda ordem.

Fonte: Autor.

O cálculo da derivada é muito utilizado para corrigir flutuações na linha de base e

aumentar a resolução espectral. É muito utilizado em dados espectroscópicos, mas deve-se

considerar que seus efeitos podem ocasionar diminuição da relação sinal/ruído. Sendo assim,

neste trabalho o cálculo da derivada foi realizado sempre conjuntamente à aplicação da

suavização.

4.1.3 Determinação de glicose

A Tabela 5 apresenta os resultados obtidos através dos modelos de calibração, na

região do NIR,descrita no item 4.1.1, para as análises de glicose em plasma sanguíneo de

ratos.Além dos modelos PLS, são visualizados também os resultados dos modelos construídos

após seleção de variáveis, PLS-SPA, PLS-GA e iPLS.Em relação aos pré-processamentos

utilizados, apenas alguns dos resultados são mostrados. Foi observado que os modelos

construídos com dados derivados apresentaram valores de RMSEP mais elevados do que

aqueles construídos utilizando dados originais ou suavizados. Algumas informações

espectrais importantes podem ter sido perdidas quando o cálculo da derivada foi empregado.

Page 79: Ana Carolina de Oliveira Neves Dissertação de Mestrado

77

Tabela 5 - Resultados para os conjuntos de calibração e previsão para glicose: RMSECV, RMSEP, coeficientes

de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos modelos

PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R² RMSECV R² RMSEP Tamanho

(mg dL-1

) (mg dL-1

)

PLS (4) 0,87 13,1 0,85 8,01 1223

PLS (4) S 3 pts 0,84 13,4 0,93 6,32 1221

PLS (4) S 5 pts 0,79 14,8 0,96 5,49 1219

PLS (4) 1D 3 pts 0,92 20,4 0,17 19,47 1221

PLS (4) 1D 5 pts 0,87 21,4 0,37 14,2 1219

PLS (3) 1D 7 pts 0,79 15,7 0,21 14,8 1217

PLS (3) 2D 5 pts 0,88 26,0 0,83 12,1 1219

iPLS (3) 0,99 13,8 0,24 12,5 122

iPLS (3) 0,82 14,1 0,29 16,3 400

iPLS (4) 0,87 13,3 0,47 16,1 600

PLS-SPA (3) 0,79 13,4 0,12 12,0 17

PLS-GA (4) 0,90 9,7 0,84 10,8 321

PLS (4)1 0,89 12,1 0,97 6,08 1221

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers.

Fonte: Autor.

Como forma de comparar a precisão entre os 13 modelos, testes F foram realizados,

utilizando os respectivos conjuntos de previsão. Os resultados mostraram que não existe

diferença significativa (ao nível de confiança de 95%) entre o melhor modelo PLS, o PLS

(4)1(em destaque na Tabela 5), e os outros modelos, exceto PLS (4) primeira derivada (3 pts),

PLS (3) primeira derivada (7 pts), PLS (3) segunda derivada (5 pts), iPLS (3) usando 400

variáveis espectrais e o iPLS (4) usando 600 variáveis espectrais.

Os valores de RMSEP para todos os modelos foram menores que o valor do desvio

padrão encontrado,através do método de referência, por Dantas e colaboradores [68] exceto

para o PLS (4) primeira derivada (3 pts). Os coeficientes de correlação para as amostras de

previsão variaram de 0,17 a 0,97 para todos os modelos. O número de variáveis latentes

utilizadas para os modelos PLS, iPLS, SPA e GA utilizando os espectros NIR foi de 3 ou 4.

Com os modelos PLS, a região espectral (1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm) foi

Page 80: Ana Carolina de Oliveira Neves Dissertação de Mestrado

78

suficiente para prever o parâmetro glicose. A estratégia baseada no uso do GA-PLS teve a

vantagem de utilizar poucas variáveis (321) na construção dos modelos.

O melhor modelo PLS para glicose foi construído utilizando a matriz espectral pré-

processada com suavização SG (janelas de 3 pontos). Duas amostras anômalas foram

excluídas do conjunto de calibração, baseado nos resíduos não modelados na variável

dependente (Y) resultando no modelo PLS(4)1. Na segunda detecção de outliers, nenhuma

amostra anômala foi identificada. Para este modelo, o menor valor de RMSECV e RMSEP

foram 12,10 mg dL-1

e 6,08 mg dL-1

, respectivamente. O coeficiente de correlação na previsão

foi de 0,97, obtido ao se utilizar 4 variáveis latentes.

A Figura 30 mostra a correlação entre os valores medidos e previstos para glicose, em

plasma de ratos, a partir de espectros NIR, com erro (RMSEP) comparável àquele aceitável

pelo método de referência (17,4 mg dL-1

)70

.

Figura 30 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e

validação, em plasma sanguíneo de ratos, para glicose; (o) conjunto de calibração; (*) conjunto de validação.

Fonte: Autor.

Os valores de concentração, para as 6 amostras de previsão, são apresentados na

Tabela 6, a seguir, juntamente aos erros relativos de cada amostra e o erro relativo total do

modelo.

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

R = 0,98

RMSEP = 6,09

Page 81: Ana Carolina de Oliveira Neves Dissertação de Mestrado

79

Tabela 6 - Valores medidos (referência) e preditos (NIR)para as amostras de previsão do melhor modelo, PLS

(4)1, referentes à determinação de glicose.

Amostra Concentração Concentração Erro relativo (%)

Referência (mg dL-1

) NIR/PLS (mg dL-1

)

1 102 102,39 0,39

2 106 102,59 3,21

3 114 109,69 3,77

4 126,5 117,31 7,26

5 122 111,83 8,33

6 99,5 101,53 2,04

4,16

Fonte: Autor.

O cálculo do erro relativo é bastante utilizado quando se deseja avaliar o desempenho

de métodos analíticos, uma vez que permite considerar a incerteza do método em forma de

porcentagem. O erro relativo (em porcentagem) de uma amostra i é calculado através da

seguinte equação:

Em que Vref e Vpred são os valores de concentração obtidos através do método padrão e

alternativo, respectivamente.

Dessa forma, o erro relativo total (em porcentagem) para um número nde amostras é

calculado como segue:

Conforme visto na Tabela 6, o erro relativo encontrado para o melhor modelo PLS foi

de 4,16%. Ainda, de acordo com o teste-t não existe diferença significativa entre o método

padrão e o alternativo, ao nível de confiança de 95%.

Na literatura não são encontrados trabalhos que utilizam espectroscopia NIR e

calibração multivariada para determinação de glicose em amostras reais de sangue de ratos.

(36)

(35)

Page 82: Ana Carolina de Oliveira Neves Dissertação de Mestrado

80

Dessa forma, os resultados aqui obtidos reforçam a aplicabilidade e demonstram a

originalidade do emprego de tal técnica para este tipo de análise bioquímica.

4.1.4 Determinação de triglicerídeos

A Tabela 7 apresenta os resultados obtidos para a determinação de triglicerídeos em

plasma sanguíneo de ratos. De modo geral, modelos que utilizaram dados espectrais pré-

processados por suavização, apresentaram melhores valores de RMSEP do que aqueles com

espectros originais ou pré-processados de forma diferente.

Tabela 7 - Resultados para os conjuntos de calibração e validação externa para triglicerídeos: RMSECV,

RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de

fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R² RMSECV R² RMSEP Tamanho

(mg dL-1

) (mg dL-)1

PLS (3) 0,77 26,2 0,94 21,6 1223

PLS (3) S 3 pts 0,80 25,7 0,97 16,1 1221

PLS (3) S 5 pts 0,78 24,5 0,95 16,8 1219

PLS (3) 1D 3 pts 0,89 34,2 0,41 35,8 1221

PLS (3) 1D 5 pts 0,79 38,8 0,79 21,3 1219

PLS (1) 1D 7 pts 0,57 28,4 0,75 30,8 1217

PLS (2) 2D 5 pts 0,62 32,1 0,41 37,3 1219

iPLS (3) 0,75 27,0 0,97 21,2 122

iPLS (3) 0,76 25,9 0,93 26,0 400

iPLS (4) 0,75 25,7 0,94 24,8 600

PLS-SPA (3) 0,81 28,8 0,92 20,6 17

PLS-GA (3) 0,73 25,6 0,90 20,6 357

PLS (3)1 0,81 24,2 0,92 20,9 1221

PLS (3)2 0,83 23,1 0,94 15,8 1221

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers; 2 duas aplicações de detecção de outliers.

Fonte: Autor.

Page 83: Ana Carolina de Oliveira Neves Dissertação de Mestrado

81

Para a região espectral NIR de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm, os

valores de RMSEP obtidos para todos os modelos foram similares, exceto para os modelos

PLS (3) primeira derivada (3 pontos), PLS (1) primeira derivada (7 pontos) e PLS (2) segunda

derivada (5 pontos). De forma análoga à determinação de glicose (item 4.1.3), um teste F foi

realizado para cada um dos modelos PLS, usando os valores de previsão. Os resultados

mostraram que não há diferença significativa, a um nível de confiança de 95%, entre o melhor

modelo, PLS (3) suavização (3 pontos), e os demais, com exceção dos três modelos já

mencionados que apresentaram os maiores valores de RMSEP (30,80 a 37,30 mg dL-1

).

Para este parâmetro, a seleção de variáveis utilizando os algoritmos iPLS, SPA e GA

produziram bons resultados. Por exemplo, de acordo com a Tabela 7, para o modelo PLS-

SPA (3), o coeficiente de correlação de 0,92 foi obtido para o conjunto de previsão utilizando

apenas 17 varáveis espectrais, e o RMSEP obtido foi abaixo do valor de desvio padrão (24,7

mg dL-1

) obtido através método de referência, por Dantas e colaboradores [70].O iPLS

também apresentou resultado bastante satisfatório. Quando 122 variáveis espectrais foram

utilizadas para construir o modelo iPLS (3), o coeficiente de correlação na previsão foi de

0,97; sendo esse valor idêntico àquele obtido para o melhor modelo. Entretanto, esse modelo

apresenta um maior valor de RMSEP, todavia, ainda menor que o valor do desvio padrão

(24,7 mg dL-1

) pelo método de referência70

.

Três amostras anômalas foram identificadas no conjunto de calibração do melhor

modelo, PLS (3) suavização (3 pontos). Duas foram selecionadas através dos resíduos não

modelados na variável dependente (Y), enquanto a outra foi escolhida através dos resíduos

espectrais não modelados. Estas três outliers foram excluídas e o modelo reconstruído,

resultando no PLS(3)1. Este, por sua vez, não apresentou melhora nos resultados após a

seleção das amostras anômalas. Ainda assim, o PLS(3)1 foi submetido à segunda detecção de

outliers, onde foram apontadas duas novas amostras anômalas (uma na calibração e outra na

previsão) baseado nos resíduos não modelados na variável dependente (Y). Finalmente, estas

novas outliers foram excluídas e o novo modelo PLS(3)2 construído. Os resultados alcançados

foram comparáveis ao PLS (3) suavização (3 pontos), entretanto, este último manteve as 17

amostras de calibração 6 de previsão.

A Figura 31 mostra a correlação entre os valores medidos pela referência e preditos

pelo melhor modelo multivariado, para triglicerídeos, em plasma sanguíneo de ratos, PLS (3)

suavização (3 pontos).

Page 84: Ana Carolina de Oliveira Neves Dissertação de Mestrado

82

Figura 31 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e

validação, em plasma sanguíneo de ratos, para triglicerídeos;(o) conjunto de calibração; (*) conjunto de

validação.

Fonte: Autor.

Esse modelo forneceu um valor de RMSEP bastante inferior ao desvio padrão

alcançado por Dantas e colaboradores, através do método enzimático colorimétrico, (24,7 mg

dL-1

)70

. Os valores medidos e previstos para as amostras de previsão são apresentados na

Tabela 8.

Tabela 8 - Valores medidos (referência) e preditos (NIR) para as amostras de previsão do melhor modelo, PLS

(3)suavização (3 pontos), referentes à determinação triglicerídeos.

Amostra Concentração Concentração Erro relativo (%)

Referência (mg dL-1

) NIR/PLS (mg dL-1

)

1 47 38,7 17,5

2 79 67,6 14,2

3 72,5 65,0 10,3

4 64 63,5 0,78

5 132 98,9 25,0

6 114 99,6 12,6

13,4

Fonte: Autor.

Através do teste-t foi verificada diferença significativa, a um nível de 95% de

confiança, entre este modelo e o método de referência. Uma vez que esse resultado não se

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

R = 0,97

RMSEP = 16,07

Page 85: Ana Carolina de Oliveira Neves Dissertação de Mestrado

83

mostrou satisfatório, um novo teste-t foi aplicado, ao nível de 96% de confiança, mostrando

que não há diferença significativa entre o melhor modelo e o método de referência. De forma

similar à determinação de glicose, item 4.1.3, não são encontrados na literatura trabalhos

utilizando amostras reais de sangue de ratos, que pudessem ser comparados com os resultados

aqui alcançados, em relação à determinação dos triglicerídeos.

4.1.5 Determinação de HDL

A Tabela 9 apresenta os resultados obtidos para os modelos relativos à determinação

de colesterol-HDL.

Tabela 9 - Resultados para os conjuntos de calibração e validação externa para HDL: RMSECV, RMSEP,

coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos

modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R² RMSECV R² RMSEP Tamanho

(mg dL-1

) (mg dL-1

)

PLS (4) 0,89 6,22 0,06 8,24 1223

PLS (4) S 3 pts 0,88 5,91 0,03 8,60 1221

PLS (3) S 5 pts 0,87 5,77 0,03 8,77 1219

PLS (4) 1D 3 pts 0,88 10,5 0,66 4,57 1221

PLS (2) 1D 5 pts 0,77 8,05 -0,35 7,64 1219

PLS (3) 1D 7 pts 0,81 9,62 -0,01 7,39 1217

PLS (2) 2D 5 pts 0,64 8,93 0,64 4,63 1219

iPLS (3) 0,88 5,76 -0,62 8,00 122

iPLS (3) 0,75 7,51 0,06 7,43 400

iPLS (4) 0,72 7,92 0,23 6,83 600

PLS-SPA (4) 0,78 13,80 0,51 6,30 17

PLS-GA (4) 0,99 3,49 0,82 3,31 334

PLS (4)1 0,99 3,75 0,95 1,66 334

PLS (4)2 0,99 4,60 0,98 2,03 334

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers; 2 duas aplicações de detecção de outliers.

Fonte: Autor.

Page 86: Ana Carolina de Oliveira Neves Dissertação de Mestrado

84

De modo geral, os melhores valores de RMSEP foram obtidos utilizando dados

submetidos ao cálculo de derivada (3 pontos), ao invés dos dados originais brutos ou

suavizados, nas regiões de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm do espectro NIR.

Para os 14 modelos apresentados, os valores de RMSEP encontrados foram menores

do que o valor de desvio padrão (11,4 mg dL-1

) obtido por Dantas e colaboradores, utilizando

o método de referência70

. Todavia, os coeficientes de correlação para o conjunto de previsão

variaram de -0,62 a 0,98, indicando que alguns modelos não foram satisfatórios. Para a

mesma região do espectro NIR os valores de RMSEP foram similares entre diversos modelos:

PLS (4) primeira derivada (3 pontos), PLS (2) segunda derivada (5 pontos), iPLS (4)

utilizando 600 variáveis espectrais, PLS-GA (4), PLS (4)1 após uma aplicação de detecção de

outliers e PLS (4)2 após duas aplicações de detecção de outliers. Um teste F foi realizado sob

cada um dos modelos, utilizando seus conjuntos de previsão, e os resultados mostraram

ausência de diferença significativa (a um nível de confiança de 95%) entre eles.

Outra importante questão para esse parâmetro é a seleção de variáveis. Utilizando o

GA para escolher as principais variáveis espectrais para utilização na construção dos modelos,

o coeficiente de correlação obtido na previsão foi de 0,81, e o RMSEP foi de 3,31 mg dL-1

(334 variáveis espectrais). Este modelo foi submetido a detecção de outliers, onde duas

amostras de calibração e uma amostra de previsão foram selecionadas, considerando-se os

resíduos não modelados na variável dependente (Y) e nas variáveis espectrais (X). Após a

exclusão das amostras anômalas, o modelo foi reconstruído resultando no novo modelo PLS

(4)1. Foi realizada a segunda seleção de amostras anômalas, em que duas na calibração e uma

na previsão foram excluídas, devido aos altos valores dos resíduos não modelados na variável

dependente (Y), somente. Assim, o modelo PLS (4)2

foi construído utilizando 13 e 4 amostras

de calibração e previsão, respectivamente, e foi escolhido como o melhor obtido para

determinação deste parâmetro. Para esse modelo, os menores valores de RMSECV e RMSEP

foram 4,60 mg dL-1

e 2,03 mg dL-1

, respectivamente. O coeficiente de correlação para o

conjunto de validação externa, obtido utilizando 4 variáveis latentes, foi 0,98.

A Figura 32 apresenta a correlação entre os valores de HDL medidos em plasma

sanguíneo de ratos pelo método enzimático-colorimétrico, contra os previstos, através de

espectroscopia NIR, pelo modelo PLS (4)2.

Page 87: Ana Carolina de Oliveira Neves Dissertação de Mestrado

85

Figura 32 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e

validação, em plasma sanguíneo de ratos, para HDL:

(o) conjunto de calibração; (*) conjunto de validação.

Fonte: Autor.

O valor de RMSEP (2,03 mg dL-1

) obtido apresentou-se bastante inferior ao desvio

padrão calculado (11,4 mg dL-1

) por Dantas e colaboradores70

em seu trabalho utilizando o

método enzimático colorimétrico para determinação de HDL em plasma sanguíneo de ratos.A

Tabela 10 mostra os valores medidos e previstos para as 4 amostras de previsão, juntamente

aos seus respectivos erros relativos.

Tabela 10 - Valores medidos (referência) e preditos (NIR) para as amostras de previsão do melhor modelo, PLS

(4)1, referentes à determinação HDL.

Amostra Concentração Concentração Erro relativo (%)

Referência (mg dL-1

) NIR/PLS (mg dL-1

)

1 39,5 41,9 6,11

2 40 41,8 4,47

3 28,7 28,6 0,16

4 31,4 34,1 8,77

4,9

Fonte: Autor.

Através do teste t foi verificado que não existe diferença significativa entre o método

NIR e o enzimático colorimétrico, a um nível de confiança de 95%.

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

R = 0,98

RMSEP = 2,03

Page 88: Ana Carolina de Oliveira Neves Dissertação de Mestrado

86

De forma análoga ao que foi comentado nos itens 4.1.3 e 4.1.4, para as determinações

de glicose e triglicerídeos, não são encontrados trabalhos na literatura que realizam a

determinação de colesterol HDL em plasma sanguíneo de ratos, por meio de espectroscopia

NIR e calibração multivariada. Assim, tais técnicas aliadas evidenciaram suas importâncias e

relevâncias aplicadas a este tipo de análise bioquímica, em amostras reais.

4.2 ANÁLISES EM PLASMA SANGUÍNEO DE HUMANOS

4.2.1 Atribuição de bandas e pré-processamentos

A Figura 33 representa os 34 espectros NIR originais das amostras de plasma

sanguíneo de humanos, obtidos na região de 1100 a 2500 nm.Observa-se um comportamento

praticamente idêntico àqueles apresentados na Figura 25, tendo, inclusive, sido aplicada a

mesma metodologia de atribuição de bandas e exclusão do sinal relativo á presença de água

(entre 1900 e 2000 nm), conforme discutido no item 4.1.1.

Figura 33-Espectros NIR originais das 34 amostras de plasma sanguíneo de humanos.

Fonte: Autor.

Sendo assim, as faixas consideradas para construção dos modelos de regressão PLS e

ANN foram de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm do espectro NIR, seguindo o

que já foi otimizado no estudo prévio, em ratos. Similarmente, os métodos de pré-

processamento utilizados neste conjunto de dados foram realizados da mesma maneira,como

descreve o item 4.1.2 deste trabalho.

1000 1500 2000 2500

3

2

1

0

Comprimento de onda (nm)

Abs

orbâ

ncia

Page 89: Ana Carolina de Oliveira Neves Dissertação de Mestrado

87

4.2.2 Regressão multivariada linear – emprego do PLS

Considerando-se a grande aplicabilidade da regressão linear PLS em amostras de

natureza biológica, discutida neste trabalho, as determinações de glicose, triglicerídeos e

colesterol total foram realizadas, inicialmente, através deste algoritmo. Para tanto, foram

utilizados diferentes pré-processamentos espectrais, métodos de seleção de variáveis e

detecção de outliers, seguindo a proposta realizada nas análises prévias em plasma sanguíneo

de ratos (item 4.1). Os resultados obtidos são mostrados detalhadamente através das Tabelas

apresentadas nos Apêndices A-C.

Através destes resultados é possível observar que as correlações, principalmente na

validação externa, foram muito baixas, até mesmo negativas, especialmente no caso de

glicose e triglicerídeos. Além disso, os valores de RMSECV e RMSEP foram bastante

elevados, tornando estes modelos insatisfatórios para tais análises. Outra questão importante é

que, especialmente no caso dos triglicerídeos e colesterol, um grande número de variáveis

latentes foi necessário nas etapas de calibração dos modelos levando a um notável sobreajuste

dos mesmos e, consequentemente, prejudicando as suas habilidades de previsão. Tais fatos,

provavelmente, podem ocorrer em virtude de fatores inerentes às amostras, tais como:

i) Sangue de pessoas sem qualquer relação entre si;

ii) Pessoas com hábitos de vida completamente diferentes;

iii) Portadores de diversas patologias (por exemplo, diabetes, hipertensão,

transtornos mentais/psicológicos, entre outras);

Tendo em vista que os resultados obtidos através da modelagem linear (PLS) não

foram satisfatórios, apesar das diversas ferramentas e estratégias utilizadas, lançou-se mão de

uma metodologia de regressão não linear, via ANN, como forma de obter resultados

superiores àqueles anteriormente observados.

Page 90: Ana Carolina de Oliveira Neves Dissertação de Mestrado

88

4.2.3Quantificações de glicose, triglicerídeos e colesterol total através de regressão

multivariada não linear – emprego do ANN

Na seção anterior, os modelos PLS determinaram e previram, de forma não tão

satisfatória, os três analitos, no plasma sanguíneo humano. Para a construção de modelos não

lineares ANN, as calibrações dos mesmos foram realizadas usando tanto os scores de um

PCA das matrizes espectrais após suavização SG (3 pontos) para glicose e triglicerídeos,

quanto de uma matriz original, sem pré-processamento, para o colesterol. Os scores das

componentes principais foram utilizados como dados de entrada, como forma de diminuir o

número de variáveis espectrais, simplificando, assim, a arquitetura das redes neurais. Para

glicose e colesterol, scores das primeiras 8 e 6 componentes principais, respectivamente,

foram usados. Por sua vez, para modelagem dos triglicerídeos, somente as três componentes

mais sensíveis (2, 3 e 7) foram selecionadas.

O número ótimo de neurônios nas camadas escondidas para glicose, triglicerídeos e

colesterol foi 5, 4 e 4, respectivamente. Estes, por sua vez, foram otimizados em função do

erro quadrático médio de monitoramento, RMSEM, e dos coeficientes de correlação das

respectivas saídas das redes. Os melhores resultados de RMSEM e R²mon (coeficiente de

correlação para o grupo de monitoramento) de cada um dos três parâmetros foram obtidos

através das redes mostradas na Tabela 11.

Como pode ser visto o valor do RMSEM para glicose foi menor do que grande parte

daqueles alcançados através dos modelos PLS discutidos no item 4.2.2. Esse RMSEM (13,2

mg dL-1

ou 0,73 mmol L-1

) pode ser comparado ao SEP (4,3 mmol L-1

) observado por

Pezzaniti e colaboradores59

, enfatizando que eles utilizaram urina como amostras biológicas.

Em relação aos triglicerídeos, através da utilização do ANN, foi possível obter um valor de

RMSEM (10,3 mg dL-1

) muito menor em comparação às regressões PLS (Apêndice B). Esse

melhoramento foi alcançado quando somente os scores das componentes mais sensíveis

foram usados na modelagem. Esse resultado pode ser positivamente considerado quando

comparado com o valor de RMSEP (22 mg dL-1

) obtido por Filho e colaboradores64

. Da

mesma forma, no caso do colesterol total, o valor de RMSEM obtido (12,3 mg dL-1

) foi

melhorado através da modelagem via ANN, quando comparado àqueles discutidos no item

4.2.2. Este resultado é próximo ao obtido por Bittner e colaboradores71

. Os erros relativos

para os melhores modelos ANN para glicose, triglicerídeos e colesterol foram 13,4%, 9,5% e

7,5%, respectivamente.

Page 91: Ana Carolina de Oliveira Neves Dissertação de Mestrado

89

Tabela 11 -Resultados dos melhores modelos ANN para os conjuntos de monitoramento de glicose,

triglicerídeos e colesterol: RMSEM e coeficientes de correlação (R) são apresentados.

Parâmetros

Melhor método de pré-

processamento

Estrutura da

rede neurala

R²mon

RMSEM

(mg dL-1

)

Glicose S3-CM 851 0,84 13,2

Triglicerídeos S3-CM 341 0,98 10,3

Colesterol b 641 0,98 12,3

a Estrutura da rede neural é dada por CP-NN-1, onde CP é o número de componentes principais (neurônios de

entrada) e NN é o número de neurônios escondidos; b Nenhum pré-processamento.

Fonte: Autor.

Um teste EJCR foi realizado para as inclinações e interceptos de cada uma das

correlações entre os valores preditos versus os valores medidos, para cada parâmetro

analisado, a um nível de confiança de 95%, como forma de se observar a possível existência

de bias nas determinações usando modelos ANN (Figura 34).

Figura 34 - EJCR para a inclinação e intercepto da regressão dos valores previstos (ANN) contra valores

medidos (método enzimático), para as amostras de monitoramento dos melhores modelos:

(azul) glicose; (vermelho) triglicerídeos; (verde) colesterol.

Fonte: Autor.

Conforme visualizado, as elipses contêm o valor teórico esperado (1,0), para os três

analitos. Além disso, os três modelos não foram significativamente diferentes quando

comparados com o método de referência, de acordo com o teste t, ao nível de confiança de

95%.

inclinação

inte

rcepto

Page 92: Ana Carolina de Oliveira Neves Dissertação de Mestrado

90

4.2.4 Comparação PLS versus ANN: quantificações de glicose, triglicerídeos e colesterol

total

Os modelos PLS discutidos no item 4.2.2 foram construídos com base em conjuntos

de calibração e validação que continham, respectivamente, 24 e 10 amostras, cada. Por outro

lado, para construção dos modelos não lineares, a escolha do número de amostras nos grupos

de treinamento e monitoramento foi otimizada em 30 e 4, respectivamente, visando que o

máximo de variabilidade possível do conjunto de dados estivesse presente no treinamento dos

modelos, em virtude da grande complexidade das amostras envolvidas. Sendo assim, para fins

de uma melhor comparação do desempenho dos dois métodos de regressão utilizados, foram

construídos modelos PLS com ambos os conjuntos de treinamento e monitoramento utilizados

nos modelos ANN. O procedimento de validação cruzada foi utilizado para auxiliar na

seleção do número de variáveis latentes dos modelos PLS. De maneira similar, os dados

espectrais utilizados foram pré-processados com suavização SG (3 pontos) para glicose e

triglicerídeos e nenhum pré-processamento para a modelagem do colesterol. Os valores de

RMSECV, RMSEP e coeficientes de correlação na calibração e previsão, para os três modelos

PLS comparativos, são mostrados na Tabela 12.

Tabela 12 - Resultados de modelos PLS para os conjuntos de calibração e validação externa de glicose,

triglicerídeos e colesterol: RMSECV, RMSEP, coeficientes de correlação (R) e variáveis latentes (VL) dos

modelos PLS são apresentados.

Parâmetros

Melhor método de pré-

processamentoa

VL

Rcal

Rprev

RMSECV

RMSEP

Glicose S3-CM 5 0,37 -0,77 34,7 18,2

Triglicerídeo

s

S3-CM 4 0,84 0,83 81,8 70,9

Colesterol b 2 0,35 0,41 47,1 32,8

a S3, suavização com janelas de 3 pontos; CM, centragem na média;

b nenhum pré-processamento aplicado;

Fonte: Autor.

A Figura 35 mostra as correlações dos valores medidos, para glicose, triglicerídeos e

colesterol, contra os valores previstos pelos modelos ANN e PLS comparativos, em plasma

sanguíneo humano.

Através das regressões mostradas, é possível notar um aumento significativo nos

coeficientes de correlação para todos os compostos, especialmente glicose (valor negativo

Page 93: Ana Carolina de Oliveira Neves Dissertação de Mestrado

91

com PLS) e colesterol (aumento de mais de 100%), nos modelos ANN. Ainda, melhoras

significativas nos erros de validação (monitoramento) foram alcançadas, principalmente para

os triglicerídeos (diminuição de aproximadamente 85%). Deste modo, considera-se que os

presentes resultados fortalecem a vantagem e utilidade de uma abordagem não linear, via

redes neurais, em problemas de determinação e previsão de glicose, triglicerídeos e colesterol

em fluidos biológicos.

Figura 35 -Concentrações preditas contra medidas (método enzimático) das amostras de calibração e validação,

em plasma sanguíneo de humanos: lado esquerdo, modelos PLS; lado direito, modelos ANN:

(a) glicose; (b) triglicerídeos; (c) colesterol; (o) conjunto de calibração; (*) conjunto de validação.

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEP = 18,2

Rpred = 0,77

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEM = 13,2

Rmon = 0,84

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEP = 70,9

Rpred = 0,84

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEM = 10,3

Rmon = 0,98

Page 94: Ana Carolina de Oliveira Neves Dissertação de Mestrado

92

Fonte: Autor.

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEP = 32,8

Rpred = 0,41

Método enzimático (mg dL-1)

NIR

(m

gd

L-1

)

RMSEPM= 12,3

Rmon = 0,98

Page 95: Ana Carolina de Oliveira Neves Dissertação de Mestrado

93

5 CONCLUSÕES

"Eu descrevi uma ligação, uma ligação química simples; eu

forneci vários detalhes de seu caráter (e poderia der dado muitos

mais). Às vezes me parecia que uma ligação entre dois átomos

tinha se tornado tão real, tão tangível, tão amigável, que eu

quase poderia vê-la. E então eu despertava com um pequeno

choque: pois uma ligação química não é uma coisa real; ela não

existe; ninguém jamais a viu, nem jamais verá. É uma ficção da

minha própria imaginação".

(Charles A. Coulson)

5.1DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E HDL EM PLASMA

SANGUÍNEO DE RATOS

Foram obtidos resultados promissores relativos às quantificações de glicose,

triglicerídeos e HDL, considerando as faixas de concentração utilizadas, através do uso da

espectroscopia NIR aliada a métodos de calibração multivariada. Os melhores valores de

RMSEP obtidos foram de 6,08, 16,07 e 2,03 mg dL-1

, respectivamente. As combinações de

regiões selecionadas a partir do iPLS, GA e SPA melhoraram significativamente os valores

preditos para as determinações dos triglicerídeos. Para glicose e colesterol - HDL, os modelos

construídos utilizando GA mostraram melhores resultados que aqueles obtidos usando iPLS

ou SPA. Os erros relativos encontrados, para glicose, triglicerídeos e HDL foram,

respectivamente, 4,1%, 13,4% e 4,9%. De modo geral, o método alternativo praticamente não

utilizou reagentes e proporcionou diminuição no tempo de análise e geração de resíduos.

Ainda, foi considerado equivalente ao método enzimático colorimétrico, de acordo com o

teste t pareado.

5.2DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E COLESTEROL TOTAL EM

PLASMA SANGUÍNEO DE HUMANOS

Ao comparar os dois métodos de calibração multivariada - PLS e ANN - aplicados à

espectroscopia NIR para análises de glicose, triglicerídeos e colesterol total em plasma

sanguíneo de humanos, verificou-se que o uso do ANN melhorou sobremaneira os resultados

obtidos. Os valores de RMSEP (PLS) obtidos foram de 18,2, 70,9 e 32,8 mg dL-1

enquanto os

Page 96: Ana Carolina de Oliveira Neves Dissertação de Mestrado

94

de RMSEM (ANN) foram de 13,2, 10,3 e 12,3 mg dL-1

, respectivamente, para os três

parâmetros analisados. Os erros relativos para os melhores modelos ANN foram 13,4%, 9,5%

e 7,5%, respectivamente, para glicose, triglicerídeos e colesterol total. Por fim, bons

indicadores estatísticos (EJCR e teste t) foram obtidos através do uso do ANN.

Page 97: Ana Carolina de Oliveira Neves Dissertação de Mestrado

95

6 PERSPECTIVAS

“Tudo aquilo que o homem ignora, não existe para ele. Por isso

o universo de cada um se resume no tamanho do seu saber.”

(Albert Einstein)

Com o desenvolvimento do trabalho, algumas perspectivas são projetadas para

avançar no que diz respeito ao aprimoramento dos métodos de análises de parâmetros

bioquímicos:

Identificar a origem das anomalias das amostras selecionadas através da

detecção de amostras anômalas;

Introduzir um maior número de amostras e fazer a validação dos métodos;

Aplicar o algoritmo não linear SVM às amostras de plasma de humanos e

comparar os resultados àqueles obtidos pela utilização do ANN;

Desenvolver métodos não invasivos para análise de parâmetros bioquímicos e,

inclusive, equipamentos portáteis para tal.

Page 98: Ana Carolina de Oliveira Neves Dissertação de Mestrado

96

REFERÊNCIAS

1. ANÁLISES clínicas. Disponível em: http://analisesclinicas.info.Acesso em: 05 jan. 2013.

2. LIMA-OLIVEIRA, G. Gestão da Qualidade Laboratorial: é preciso entender as variáveis

para controlar o processo e garantir a segurança do paciente. Análises clínicas, n. 1, p. 1-

12, set. 2011.Disponível em:

http://www.cff.org.br/sistemas/geral/revista/pdf/132/encarte_analises_clinicas.pdf.Acesso

em: 05 jan. 2013.

3. DELATOUR, V.; LARERE, B.; SAINT-ALBIN, K.; PEIGNAUX, M.; HATTCHOUEL,

J.; DUMONT, G.; GRAEVE, J. D.; VASLIN-REIMANN, S.; GILLERY, P. Continuous

improvement of medical tests reliability using reference methods and matrix-corrected

target values in proficiency testing schemes: applications to glucose assay. Clinica

Chimica Acta, França, v. 413, n. 20, p. 1872-1878, nov. 2012. Disponível em:

http://www.ncbi.nlm.nih.gov/pubmed/22885373. Acesso em: 5 jan. 2013.

4. EXAMES clínicos. Disponível em: http://www.hemoanalises.com.br/Exames-Clinicos.

Acesso em: 05 jan 2013.

5. BETTELHEIM, F.; BROWN, W. H.; CAMPBELL, M. C.; FARRELL, S. O. Introdução

à Química Geral, Orgânica e Bioquímica.9. ed. trad. São Paulo: Cengage Learning,

2012.

6. LI, N. L.; LI, Q. B.; ZHANG, G. J. A weak signal extraction method for human blood

glucose noninvasive measurement using near infrared spectroscopy. Infrared Milli

Terahz Waves, China, v. 30, p. 1191-1204, jun. 2012. Disponível

em:http://link.springer.com/content/pdf/10.1007%2Fs10762-009-9544-0.pdf. Acesso em:

05 jan. 2013.

7. ARNESON, W.; BRICKELL, J. Clinical Chemistry – a laboratory perspective. 1. ed.

Philadelphia: F.A. Davis Company, 2007.

8. MILLER, M.; SEIDLER, A.; MOALEMI, A.; PEARSON, T. A. Normal triglycerides

levels and coronary artery disease events: the Baltimore coronary observational long-term

study. Journal of the American College of Cardiology, Baltimore,v. 31, n. 6, p. 1252-

1257, maio. 1998. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/9581716. Acesso

em: 5 jan. 2013.

9. SCHIAVO, M.; LUNARDELLI, A.; de OLIVEIRA, J. R. Influência da dieta na

concentração sérica de triglicerídeos. Jornal Brasileiro de Patologia e Medicina

Laboratorial, Rio de Janeiro, v. 39, n. 4, p. 283-288, mar. 2003.Disponível em:

http://www.scielo.br/pdf/jbpml/v39n4/18540.pdf. Acesso em: 5 jan. 2013.

10. BOULLART, A. C. J.; de GRAAF, J.; STALENHOEF, A. F. Serum triglycerides and

risk of cardiovascular diseases. Biochimica et Biophysica Acta, Holanda,v. 1821 , n. 4, p.

867-875, maio, 2012. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/22015388.

Acesso em: 5 jan. 2013.

Page 99: Ana Carolina de Oliveira Neves Dissertação de Mestrado

97

11. UIEARA, M. Química Orgânica Biológica. 1. ed. Florianópolis: Editora UFSC, 2001.

12. BLOOD safety and clinical technology. Guidelines on Standard Operating Procedures for

clinical chemistry: cholesterol oxidase method. Disponível em:

http://www.searo.who.int/en/section10/section17/section53/section481_1756.htm.

Acesso em: 05 jan 2013.

13. SECCHIERO, S.; SCIACOVELLI, L.; PLEBANI, M. Appropriateness of cholesterol and

triglycerides reporting checked by external quality assessment programs. Clinica Chimica

Acta, Itália, v. 333, n. 2, p. 221-230, jul. 2003. Disponível em:

http://www.sciencedirect.com/science/article/pii/S000989810300189X. Acesso em: 05 jan.

2013.

14. SÍNDROME metabólica. Disponível em: http://www.endocrino.org.br/sindrome-

metabolica. Acesso em: 05 jan. 2013.

15. CARVALHO, M. H. C. I Diretriz brasileira de diagnóstico e tratamento de síndrome

metabólica. Arquivos Brasileiros de Cardiologia, Brasil, v. 84, n. 1, p. 2-28, abr. 2005.

Disponível em: http://publicacoes.cardiol.br/consenso/2005/dir_resumida.pdf. Acesso

em: 5 jan. 2013.

16. PENALVA, D. Q. F. Síndrome metabólica: diagnóstico e tratamento. Revista

Médica,São Paulo, v. 87, n. 4, p. 245-250, out.-dez. 2008. Disponível em:

http://www.fm.usp.br/gdc/docs/revistadc_166_10-sindrome-metabol.pdf. Acesso em: 5

jan. 2013.

17. GLOBAL status report on noncommunicable diseases. Disponível em:

http://www.who.int. Acesso em: 05 jan. 2013.

18. BERGENSTAL, R. M. Evaluating the accuracy of modern glucose meters. Insulin.

Minnesota, v. 3, n. 1, p. 5-14, jan. 2008. Disponível em:

http://www.sciencedirect.com/science/article/pii/S1557084308800048. Acesso em: 5 jan.

2013.

19. SHARMA, A.; ARTISS, J. D.; ZAK, B. A. Method for sequential colorimetric

determination of serum triglycerides and cholesterol. Clinical Biochemistry, Michigan,

v. 20, n. 3, p. 167-172, jun. 1987.Disponível em:

http://www.researchgate.net/publication/19510371_A_method_for_the_sequential_colori

metric_determination_of_serum_triglycerides_and_cholesterol. Acesso em: 5 jan. 2013.

20. ZHU, M.; HUANG, X.; SHEN, H. Microbial enzymatic assay of glucose in serum.

Analytica Chimica Acta, China, v. 349, n. 1, p. 165-170, ago. 1997. Disponível em:

http://www.sciencedirect.com/science/article/pii/S0003267097002213. Acesso em: 5 jan.

2013.

21. BLOOD safety and clinical technology. Guidelines on Standard Operating Procedures for

clinical chemistry: glucose oxidase method. Disponível em:

http://www.searo.who.int/en/section10/section17/section53/section481_1753.htm.

Acesso em: 05 jan 2013.

Page 100: Ana Carolina de Oliveira Neves Dissertação de Mestrado

98

22. LENARDÃO, E.J.; FREITAG, R.A.; DABDOUB, M.J.; BATISTA, A.C.F; SILVEIRA,

C.C. Green chemistry” – Os 12 princípios da química verde e sua inserção nas atividades

de ensino e pesquisa. Química Nova, São Paulo, v. 26, n. 1, p. 123-129, jan.-fev. 2003.

Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-

40422003000100020. Acesso em: 5 jan. 2013.

23. BURNS, D.A.; CIURCZAK, E.W. Handbook of Near-infreared analysis. 3. ed. New

York: CRC Press, 2008.

24. PASQUINI, C. Near infrared spectroscopy: Fundamentals, pratical aspects and analytical

applications. Journal of Brazilian Chemical Society, São Paulo, v. 14, n. 2, p. 198-219,

mar.-abr. 2003.Disponível em:

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-50532003000200006.

Acesso em: 5 jan. 2013.

25. SKOOG, D.A.; HOLLER, F.J.; CROUCH, S.R. Principles of instrumental analysis.5.

ed. Philadelphia: Saunders College Publishing, 1992.

26. SALGUERO-CHAPARRO, L.; GAITÁN-JURADO, A.J.; ORTIZ-SOMOVILLA, V.;

PEÑA-RODRÍGUEZ, F. Feasibility of using NIR spectroscopy to detect herbicide

residues in intact olives. Food Control, Espanha, v. 30, n. 2. p. 504-509, abr.

2013.Disponível em:

http://www.sciencedirect.com/science/article/pii/S0956713512004410. Acessp em: 5 jan.

2013.

27. PIERNA, J.A.F.; VERMEULEN, V.; TOSSENS, O.A.; DARDENNE, P.; BAETEN, V.

NIR hyperspectral imaging spectroscopy and chemometrics for the detection of

undesirable substances in food and feed. Chemometrics and Intelligent Laboratory

System, Bélgica, v. 117, n.1, p. 233-239, ago. 2012.Disponível em:

http://www.sciencedirect.com/science/article/pii/S016974391200038X. Acesso em: 5 jan.

2013.

28. ZHANG, W. Review on analysis of biodiesel with infrared spectroscopy. Renewable

Sustainable Energy Reviews, China, v. 16, n.8, p. 6048-6058, out. 2012.Disponível em:

http://www.sciencedirect.com/science/article/pii/S1364032112004443. Acesso em: 5 jan.

2013.

29. KHANMOHAMMADI, M.; GARMARUDI, A.B.; de la GUARDIA, M.

Characterization of petroleum-based products by infrared spectroscopy and

chemometrics. Trends in Analytical Chemistry, Irã, v. 35, p. 135-149, maio 2012.

Disponível em: http://www.sciencedirect.com/science/article/pii/S0165993612000581.

Acesso em: 5 jan. 2013.

30. SAKUDO, A.; KURATSUNE, Y.H.; KATO, Y.H.; IKUTA. K. Non-invasive prediction

of hematocrit levels by portable visible and near-infrared spectrophotometer.Clinica

Chimica Acta, Japão, v. 408, n. 1-2, p. 123-127, ago. 2009. Disponível em:

http://www.sciencedirect.com/science/article/pii/S0009898109004379. Acesso em: 5 jan.

2013.

Page 101: Ana Carolina de Oliveira Neves Dissertação de Mestrado

99

31. PALOU, A.; CRUZ, J.; BLANCO, M.; TOMÀS, J.; de los RÍOS, J.; ALCALÀ, R.

Determination of drug, excipients and coating distribution in pharmaceutical tablets using

NIR-CI.Journal of Pharmaceutical Analysis, Barcelona, v. 2, n. 2, p. 90-97, abr.

2012.Disponível em:

http://www.sciencedirect.com/science/article/pii/S2095177911000657. Acesso em: 5 jan.

2013.

32. LUYPAERT, J.; MASSART, D.L.; HEYDEN, V. Near-infrared spectroscopy

applications in pharmaceutical analysis.Talanta, Bélgica, v. 73. n. 3, p. 865-883, maio

2007. Disponível em:

http://www.sciencedirect.com/science/article/pii/S003991400600823X. Acesso em: 5 jan.

2013.

33. BERZAGHI, P.; RIOVANTO, R. Near infrared spectroscopy in animal science

production: principles and applications.Italian Journal of Animal Science, Itália, v.8, n.

3, p. 39-62, jan. 2009.Disponível em:

http://www.aspajournal.it/index.php/ijas/article/view/ijas.2009.s3.39. Acesso em: 5 jan.

2013.

34. MATTHIAS, O. Chemometrics, Statistics and Computer Application in Analytical

Chemistry,2. ed. Weinheim: WILEY-VCH Verlag GmbH & Co. KGaA, 2007.

35. NETO, B.B.; SCARMÍNIO, I.S.; BRUNS, R.E.25 Anos de quimiometria no Brasil.

Química Nova, São Paulo, v. 29, n.6, p. 1401-1406, nov.dez. 2006.

36. MARTEN, H.; NAES, T. Multivariate Calibration and Classification, 1. ed.

Chichester-UK: NIR Publications, 2002.

37. BRERETON, R.G. Chemometrics: data analysis for the laboratory and chemical

plant, 1. ed. Chichester: John Wiley and Sons, 2003.

38. BRO, R. Multivariate calibration: what is in chemometrics for the analytical

chemistry?,Analytica Chimica Acta, Dinamarca, v. 500, n. 1-2, p. 185-194, dez. 2003.

39. VALDERRAMA, P. Avaliação de figuras de mérito em calibração multivariada na

determinação de parâmetros de controle de qulidade em indústria alcooleira por

espectroscopia no infravermelho próximo. 2005. 135 f. Dissertação (Mestrado em

Química). 2005. 135 f. Programa de Pós-Graduação em Química, Universidade Estadual

de Campinas, São Paulo, SP, Brasil, 2005.

40. MATOS, G.D.; PEREIRA-FILHO, E.R.; POPPI, R.J.; ARRUDA, M.A.Z. Análise

exploratória em química analítica com emprego de quimiometria: PCA e PCA de

imagens.Revista Analytica,Campinas, v. 6, n.3 , p. 38-48, ago.-set. 2003.

41. CHAMINADE, P.; BAILLET, A.; FERRIER, D.Data treatment in near infrared

spectroscopy.Analusis Magazine, v. 26, p. 33-38, 1998.

42. SHETTY, N.; GISLUM, R. Quantification of fructan concentration in grasses using NIR

spectroscopy and PLSR.Field Crops Research, Dinamarca, v. 120, n. 14, p. 31-37, jan.

2011. Disponível em:

Page 102: Ana Carolina de Oliveira Neves Dissertação de Mestrado

100

http://www.sciencedirect.com/science/article/pii/S0378429010002212. Acesso em: 5 jan.

2013.

43. VALDERRAMA, P.; BRAGA, J.W.B.; POPPI, R.J. Variable Selection, Outlier

Detection, and Figures of Merit Estimation in a Partial Least-Squares Regression

Multivariate Calibration Model. A Case Study for the Determination of Quality

Parameters in the Alcohol Industry by Near-Infrared Spectroscopy.Journal of

Agricultural and Food Chemistry, Campinas, v. 55, n. 21, p. 8331-8338, out. 2007.

44. MILLER, J.N.; MILLER, J.C. Statistics and chemometrics for analytical chemistry. 5.

ed. Londres: Pearson Prentice Hall, 2005.

45. DESPAGNE, F.; MASSART, D.Luc. Neural networks in multivariate

calibration.Analyst, Bélgica, v. 123, p. 157-178, ago. 1998. Disponível em:

http://pubs.rsc.org/en/Content/ArticleLanding/1998/AN/a805562i. Acesso em: 5 jan.

2013.

46. SAVITZKY, A.; GOLAY, M.J.E. Smoothing and Differentiation of data by simplified

least squares procedures.Analytical Chemistry, Norwalk, v. 36, n. 8, p. 1627-1638, jul.

1964. Disponível em: http://pubs.acs.org/doi/abs/10.1021/ac60214a047. Acesso em: 5

jan. 2013.

47. KENNARD, R.W.; STONE, L.A. Computer aided design of

experiments.Technometrics, v. 11, n. 1. Fev. 1969. Disponível em:

http://www.jstor.org/discover/10.2307/1266770?uid=2&uid=4&sid=21102308457987.

Acesso em: 5 jan. 2013.

48. SOUSA, L.C. Espectroscopia na região do infravermelho próximo para predição de

características da madeira para produção de celulose. 2008. 109 f. Tese (Doutorado

em Ciência Florestal). 2005. 109 f. Programa de Pós-Graduação em Ciência Florestal,

Universidade Federal de Viçosa, MG, Brasil, 2008.

49. FILHO, H.A.D. Desenvolvimento de técnicas quimiométricas de compressão de

dados e de redução de ruído instrumental aplicadas a óleo diesel e madeira de

eucalipto usando espectroscopia NIR. 2007. 158 f. Tese (Doutorado em Química).

2007. 158 f. Programa de Pós-Graduação em Química, Universidade Estadual de

Campinas, Campinas, SP, Brasil, 2007.

50. KULIGOWSKI, J.; QUINTÁS, G.; GARRIGUES, S.; de La GUARDIA, M. Direct

determination of polymerized triglycerides in deep-frying olive oil by attenuated total

reflectance-Fourier transform infrared spectroscopy using partial least squares

regression.Analytical and Bioanalytical Chemistry, Espanha, v. 397, n. 2, p. 861-869,

maio 2010.

51. NORGAARD, L.; SAUDLAND, A.; WAGNER, J.; NIELSEN, J.P.; MUNCK, L.;

ENGELSEN, S.B. Interval partial least-squares regression (iPLS): a comparative

chemometric study with an example from near-infrared spectroscopy.Applied

Spectroscopy, Dinamarca, v. 54, n. 3, p. 413-418, set. 2000.

Page 103: Ana Carolina de Oliveira Neves Dissertação de Mestrado

101

52. LIU, F.; HE, Y.; SUN, G. Determination of protein content of Auricalia auricalia using

near infrared spectroscopy combined with linear and nonlinear calibrations.Journal of

Agricultural and Food Chemistry, v. 57, n. 11, p. 4520-4527, jun. 2009.

53. ARAÚJO, M.C.U.; SALDANHA, T.C.B.; GALVÃO, R.K.H.; YONEYAMA, T.;

CHAME, H.C.; VISANI, V. The successiveprojectionsalgorithm for variable selection in

spectroscopic multicomponent analysis.Chemometrics and Intelligent Laboratory

Systems, João Pessoa, v. 57, n. 2, p. 65-73, jul. 2001.Disponível em:

http://www.sciencedirect.com/science/article/pii/S0169743901001198. Acesso em: 5 jan.

2013.

54. LEE, Z.J. An integrated algorithm for gene selection and classification applied to

microarray data of ovarian cancer.Artificial Intelligence in Medicine, v. 42, n. 1, p. 81-

93, jan. 2008. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/18006289. Acesso

em: 5 jan. 2013.

55. FEI, Q.; LI, M.; WANG, B.; HUANG, Y.; FENG, G.; REN, Y. , Analysis of cefalexin

with NIR spectrometry coupled to artificial neural networks with modified genetic

algorithm for wavelength selection.Chemometrics and Intelligent Laboratory

Systems, China, v. 97, n. 2, p. 127-131, jul. 2009.

56. GOIGOECHEA, H.C.; OLIVIERI, A.C. Sustained prediction ability os net analyte

preprocessing methods using reduced calibration sets. Theoretical an experimental study

involving the spectrophotometric analysis of multicomponent mixtures.Analyst,

Argentina, v. 126, p. 1105-1112, abr. 2001.

57. KANG, N.; KASEMSUMRAN, S.; WOO, Y.; KIM, H.; OZAKI, Y. Optimization of

informative spectral regions for the quantification of cholesterol, glucose and urea in

control serum solutions using searching combination moving window partial least

squares regression method with near infrared spectroscopy.Chemometrics and

Intelligent laboratory Systems, Japão, v. 82, n. 1-2, p. 90-96, maio 2006.

58. KASEMSUMRAN, S.; DU, Y.P.; MURAYAMA, K,; HUEHNE, M.; OZAKI, Y. Near-

infrared spectroscopy determination of human serum albumin, γ-globulin, and glucose in

a control serum solution with searching combination moving window partial least

squares.Analytica Chimica Acta, Japão, v. 512, n. 2, p. 223-230, jun. 2004.

59. PEZZANITI, J.L.; JENG.T.; MCDOWELL, L.; OOSTA, G.M. Preliminary investigation

of near-infrared spectroscopic measurements of urea, creatinine, glucose, protein, and

ketone in urine.Clinical Biochemistry, USA, v. 34, n. 3,p. 239-246, maio 2001.

Disponível em: http://www.sciencedirect.com/science/article/pii/S0009912001001989.

Acesso em: 5 jan. 2013.

60. ESCANDAR, G.M.; DAMIANI, P.C.; GOICOECHEA, H.C.; OLIVIERI, A.C. A review

of multivariate calibration methods applied to biomedical analysis.Microchemical

Journal, Argentina, v. 82, n. 1, p. 29-42, jan. 2006. Disponível em:

http://www.sciencedirect.com/science/article/pii/S0026265X05000846. Acesso em: 5 jan.

2013.

Page 104: Ana Carolina de Oliveira Neves Dissertação de Mestrado

102

61. HAZEN, K.H.; ARNOLD, M.A.; SMALL, G.W. Measurement of glucose and other

analytes in undiluted human serum with near-infrared transmission

spectroscopy.Analytica Chimica Acta, USA, v. 371, p. 255-267, abr. 1998. Disponível

em:

http://ostc.physics.uiowa.edu/~arg/(1998)%20Measurement%20of%20glucose%20and%

20other%20analytes%20in%20undiluted%20human%20serum%20with%20near-

infrared%20transmission%20spectroscopy.pdf. Acesso em: 5 jan. 2013.

62. KASEMSUMRAN, S.; DU, Y.P.; MAURO, K.; OZAKI, Y. Improvement of partial least

squares models for in vitro and in vivo glucose quantifications by using near-infrared

spectroscopy and searching combination moving window partial least squares.

Chemometrics and Intelligent Laboratory Sistems, v. 82, n. 1-2, p. 97-103, maio,

2006.

63. PETTER, C.H.; HEIGL, N.; BONN, G.K.; RITSCH, A.; HUCK, C.W. Quantification of

Low-Density andHigh-Density Lipoproteins in Human Serum by Material Enhanced

Infrared Spectroscopy(MEIRS).Current Medicinal Chemistry, v. 16, p. 4601-4608,

2009.

64. FILHO, PA.C.; POPPI, R.J. Determination of triglycerides in human plasma using near-

infreared spectroscopy and multivariate calibration methods.Analytica Chimica Acta,

Campinas, v. 446, n. 1-2, p. 39-47, out. 2001. Disponível em:

http://www.sciencedirect.com/science/article/pii/S0003267001009564. Acesso em: 5 jan.

2013.

65. WILKINS, E.; ATANASOV, P. Glucose monitoring: state of the art and future

possibilities.Medical Engineering & Physics, USA, v. 18, n. 4, p. 273-288, jun. 1996.

Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/8782186. Acesso em: 5 jan. 2013.

66. FILLASTRE, J.P.; HERMET, J.; TULKENS, P.; MORIN, J.P.; VIOTTE, G.; OLIER, B.;

DOGIN, M. Comparative nephrotoxicity of four aminoglycosides: biochemical and ultra-

structural modifications of lysosomes.Advances in Nephrology from the Necker

Hospital, v. 12, p. 253-275, 1983.

67. LERNER, A.M.; REYES, M.P.; CONE, L.A.; BLAIR, D.C.; JANSEN, W.; WRIGHT,

G.E.; LOBER, R. Randomised, Controlled trial of the comparative efficacy, auditory

toxicity, and nephrotoxicity of tobramycin and netilmicin.Lancet, v. 21, n. 1, p. 1123-

1126, maio 1983.

68. ARICH, C.; GOUBY, A.; BENGLER, C; ARDILOUZE, J.L.; DUBOIS, A.; JOUBERT,

P.; HANSEL, S.; JANBON, C.; FABRE, S. Comparison of the efficacy of cefotaxime

alone and the combination cefazolin-tobramycin in the treatment of enterobacterial

septicemia.Pathologie-biologie,v.35, n. 5, p. 613-615, maio 1987.

69. JOSHI, M.; BERNSTEIN, J.; SOLOMKIN, J.; WESTER, B.A.; KUYE, O.

Piperacilin/tazobactam plus tobramycin versus ceftazidime plus tomabrycin for the

treatment of patients with nosocomial lower respiratory tract infection.

Piperacilin/tazobactam Nosocomial Pneumonia Study Group.Journal of Antimicrobial

Chemotherapy, v. 43, p. 389-397, 1999.

Page 105: Ana Carolina de Oliveira Neves Dissertação de Mestrado

103

70. DANTAS, J.A.; AMBIEL, C.R.; CUMAN, R.K.N.; BARONI, S.; AMADO, C.A.B.

Valores de referência de alguns parâmetros fisiológicos de ratos do Biotério Central da

Universidade Estadual de Maringá, Estado do Paraná.Acta Scientiarum: Health

Science, v. 28. n. 2, p. 165-170, 2006.

71. BITTNER, A.; MARBACH, R.; HEISE, H.M. Multivariate calibration for protein,

cholesterol and triglycerides in human plasma using short-wave near-infrared

spectrometry.Journal of Molecular Structure, v. 349, p. 341-344, abr. 1995.

Page 106: Ana Carolina de Oliveira Neves Dissertação de Mestrado

104

APÊNDICES

“O que sabemos é uma gota; o que ignoramos é um oceano.”

(Isaac Newton)

Apêndice A - Resultados para os conjuntos de calibração e validação externa para glicose: RMSECV, RMSEP,

coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos

modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R RMSECV R RMSEP Tamanho

PLS (4) 0,68 46,4 -0,21 16,2 1223

PLS (2) S 3 pts 0,37 39,9 0,54 13,8 1221

PLS (2) S 5 pts 0,31 39,3 0,58 13,4 1219

PLS (2) 1D 3

pts

0,74 46,7 -0,35 24,1 1221

PLS (4) 1D 5

pts

0,86 51,5 -0,44 24,4 1219

PLS (3) 1D 7

pts

0,97 51,1 -0,05 24,9 1217

PLS (2) 2D 3

pts

0,61 44,5 0,012 15,3 1221

iPLS (2) 0,25 37,6 0,55 12,3 600

PLS-SPA (3) 0,50 44,7 0,64 14,1 24

PLS-GA (4) 0,63 44,2 0,26 23,3 329

PLS (5)1 0,82 21,9 0,25 14,9 24

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers; 2 duas aplicações de detecção de outliers.

Page 107: Ana Carolina de Oliveira Neves Dissertação de Mestrado

105

Apêndice B - Resultados para os conjuntos de calibração e validação externa para triglicerídeos: RMSECV,

RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de

fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R RMSECV R RMSEP Tamanho

PLS (3) 0,79 88,1 0,43 59,7 1223

PLS (2) S 3 pts 0,77 88,6 0,68 56,9 1221

PLS (6) S 5 pts 0,91 81,2 0,75 83,9 1219

PLS (4) 1D 3

pts

0,89 132,9 0,26 75,9 1221

PLS (4) 1D 5

pts

0,88 118,7 0,08 78,3 1219

PLS (7) 1D 7

pts

0,97 107,3 -0,08 101,5 1217

PLS (2) 2D 3

pts

0,84 121,6 -0,03 82,6 1221

iPLS (3) 0,72 88,5 0,76 42,7 400

PLS-SPA (2) 0,60 99,8 0,31 83,3 24

PLS-GA (10) 0,99 51,6 0,62 113,0 302

PLS (5)1 0,75 63,8 0,67 41,0 400

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers; 2 duas aplicações de detecção de outliers.

Page 108: Ana Carolina de Oliveira Neves Dissertação de Mestrado

106

Apêndice C - Resultados para os conjuntos de calibração e validação externa para colesterol total: RMSECV,

RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de

fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.

Modelosa Calibração Previsão

R RMSECV R RMSEP Tamanho

PLS (3) 0,73 53,3 0,79 26,2 1223

PLS (4) S 3 pts 0,74 49,0 0,62 39,2 1221

PLS (4) S 5 pts 0,70 48,2 0,27 38,9 1219

PLS (7) 1D 3

pts

0,98 41,2 0,70 41,0 1221

PLS (7) 1D 5

pts

0,98 43,3 0,62 39,1 1219

PLS (9) 1D 7

pts

0,99 43,9 0,41 46,7 1217

PLS (3) 2D 3

pts

0,86 56,6 0,50 34,7 1221

iPLS (3) 0,78 39,9 0,61 29,9 122

PLS-SPA (7) 0,92 48,3 0,30 45,9 24

PLS-GA (9) 0,99 10,2 0,83 29,7 337

PLS (5)1 0,99 35,9 0,53 37,9 1223

a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;

1 uma aplicação de detecção de

outliers; 2 duas aplicações de detecção de outliers.

Page 109: Ana Carolina de Oliveira Neves Dissertação de Mestrado

107