167
MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA 1 ÍNDICE INTRODUÇÃO ....................................................................... 4 CAPÍTULO 1 ........................................................................... 6 INTRODUÇÃO ............................................................................................................................... 6 Tipos de erros ............................................................................................................................. 8 Erros aleatórios e sistemáticos em análises titrimétricas ......................................................... 10 Manipulando erros sistemáticos ............................................................................................... 12 CAPÍTULO 2 ......................................................................... 16 ERROS EM ANÁLISES CLÁSSICAS ......................................................................................... 16 Média e desvio padrão .............................................................................................................. 16 Distribuição de erros ................................................................................................................ 17 A distribuição de médias amostradas ....................................................................................... 22 Limites de confiança da média ................................................................................................. 23 Apresentação dos resultados .................................................................................................... 27 Outros usos dos limites de confiança ........................................................................................ 28 Propagação de erros aleatórios ............................................................................................... 29 Propagação de erros sistemáticos ............................................................................................ 33 CAPÍTULO 3 ......................................................................... 36 TESTES DE SIGNIFICÂNCIA .................................................................................................... 36 Comparação entre uma média experimental e um valor conhecido ......................................... 36 Comparação das médias de duas amostras .............................................................................. 38 Teste t pareado ......................................................................................................................... 41 TESTES MONO E BI-CAUDAIS ................................................................................................ 43 TESTES F PARA A COMPARAÇÃO DE DESVIOS PADRÕES .............................................. 45 CAPÍTULO 4 ......................................................................... 48 PONTOS FORA DA CURVA (“OUTLIERS”) ............................................................................ 48 ANÁLISE DE VARIÂNCIA ........................................................................................................ 52 Comparação de várias médias.................................................................................................. 53 Variações dentro da amostra .................................................................................................... 54

ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

1

ÍNDICE

INTRODUÇÃO ....................................................................... 4

CAPÍTULO 1 ........................................................................... 6

INTRODUÇÃO ............................................................................................................................... 6

Tipos de erros ............................................................................................................................. 8

Erros aleatórios e sistemáticos em análises titrimétricas ......................................................... 10

Manipulando erros sistemáticos ............................................................................................... 12

CAPÍTULO 2 ......................................................................... 16

ERROS EM ANÁLISES CLÁSSICAS ......................................................................................... 16

Média e desvio padrão .............................................................................................................. 16

Distribuição de erros ................................................................................................................ 17

A distribuição de médias amostradas ....................................................................................... 22

Limites de confiança da média ................................................................................................. 23

Apresentação dos resultados .................................................................................................... 27

Outros usos dos limites de confiança ........................................................................................ 28

Propagação de erros aleatórios ............................................................................................... 29

Propagação de erros sistemáticos ............................................................................................ 33

CAPÍTULO 3 ......................................................................... 36

TESTES DE SIGNIFICÂNCIA .................................................................................................... 36

Comparação entre uma média experimental e um valor conhecido ......................................... 36

Comparação das médias de duas amostras .............................................................................. 38

Teste t pareado ......................................................................................................................... 41

TESTES MONO E BI-CAUDAIS ................................................................................................ 43

TESTES F PARA A COMPARAÇÃO DE DESVIOS PADRÕES .............................................. 45

CAPÍTULO 4 ......................................................................... 48

PONTOS FORA DA CURVA (“OUTLIERS”) ............................................................................ 48

ANÁLISE DE VARIÂNCIA ........................................................................................................ 52

Comparação de várias médias .................................................................................................. 53

Variações dentro da amostra .................................................................................................... 54

Page 2: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

2

Variação entre amostras ........................................................................................................... 56

A aritmética dos cálculos da ANOVA ....................................................................................... 58

CAPÍTULO 5 ......................................................................... 62

TESTE CHI-QUADRADO ........................................................................................................... 62

Teste para distribuição normal ................................................................................................. 64

CONCLUSÕES SOBRE OS TESTES DE SIGNIFICÂNCIA ..................................................... 66

CONTROLE DE QUALIDADE E AMOSTRAGEM................................................................... 69

Amostragem .............................................................................................................................. 69

Separação e estimativa de variâncias usando ANOVA ............................................................ 71

CAPÍTULO 6 ......................................................................... 74

ANÁLISES COLABORATIVAS ................................................................................................. 74

Introdução ................................................................................................................................. 74

Gráficos de duas amostras........................................................................................................ 75

Preparando uma Análise Colaborativa .................................................................................... 76

Cálculos em Análises Colaborativas ........................................................................................ 79

Cartas de controle .................................................................................................................... 84

CAPÍTULO 7 ......................................................................... 92

Erros em Análise Instrumental: Regressão e Correlação ............................................................. 92

Coeficiente de Correlação Produto-Momento ............................................................................... 94

A Linha de Regressão de Y em X ................................................................................................... 99

Erros na Tangente e no Intercepto da Curva de Regressão ........................................................ 101

Cálculos de uma Concentração ................................................................................................... 105

CAPÍTULO 8 ....................................................................... 108

Limites de Detecção ..................................................................................................................... 108

O Método das Adições Padrão .................................................................................................... 112

Uso de Retas de Regressão Para Comparar Métodos Analíticos................................................ 116

CAPÍTULO 9 ....................................................................... 122

Retas de Regressão Ponderadas .................................................................................................. 122

Regressão Curvilinear – Introdução ........................................................................................... 128

Ajuste de Curvas .......................................................................................................................... 134

Page 3: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

3

CAPÍTULO 10 ..................................................................... 142

MÉTODOS NÃO-PARAMÉTRICOS E MÉTODOS ROBUSTOS ........................................... 142

Introdução ............................................................................................................................... 142

A mediana - análise inicial dos dados .................................................................................... 143

O teste do sinal ....................................................................................................................... 147

O teste de séries Wald-Wolfowitz............................................................................................ 150

O teste de Wilcoxon das séries das ordens assinaladas.......................................................... 151

Os métodos de Wilcoxon de ordem somada e outros relacionados ........................................ 154

Testes não-paramétricos em mais de duas amostras .............................................................. 156

Métodos não-paramétricos de regressão ................................................................................ 158

Métodos robustos .................................................................................................................... 161

ANEXOS .............................................................................. 166

Page 4: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

4

INTRODUÇÃO

A Química, assim como a Física, é uma ciência predominantemente

experimental. Todas as suas teorias, das mais complexas, como a Teoria Quântica,

às mais simples, como os modelos de gases, requerem, incondicionalmente, uma

constatação experimental.

Podemos postular a existência de uma partícula fundamental para definir os

elementos químicos, o átomo, porém, além de postular, precisamos medir o seu

tamanho, sua massa, seus componentes, etc.. Podemos observar a ocorrência de uma

reação química em um frasco de laboratório, porém, para caracterizá-la

convenientemente, necessitamos conhecer a velocidade da reação e, assim, medir o

tempo em que certa quantidade de reagente se transforma em produto.

Desta maneira, não é possível escapar da necessidade de se trabalhar com

números. É fundamental, para se trabalhar na área da Química, ler escalas numéricas

em diferentes instrumentos e associar os números mostrados com outras

quantidades. Este procedimento não é assim tão direto como pode parecer. Ao ler os

dígitos que informam o peso de uma dada amostra em uma balança analítica, por

exemplo, há que se saber interpretar os números mostrados, de acordo com a

sensibilidade do instrumento, os erros cometidos na leitura e na apresentação dos

números, etc.

Page 5: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

5

Da mesma maneira, ao se comparar os resultados obtidos com aqueles

mostrados na literatura, é necessário um conhecimento extra, para não se correr o

risco de comparar “bananas com maçãs”.

Aqui, a toda poderosa matemática, de repente, se mostra limitada. É claro que

suas aplicações e operações continuam sempre válidas e indispensáveis. Entretanto,

vamos mostrar, no decorrer do curso, que nem sempre 2 é menor que 3, como

assumido pelos matemáticos. Vamos mostrar quando podemos concluir que um

número obtido em um experimento pode ser considerado maior do que o valor

obtido em outro laboratório ou por outras técnicas experimentais.

Page 6: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

6

CAPÍTULO 1

INTRODUÇÃO

A Química Analítica moderna tem um caráter essencialmente quantitativo. Uma

resposta quantitativa, a qualquer análise executada é mais indicada do que uma qualitativa.

A pessoa que precisou da análise pode, com os resultados quantitativos em mãos, julgar se

a concentração do analito em uma determinada matriz (por exemplo, de pesticidas em uma

amostra de alimentos ou de água potável) é suficientemente elevada para se tornar nocivo e

exige alguma providência ou não. Em alguns casos, apenas uma resposta quantitativa tem

algum valor. Por exemplo, em uma análise de colesterol em amostra de sangue.

Virtualmente todo o soro sanguíneo humano tem colesterol, a dúvida só poderia ser quanto.

É importante considerar que, mesmo quando uma resposta qualitativa é solicitada, métodos

quantitativos têm de ser usados para obtê-la. Na realidade, um químico analítico nunca

pode dizer simplesmente que encontrou / não encontrou boro numa amostra de água. Ele

deve empregar um método quantitativo, capaz de detectar, por exemplo, 1,0 µg mL-1

de

boro. Se o teste tiver resultado negativo, ele pode dizer apenas que “esta amostra contém

menos que 1,0 µg mL-1

de boro”. Se o teste for positivo, ele relatará que encontrou pelo

menos 1,0 µg mL-1

de boro.

Procedimentos muito mais complexos podem ser necessários. Por exemplo: para

comparar as características de diferentes amostras de solo, ou de substratos de rios ou lagos,

as amostras podem sofrer, inicialmente, uma seleção de partículas, por exemplo, por meio

de separação em peneiras com 10 tamanhos de malhas diferentes. Cada amostra deverá,

então, ser caracterizada dentro dessas 10 distribuições. Procedimentos bastante complexos

Page 7: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

7

de análises poderão então ser empregados para se obter uma conclusão quantitativa sobre as

similaridades das amostras e se estimar a probabilidade delas terem uma origem comum.

Assim, os estudos quantitativos serão os determinantes nesse curso, e deve-se

aceitar que os erros que ocorrem nesses estudos são de extrema importância. Portanto,

deveremos ter sempre em mente, um postulado da estatística aplicada à química:

“Nenhum resultado quantitativo tem qualquer valor, a menos que ele seja

acompanhado de alguma estimativa dos erros inerentes”.

Vejamos um exemplo: um químico sintetiza um reagente que acredita que seja

completamente novo. Ele o estuda com uma técnica de espectrometria e o composto dá um

valor de 104 (unidade arbitrária). Ao checar a literatura, ele encontra que nenhum composto

previamente descoberto deu sinal maior que 100, quando estudado pelo mesmo método, nas

mesmas condições experimentais. A questão que surge naturalmente é: será que o químico

citado descobriu mesmo um composto inteiramente novo?

A resposta a esta pergunta está condicionada ao grau de confiança que se pode

depositar no valor encontrado, 104.

Quais erros são associados com ele?

Se novos estudos mostrarem que esse valor é correto dentro da faixa de duas

unidades, isso é o valor verdadeiro provavelmente se encontra na faixa de 104 ± 2, então

um novo composto foi, provavelmente, sintetizado. Entretanto, se as novas medidas

mostrarem que o erro experimental é maior, talvez 10 unidades, (104 ± 10), então o valor

real provavelmente é menor que 100 e para se caracterizar um novo composto ainda serão

necessárias muitas análises adicionais.

Em outras palavras, pode-se dizer que um conhecimento dos erros experimentais é

crucial para a interpretação inequívoca dos resultados.

Page 8: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

8

Tipos de erros

Um analista trabalhando em sua rotina diária, em um laboratório de química está,

normalmente, sujeito a três tipos de erros. Esses erros podem ser classificados como:

grosseiros, aleatórios

e sistemáticos.

Erros grosseiros são facilmente reconhecidos. Eles são erros tão sérios que não

deixam alternativas a não ser refazer todo o experimento. Exemplos incluem a quebra do

equipamento, contaminação de reagentes, erros na adição de alíquotas, etc.

Nesse curso serão discutidos apenas os erros aleatórios e sistemáticos. Para

definirmos esses tipos de erros, analisaremos o seguinte exemplo: quatro estagiários (A-D)

estão fazendo um teste para efetivação em um laboratório de análises. Para isto, eles

fizeram, cada um, uma análise na qual uma solução padrão contendo exatamente 10,00 mL

de NaOH exatamente 0,1 mol L-1

é titulado com HCl exatamente 0,1 mol L-1

. Cada

candidato executou cinco titulações repetidas. Os resultados são mostrados na Tabela 1.

Tabela 1. Erros sistemáticos e aleatórios.

Candidato Resultado (mL) Candidato Resultado (mL)

A

10,08 10,19

10,11 9,79

10,09 C 9,69

10,10 10,05

10,12 9,78

B

9,88 10,04

10,14 D 9,98

10,02 10,02

9,8 9,97

10,21 10,04

Também são chamados de erros indeterminados.

Page 9: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

9

Os resultados obtidos pelo candidato A apresentam duas características importantes.

Primeiro, eles são todos muito próximos, todos estão entre 10,08 e 10,12 mL. Pode-se dizer

que esses resultados são muito reprodutíveis. A segunda característica é que todos eles são

muito altos. Nesse experimento (de qualquer forma pouco usual), sabe-se a resposta certa

com antecedência, ou seja, 10,00 mL. É evidente que dois tipos distintos de erros ocorreram

com as titulações desse estudante. Primeiro, existem erros aleatórios – que fazem com que

cada resultado individual esteja ao redor do valor médio (10,10 mL).

Os estatísticos dizem que erros aleatórios afetam a precisão ou a reprodutibilidade

de um experimento. No caso do candidato A é claro que os erros aleatórios são pequenos,

assim se diz que os resultados são precisos. Também existem erros sistemáticos, que fazem

com que todos os valores determinados sejam acima do valor real.

Erros sistemáticos também são conhecidos como bias, que afetam a exatidão, isso é,

a proximidade do valor real.

Em muitos experimentos, os erros aleatórios e sistemáticos não são tão facilmente

distinguíveis pelos resultados, eles podem ter origens muito diferentes em termos de

técnicas experimentais e equipamentos.

O candidato B obteve resultados bastante distintos daqueles do A. A média dos

cinco valores (10,01 mL) é muito próxima do valor real, assim se pode caracterizar esse

conjunto de dados como exato, ou seja, sem erros sistemáticos consideráveis. A variação

dos resultados, entretanto, é muito grande, indicando uma pobre precisão e a presença de

erros aleatórios substanciais.

Uma comparação de ambos conjuntos de dados mostra que erros aleatórios e

sistemáticos ocorrem de maneira independente, uns dos outros. Esta conclusão é reforçada

pelos resultados obtidos pelos candidatos C e D. O trabalho do candidato C não é preciso

(intervalo entre 9,69 e 10,19 mL) nem exato (média de 9,90 mL). O candidato D encontrou

ambos, exatidão (média de 10,01 mL) e precisão (intervalo de 9,97 e 10,04 mL). Essas

diferenças estão sintetizadas na Figura 1.

Page 10: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

10

B

C

D

A

10,00 10,309,70

Preciso e inexato

Exato e sem precisão

Sem exatidão e precisão

Exato e preciso

Figura 1. Exatidão e precisão.

Uma observação muito importante é necessária. É preciso notar que, no contexto

desse curso, as palavras precisão e exatidão têm significados completamente diferentes na

teoria de erros.

Por outro lado, elas são muitas vezes utilizadas indiscriminadamente na vida

cotidiana. Além disso, a convenção moderna exige uma distinção cuidadosa dos termos

reprodutibilidade e repetibilidade. A repetibilidade refere-se a experimentos feitos de

maneira consecutiva, em condições de laboratório idênticas e na mesma vidraria. Já

reprodutibilidade refere-se a experimentos feitos em dias diferentes, com outro conjunto de

vidraria e com condições ligeiramente diferentes. Não é surpresa que, no último caso, os

resultados apresentem uma dispersão de valores maior.

Erros aleatórios e sistemáticos em análises titrimétricas

Uma análise titrimétrica pode ser considerada como tendo os seguintes passos:

i. Elaboração de uma solução padrão de um dos reagentes. (pesar, transferir e

dissolver);

ii. Transferir uma alíquota da solução padrão para o frasco de titulação, com

uma pipeta;

iii. Titular o líquido do frasco com uma outra solução, adicionada à bureta.

Page 11: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

11

Mesmo uma análise elementar desse tipo envolve de 7 a 10 passos separados, que

devem ser repetidos várias vezes. Em princípio, deve-se examinar cada passo

separadamente, para determinar os erros sistemáticos e aleatórios envolvidos no processo.

Isso significa avaliar corretamente os erros aceitáveis em procedimentos de pesagem e de

calibração de vidraria volumétrica.

Valores para a tolerância de erros experimentais são publicados por organismos

como a British Standards Institution (BSI) e pela American Society for Testing and

Materials (ASTM).

A tolerância de uma pesagem com o maior grau de precisão, de 100 g, pode ser tão

baixa quanto ± 0,25 mg. Entretanto, para uma pesagem rotineira, ela pode ser até cerca de

quatro vezes maior. Similarmente, uma medida de alto grau de precisão para um volume de

250 mL pode ser de ± 0,12 mL. Se uma balança analítica ou uma vidraria volumétrica

estiver dentro dos limites de tolerância, mas não no valor exato de pesagem ou medida de

volume, um erro sistemático surge na medida. Por exemplo, se um frasco volumétrico

apresentar um volume de 249,95 mL, esse erro terá reflexo nos resultados de todos os

experimentos que o utilizar. A repetição do experimento não revelará o erro, em cada

repetição o volume será assumido como 250 mL quando, de fato, será menor que isso. Se

os resultados desse experimento forem comparados com aqueles obtidos em outros

laboratórios, feitos com outros frascos, então os respectivos erros sistemáticos serão

evidentes.

Procedimentos de pesagem são, normalmente, associados com erros aleatórios

muito pequenos. A utilização de uma balança analítica de quatro casas, comum em

laboratórios de análises, implica em um erro menor que ± 0,0001 - 0,0002 g, ou seja, de

apenas 0,02%.

Erros sistemáticos em pesagens são numerosos e se originam de várias fontes bem

conhecidas. Entre elas, a adsorção de umidade pela amostra, falha em permitir que

recipientes com amostra em altas temperaturas se resfriem completamente, assim como a

influência do empuxo da atmosfera, na pesagem. Esse último efeito pode ser muito

significativo. Por exemplo, Skoog e West mostraram que uma amostra de um líquido

Page 12: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

12

orgânico, com densidade de 0,92 g mL-1

, que pesa 1,2100 g no ar, deveria pesar 1,2114 g

no vácuo, um erro maior que 0,1%.

Para sanar, em parte, esse tipo de erro sistemático, costuma-se efetuar o

procedimento de pesagem pela diferença entre duas massas (do recipiente com amostra

menos a do recipiente vazio), de tal forma que a subtração minimize os erros sistemáticos

inerentes. Com essas precauções sendo seguidas, os erros de pesagem durante o

procedimento de titulação serão, provavelmente, desprezíveis em relação àqueles causados

pela vidraria volumétrica. Assim, métodos gravimétricos são normalmente utilizados para a

calibração da vidraria volumétrica, pesando a água que esta vidraria contém.

Finalmente, uma outra fonte importante de erro em análises volumétricas é aquela

associada ao indicador. Erros do indicador são bastante consideráveis – talvez maiores do

que os erros aleatórios numa análise titrimétrica típica. Por exemplo, na titulação de HCl

0,1 mol L-1

com NaOH 0,1 mol L-1

se espera que o ponto final seja indicado num pH de

7,0. Na prática, entretanto, pode-se, erroneamente, estimar o ponto de virada, usando-se um

indicador como o alaranjado de metila, que muda de coloração na faixa de pH entre três e

quatro. Assim, ao se adicionar base ao ácido, um ponto de virada aparente é encontrado

antes do ponto real. Se, por outro lado, a titulação acima for feita adicionando-se ácido na

base, o ponto de virada será indicado após o seu valor real.

Em quaisquer procedimentos analíticos, clássicos ou instrumentais, é possível

considerar e estimar as fontes de erros aleatórios e sistemáticos, relacionadas com cada

etapa do experimento.

Em muitas análises, o erro total na prática é relacionado com o erro em uma etapa

única: esse ponto será mais bem discutido no decorrer do curso.

Manipulando erros sistemáticos

Uma grande parte do curso será dedicada aos erros aleatórios, que podem ser

estudados com uma grande variedade de métodos estatísticos. Na maioria dos casos dever-

se-á assumir, por conveniência, que os erros sistemáticos estão ausentes (inclusive métodos

de testes de ocorrência de erros sistemáticos serão discutidos). Assim, antes de os

deixarmos de lado, é necessário discutir um pouco sobre os erros sistemáticos.

Page 13: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

13

No exemplo da titulação, discutido anteriormente, mostrou-se que erros sistemáticos

podem fazer que o valor médio se afaste do valor real. Deve-se considerar que, ao contrário

dos erros aleatórios, os erros sistemáticos não podem ser revelados meramente pela

repetição dos experimentos. Além disso, a menos que o resultado real da análise possa ser

conhecido com antecedência (o que é muito raro), erros sistemáticos relativamente muito

grandes podem ocorrer, mas serem completamente não detectados.

Uma classe de erro sistemático muito comum ocorre quando falsas suposições são

aceitas sobre a exatidão dos instrumentos analíticos. Por exemplo, analistas experientes

estão cansados de saber que os monocromadores dos espectrômetros fogem gradualmente

do ajuste e, assim, que erros de vários nanômetros nos comprimentos de onda não são raros.

Entretanto, muitas análises fotométricas são feitas sem que os aparelhos sejam checados

quanto à sua exatidão.

Muitos equipamentos simples como vidrarias volumétricas, cronômetros, pHmetros

e termômetros podem apresentar erros sistemáticos consideráveis, mas muitos analistas

usam regularmente esses instrumentos sem atentar se os mesmos se encontram

perfeitamente exatos.

Os erros sistemáticos não surgem apenas dos equipamentos, mas podem ser de

responsabilidade humana. Alguns experimentalistas podem sofrer de astigmatismo ou de

daltonismo, o que pode introduzir erros nas leituras dos instrumentos de medidas.

Muitos autores relatam uma série de outras bias em relação a números, por exemplo,

uma tendência a favorecer um número par sobre um ímpar, ou os dígitos zero e cinco, no

relatório dos resultados. Assim, isso aparenta que erros sistemáticos são um risco constante,

e muitas vezes ocultos, para os analistas, de forma que se deve tomar cuidado para

minimizá-los.

Muitas maneiras diferentes para solucionar esse problema estão disponíveis e várias

ou todas elas devem ser consideradas em cada procedimento analítico.

Uma linha de defesa importante contra erros sistemáticos é o planejamento

cuidadoso de cada passo do experimento. Já foi visto que pesar por diferenças minimiza

erros gravimétricos sistemáticos. Outro exemplo de planejamento experimental racional é o

das medidas de comprimento de onda pelo espectrômetro.

Page 14: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

14

Se a concentração de uma substância simples deve ser determinada por

espectrometria de absorção, dois procedimentos são possíveis.

No primeiro, a amostra é analisada numa célula de 1,0 cm de caminho ótico, num

comprimento de onda definido, como 400 nm, e a concentração do analito é determinada

pela equação de Lambert-Beer:

lcεA (1)

Onde A é a absorção, o coeficiente de absortividade molar, c a concentração do

analito em solução e l o caminho ótico do feixe de luz.

Alguns erros sistemáticos podem se originar nesse procedimento.

O comprimento de onda pode estar deslocado, devido à falta de exatidão do

monocromador, para 405 nm, por exemplo, e assim o valor de ε utilizado é inadequado; o

valor de ε pode ser aproximado; a escala de absorbância do espectrômetro pode estar

deslocada; o caminho ótico da célula pode não ser exatamente 1,0 cm.

Alternativamente, o analista pode tomar uma série de soluções da substância teste,

de concentrações conhecidas, e medir a absorbância de cada uma em 400 nm (uma dessas

soluções de calibração deve ser um branco). Os resultados devem então ser utilizados para

construir uma curva de calibração, para ser utilizada na medida da solução teste,

exatamente nas mesmas condições experimentais. Esse procedimento muito importante,

para a análise instrumental, será detalhado durante o curso.

Quando esse segundo procedimento é utilizado, não se necessita do valor de ε, e os

erros devidos aos desvios no comprimento de onda, erros de absorbância e de caminho

ótico podem ser cancelados. A proteção mais eficiente contra erros sistemáticos consiste no

emprego de materiais e metodologia padrões de referência para a calibração prévia do

equipamento a ser utilizado. Antes de o experimento começar, cada parte do aparato

experimental é calibrado com um procedimento apropriado.

Page 15: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

15

Apesar de se ter diferenciado cuidadosamente os erros sistemáticos dos erros

aleatórios, é aparente que, nas medidas analíticas cotidianas, esta diferenciação pode ser, de

certa maneira, nebulosa.

Sempre que um procedimento ou instrumento é checado para a presença de erros

sistemáticos, os próprios procedimentos de checagem podem ser sujeitos a erros aleatórios

e, assim, os erros sistemáticos podem não ser perfeitamente identificados e / ou corrigidos.

Essa combinação de erros tornou-se conhecida na literatura moderna como as incertezas

dos resultados analíticos.

Tem-se um complicado conceito para tratar; apesar de erros aleatórios terem uma

distribuição conhecida e de se combinarem numa maneira previsível num experimento de

múltiplos passos, o mesmo não é válido para os erros sistemáticos. Assim, dar uma

estimativa quantitativa para a incerteza total de um resultado está longe de ser uma tarefa

simples. Apesar desse problema, a importância do conceito de incerteza é clara, e justifica o

esforço que será desenvolvido durante o curso.

Page 16: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

16

CAPÍTULO 2

ERROS EM ANÁLISES CLÁSSICAS

Média e desvio padrão

No capítulo anterior discutiram-se os vários tipos de erros, que foram ilustrados pela

análise dos resultados obtidos em cinco experimentos de titulação, feitos por quatro

estagiários (Tabela 1).

Dois critérios foram utilizados, para se fazer uma análise comparativa desses

resultados, o valor médio e o grau de dispersão. O valor médio utilizado era a média

aritmética, x , que é normalmente abreviado para média, a soma de todos os valores obtidos

dividida pelo número de medidas.

n

X

Xj

j

(2)

A definição mais útil para a dispersão dos dados experimentais é o desvio padrão, s.

Ele é definido pela equação:

1

2

n

XX

s ij

(3)

Para os estagiários A, B, C e D (Tabela 1) o cálculo do desvio padrão de suas

respectivas medidas fornece um suporte quantitativo para o que foi discutido no capítulo

anterior. Os desvios padrões obtidos pelos alunos estão na Tabela 2.

Muitas calculadoras ou computadores podem calcular dois valores diferentes para o

desvio padrão, um calculado com a equação acima e outro usando n, no lugar de (n - 1) no

denominador desta equação. A razão para essas duas formas diferentes será discutida a

Page 17: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

17

seguir. Obviamente, para grandes valores de n, a diferença é desprezível. O cuidado a se

tem que tomar é que, muitas vezes, as calculadoras arredondam os números de tal forma

que valores incorretos (até zero) podem ser encontrados.

O quadrado de s é uma grandeza estatística muito importante, chamada variância.

Sua importância será mais bem compreendida quando se discutir a propagação de erros.

Também freqüentemente utilizado é o conceito de coeficiente de variação (CV), também

conhecido como desvio padrão relativo (RSD), que é dado por:

X

sRSD

100

(4)

O RSD, cuja unidade é, obviamente, porcentagem, é um exemplo de erro relativo,

isso é, um erro estimado dividido por uma estimativa do valor absoluto da quantidade

medida. Erros relativos são freqüentemente usados na comparação da precisão de

resultados que têm diferentes unidades ou magnitudes, e são também importantes no estudo

da propagação de erros.

Tabela 2. Valores de desvio padrão obtidos pelos estagiários A, B, C e D (do exemplo).

Estudante Valor de s obtido

A 0,016

B 0,17

C 0,21

D 0,033

Distribuição de erros

O desvio padrão é uma medida da dispersão de um conjunto de resultados em torno

de um valor médio, entretanto, ele não indica a maneira como os valores estão distribuídos.

Para ilustrar esta distribuição, necessita-se de um número bem maior de medidas, como

aquele mostrado na Tabela 3. Esses resultados são referentes a 50 repetições de determinações

voltamétricas de dopamina em uma amostra particular, dados com dois algarismos

significativos. Os valores podem ser agrupados, como mostrado na

Tabela 4.

Page 18: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

18

Tabela 3. Resultados de 50 determinações da concentração dopamina (μg L-1

)

0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,53 0,50 0,47

0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,49 0,50

0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,49 0,51 0,47

0,51 0,51 0,51 0,48 0,50 0,47 0,50 0,51 0,49 0,48

0,51 0,50 0,50 0,49 0,52 0,52 0,50 0,50 0,51 0,51

Tabela 4. Freqüência das medidas da concentração de dopamina

Concentração dopamina

(μg L-1

) Freqüência

0,46 1

0,47 3

0,48 5

0,49 10

0,50 10

0,51 13

0,52 5

0,53 3

A

Tabela 4 mostra que, na Tabela 3, o valor 0,46 µg L-1

aparece apenas uma vez, o

valor 0,47 µg L-1

aparece três vezes e assim adiante. O valor mais comum nestas

determinações é o 0,51 µg L-1

. Com estes resultados, pode-se calcular o valor médio deste

conjunto como sendo 0,500 µg L-1

e o desvio padrão como 0,0165 µg L-1

. A esses valores

foram atribuídos, de maneira arbitrária, três algarismos significativos. Uma discussão sobre

esse importante aspecto da apresentação dos resultados será feita posteriormente. A

distribuição desses resultados pode ser mais bem percebida, colocando-os em um

histograma, como mostrado na Figura 2.

Page 19: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

19

0,46 0,47 0,48 0,49 0,50 0,51 0,52 0,53

0

2

4

6

8

10

12

14

freq

üên

cia

valores medidos

Figura 2. Histograma das medidas de concentração da dopamina.

É evidente que a distribuição dos valores medidos é, a grosso modo, simétrica em

relação à média, com os valores se agrupando na região central. Esse conjunto de 50

medidas é uma amostra de um número muito grande (teoricamente infinito) de medidas da

dopamina que podem ser feitas. O conjunto de medidas possíveis é chamado de população.

Se não houver erros sistemáticos, a média desta população, chamada de μ, é o valor

real da concentração de dopamina, na matriz de onde a amostra foi retirada. A média, x , da

amostra, dá uma estimativa de μ. Da mesma maneira, a população tem um desvio padrão,

denotado por σ. O valor do desvio padrão da amostra, s, dá uma estimativa de σ. O uso da

equação:

1

2

n

XX

s ij (5)

Page 20: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

20

Fornece uma estimativa, sem erros sistemáticos, de σ. Se n for usado no

denominador, no lugar de (n - 1), o valor de s encontrado tende a superestimar o valor de σ.

As medidas de concentração de dopamina dadas na

Tabela 4 tem apenas certos valores discretos, devido às limitações no método de

análise. Na teoria, a concentração pode assumir qualquer valor, assim para descrever a

forma da população da qual a amostra foi tomada, uma curva contínua é necessária. O

modelo matemático usualmente utilizado é a distribuição normal ou gaussiana, que é

descrito pela equação:

2

2exp

2

2

x

y (6)

E sua forma é mostrada na Figura 3.

x

y

Figura 3. A distribuição normal. A média é indicada por μ.

A curva é simétrica em relação ao valor de µ, e quanto maior o valor de s, maior a

largura da curva (maior dispersão dos pontos), como mostrado na Figura 4.

Page 21: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

21

x

y

s =

s = 2

1 >

2

Figura 4. Distribuições normais com o mesmo valor de média (μ), mas com valores diferentes

de desvio padrão (σ).

Uma análise mais detalhada mostra que, sejam quais forem os valores de µ e de s,

aproximadamente 68% da população situa-se entre ± 1 s da média, aproximadamente 95%

está entre ± 2 s e que aproximadamente 99,7% situa-se entre ± 3 s da média.

Isso significa que, se as concentrações de dopamina dadas na

Tabela 4 forem seguir uma distribuição normal, 33 dos 50 resultados (66%) estarão

entre 0,483 e 0,517, 49 (98%) estarão entre 0,467 e 0,533 e todos os resultados estarão

entre 0,450 e 0,550, mostrando uma excelente concordância com o modelo teórico.

A distribuição normal não é aplicada apenas a repetições de medidas da mesma

espécie. Ela também é freqüentemente utilizada para resultados obtidos quando a mesma

espécie é medida em materiais diferentes, de fontes similares. Por exemplo, ao se medir a

concentração de albumina no soro sanguíneo de humanos adultos e saudáveis; será

encontrado que os resultados seguem, aproximadamente, uma distribuição normal.

Entretanto, nesse segundo tipo de população, i.e., em uma única medida de cada um de uma

Page 22: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

22

espécie, outras distribuições são comuns. Em particular, a assim chamada distribuição

normal logarítmica. Nessa distribuição, os logaritmos das concentrações (ou de outras

características), quando graficados em função da freqüência dá uma curva de distribuição

normal.

Neste capítulo, foi introduzida a palavra “amostra”, usada no sentido estatístico de

um grupo de objetos selecionados a partir de uma população de todos os objetos. Por

exemplo: uma amostra de 50 medidas de concentração de dopamina da população (infinita)

de todas as medidas possíveis, ou a amostra de humanos adultos saudáveis escolhidos de

toda a população para ter a concentração de albumina avaliada no soro do sangue.

A distribuição de médias amostradas

Já foi visto que a média de valores de uma amostra de medidas ( x ) fornece uma

estimativa do valor real, μ, da quantidade que se está tentando medir. Entretanto, como as

medidas individuais estão distribuídas em torno do valor real com certa dispersão, que

depende da precisão, é pouco provável que a média da amostra seja, exatamente, igual ao

valor real. Por esta razão, é mais útil estabelecer um intervalo de valores no qual nós

estamos quase certos de que se encontra o valor real. A amplitude desse intervalo depende

de dois fatores:

O primeiro é a precisão das medidas individuais, que, por sua vez, depende

da variância da população.

O segundo é o número de medidas na amostra.

O simples fato de que se repetiram as medidas implica em que se tem mais

confiança na média de vários valores do que nos valores individuais. Muitas pessoas

pensam que, quanto mais valores se têm, mais confiável é a estimativa de μ. Para explorar

esses conceitos, é necessário voltar nas medidas de concentração de dopamina. Na prática,

é muito pouco usual fazer 50 medidas repetidas. Um número de medidas mais comum é

cinco e será mostrado como as médias de amostras desse tamanho estão espalhadas em

torno de µ, tratando os resultados da Tabela 3 como dez amostras, cada uma contendo cinco

resultados.

Page 23: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

23

Tomando cada coluna como uma amostra, os valores das médias serão: 0,506;

0,504; 0,502; 0,496; 0,502; 0,492; 0,506; 0,504; 0,500 e 0,486. É óbvio que esses valores

de média estão menos dispersos que os valores originais. Como as medidas originais são

uma amostra de uma população infinita de medidas possíveis esses valores de médias são

uma amostra das médias possíveis de amostras de cinco medidas tiradas de toda a

população. A distribuição desses valores de média é chamada de “distribuição de médias

amostradas”. O desvio padrão dessa amostra de médias é chamado de “erro padrão da

média” (s.e.m. – standard error of the mean).

Há uma relação matemática exata entre o desvio padrão, σ, da distribuição das

medidas individuais, e o s.e.m:

n

σs.e.m.

(7)

Como era intuitivamente esperado, quanto maior o n, menor a dispersão das médias

amostradas em relação ao μ. Esse termo universalmente utilizado, erro padrão da média,

pode dar origem a uma falsa interpretação, ao se pensar que N

possa estar relacionado

com a diferença entre 0 e µ. Isso não é assim, N

dá uma medida da incerteza envolvida

ao se estimar µ a partir de x , como será visto adiante.

Uma outra propriedade da distribuição das médias amostradas é que, mesmo se a

população original não for normal, a distribuição das médias amostradas tende a ser uma

distribuição normal quando n aumenta. Esse resultado é conhecido como o teorema do

limite central, de elevada importância porque muitos testes estatísticos são feitos na média e

assumem uma distribuição normal.

Limites de confiança da média

Agora que se conhece a forma da distribuição das médias amostradas, pode-se

retornar ao problema de se usar uma amostra para definir um intervalo dentro do qual se

pode razoavelmente assumir que contenha o valor real (é bom que ao se fazer isso, assume-

se a ausência de qualquer erro sistemático). Tal intervalo é conhecido como intervalo de

Page 24: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

24

confiança e os valores extremos desse limite são conhecidos como limites de confiança. O

termo “confiança” implica que se pode assegurar com um certo grau de confiança, i.e. com

certa probabilidade, que o intervalo de confiança inclui o valor real.

O tamanho do intervalo de confiança depende, obviamente, em quão certo que se

quer que ele inclua o valor real. Quanto maior a certeza, maior o intervalo requerido. A

Figura 5 mostra uma distribuição de médias amostradas para amostra de tamanho n.

N

96,1

N

96,1

x

y

95%

Figura 5. A distribuição amostral da média, mostrando a variação dentro de 95%.

Assumindo, de agora em diante, esta distribuição normal, então 95% da amostragem

de médias estará no intervalo dado por:

nx

n

96,196,1

(8)

(O valor exato 1,96 é usado nessa equação no lugar do valor dois, freqüentemente

utilizado).

Na prática, entretanto, usualmente se tem uma amostra de média conhecida, e se

quer um intervalo para µ, o valor real. Assim, a equação acima pode ser rearranjada para:

nx

nx

96,196,1

(9)

Essas equações dão um limite de confiança de 95%. Similarmente, se for requerido

um limite de 99,7%, tem-se:

Page 25: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

25

nx

nx

97,297,2 (10)

Ainda, um intervalo comumente usado é o de 99%, que é dado por:

nx

nx

58,258,2 (11)

A equação inicial pode ser usada para calcular a concentração dos íons nitrato com

um limite de confiança de 95%. Tem-se 0 = 0,500 e n = 50. A única grandeza na equação,

que não se conhece é s. Para amostras grandes, como esta, s dá uma estimativa

suficientemente precisa de s e pode substituí-lo. Assim, para um intervalo de confiança de

95% para a concentração de íons nitrato é:

50

0165,096,1500,0

50

0165,096,1500,0

(12)

Resultando num limite de confiança de μ = 0,500 ± 0,0046 μg mL-1

.

Quando o tamanho da amostra se torna menor, a incerteza introduzida ao se usar s

para estimar σ aumenta. Para considerar esse fato, a equação usada para calcular os limites

de confiança é modificada para:

n

stx

(13)

O valor apropriado de t depende tanto de (n - 1), que é conhecido como número de

graus de liberdade (usualmente abreviado por υ) e do grau de confiança requerida.

O termo “graus de liberdade” refere-se ao número de desvios independentes (xi - 0)

que é usado para calcular s. Nesse caso, o número é (n - 1) porque quando (n - 1) desvios

são conhecidos, o último pode ser deduzido usando a expressão óbvia:

Page 26: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

26

i

i xx 0)( (14)

Os valores de t são dados na Tabela 5.

Tabela 5. Valores de t para intervalos de confiança 95 e 99%.

Graus de liberdade Valores de t no intervalo de confiança

95% 99%

1 12,71 63,66

2 4,30 9,92

3 3,18 5,84

4 2,78 4,60

5 2,57 4,03

10 2,23 3,17

20 2,09 2,85

30 2,04 2,75

50 2,01 2,68

100 1,98 2,63

Pode ser visto que para tamanhos de amostras maiores que 50, os valores de t são

muito próximos aos valores 1,96 e 2,58, usados nas equações acima. Isso confirma a

proposição usada para calcular os limites de confiança para a concentração de nitrato. O

uso dos dados dessa tabela pode ser ilustrado por meio de um exemplo: o conteúdo de íons

sódio de uma espécie de urina foi determinada usando um eletrodo íon-seletivo. Os

seguintes valores foram obtidos: 102, 97, 99, 98, 101 e 106 mmol L-1

. Quais são os limites

de confiança para 95% e 99% de confiança da concentração dos íons sódio? A média e o

desvio padrão desses valores são 100,5 mmol L-1

e 3,27 mmol L-1

, respectivamente. Há seis

medidas e, portanto, cinco graus de liberdade. A partir da Tabela 5, o valor de t para

calcular o limite de confiança a 95% é 2,57 e a partir da equação:

n

stx

(15)

O limite de confiança para 95% é μ = 100,5 ± 3,4 mmol L-1

. Similarmente, para

99% de confiança: μ = 100,5 ± 5,4 mmol L-1

.

Page 27: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

27

Apresentação dos resultados

Como já foi comentado, nenhum resultado quantitativo experimental é de qualquer

valor, a menos que seja acompanhado por uma estimativa dos erros envolvidos na sua

medida.

Uma prática comum na literatura da química analítica é cotar a média como a

estimativa da quantidade medida e o desvio padrão como uma estimativa da precisão.

Menos freqüentemente, o erro padrão da média é, às vezes, cotado, no lugar do desvio

padrão, ou o resultado é dado na forma de limites de confiança da média de 95%.

Um aspecto relacionado da apresentação de resultados é o arredondamento do

resultado. O princípio importante aqui é que o número de algarismos significativos dá

indicação da precisão do experimento. É um absurdo, por exemplo, dar o resultado de uma

análise titrimétrica como sendo 0,107846 mol L-1

. Nenhum analista pode encontrar a

precisão implícita de 0,00001 em aproximadamente 0,1, isso é 0,001%. Na prática, é usual

contar como algarismos significativos todos os dígitos que são precisos, mais o primeiro

incerto. Por exemplo, a média dos valores 10,09; 10,11; 10,09 e 10,12; que é 10,102 e o

desvio padrão é 0,01304. Claramente é uma incerteza na segunda casa decimal; os

resultados são todos 10,1 mais uma casa decimal, mas são discordantes na segunda casa.

Usando o método sugerido, o resultado deve ser cotado como:

)5(01,010,10 nx (16)

Se for observado um arredondamento inaceitável do desvio padrão, então o

resultado pode ser dado como:

)5(01,010,10 32 nsx (17)

Onde o uso do subscrito indica que o digito dado é apenas para evitar a perda da

informação. O leitor deve decidir se ele é útil ou não. Da mesma maneira, quando os limites

de confiança são calculados, não há razão para dar o valor de N

st com mais de duas

Page 28: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

28

casas significativas. O valor de x deve ser dado com o número correspondente de casas

decimais.

O número de algarismos significativos cotados é, algumas vezes, utilizado no lugar

de uma estimativa específica da precisão de um resultado. Por exemplo, 0,1046 mol L-1

é

usado para significar que os algarismos nas três primeiras casas decimais são seguros, mas

há dúvidas sobre o quarto. Entretanto, como a incerteza na última casa pode ser qualquer

coisa entre 0,00005 e 0,0005, esse método dá uma estimativa pobre da precisão e não pode

ser recomendado.

Algumas vezes a incerteza na última casa é enfatizada pela utilização das formas

0,1046 ou 0,1046 mol L-1

, mas continua preferível dar uma estimativa específica da

precisão, como o desvio padrão.

Outro problema a ser considerado é se o número cinco deve ser arredondado para

cima ou para baixo. Por exemplo, se 9,65 deve ser arredondado para uma casa decimal, ele

se torna 9,7 ou 9,6? É evidente que os resultados serão supervalorizados se o cinco for

sempre arredondado para cima. Essa supervalorização pode ser evitada arredondando o

cinco para o número par mais próximo, dando, nesse caso 9,6. De maneira análoga, 4,75

deve ser arredondado para 4,8.

Outros usos dos limites de confiança

Os limites de confiança podem ser utilizados como um teste para erros sistemáticos,

como mostrados no exemplo seguinte:

A escala de absorbância de um espectrômetro é testada num comprimento de onda

particular com uma solução padrão que tem uma absorbância dada como 0,470. Dez

medidas de absorbância com o espectrômetro resultaram em média = 0,461 e s = 0,003.

Encontra-se o intervalo de confiança a 95% para a absorbância média e decide-se se um

erro sistemático está presente. Os limites de confiança a 95% para as medidas de

absorbância são dados por:

Page 29: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

29

n

stx

(18)

Cujo valor final é 0,461 ± 0,002. (O valor de t foi obtido da Tabela 6, mais completa

que aquela discutida anteriormente).

Tabela 6. A distribuição t.

Valor de confiança de t para: 90% 95% 98% 99%

Valores de P: 0,10 0,05 0,02 0,01

1 6,31 12,71 31,82 63,66

2 2,92 4,30 6,96 9,92

3 2,35 3,18 4,54 5,84

4 2,13 2,78 3,75 4,60

5 2,02 2,57 3,36 4,03

6 1,94 2,45 3,14 3,71

7 1,89 2,36 3,00 3,50

8 1,86 2,31 2,90 3,36

9 1,83 2,26 2,82 3,25

10 1,81 2,23 2,76 3,17

12 1,78 2,18 2,68 3,05

14 1,76 2,14 2,62 2,98

16 1,75 2,12 2,58 2,92

18 1,73 2,10 2,55 2,88

20 1,72 2,09 2,53 2,85

30 1,70 2,04 2,46 2,75

50 1,68 2,01 2,40 2,68

Infinito 1,64 1,96 2,33 2,58

Como esse intervalo de confiança não inclui a absorbância conhecida de 0,470, deve

haver um erro sistemático envolvido.

Propagação de erros aleatórios

No trabalho experimental, a quantidade a ser determinada é, freqüentemente,

calculada a partir de uma combinação de quantidades observadas. Já foi visto, por exemplo,

que mesmo uma operação relativamente simples, como a análise titrimétrica, envolve

muitos passos, cada um sujeito aos seus próprios erros. O cálculo final pode envolver uma

Page 30: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

30

operação de soma, diferença, produto ou quociente de duas ou mais quantidades ou a

elevação de uma quantidade medida a qualquer potência. É muito importante observar que

os procedimentos para combinar erros aleatórios e sistemáticos são completamente

diferentes. Isso ocorre, porque erros aleatórios, num certo grau, cancelam-se uns aos outros,

enquanto que erros sistemáticos acumulam-se. Supõe-se, por exemplo, que o resultado final

de um experimento, x, é dado por x = a + b. Se a e b tiverem, cada um, um erro sistemático

de + 1, é claro que o erro sistemático em x será + 2. Se, entretanto, a e b tiverem um erro

randômico de ± 1, o erro randômico em x não será ± 2. Isso porque, em alguns casos, o erro

em a será negativo enquanto que o erro em b será positivo e vice-versa.

Combinações lineares

Nesse caso, o valor final, y, é calculado a partir de uma combinação linear das

quantidades medidas a, b, c, etc. por:

... ckbkakky cba (19)

Onde ki são constantes.

A variância (definida como o quadrado do desvio padrão) apresenta uma importante

propriedade, ou seja, a variância de uma soma ou diferença de quantidades independentes é

igual à soma de suas variâncias. Pode-se mostrar que, se σa, σb, σc, etc. são os desvios

padrões de a, b, c, etc., o desvio padrão de y, σy, é dado por:

...)()()( 222 aabbaay kkk (20)

Exemplo: numa titulação a leitura inicial da bureta é 3,51 mL e a leitura final é

15,67 mL, ambos com um desvio padrão de 0,02 mL. Qual é o volume do titulante e qual é

o seu desvio padrão? Volume utilizado = 15,67 - 3,51 = 12,16 mL. O desvio padrão igual a

0,028 mL.

Page 31: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

31

Esse exemplo ilustra o ponto muito importante de que o desvio padrão para o

resultado final é maior do que aqueles para as leituras individuais da bureta, mesmo quando

o volume é calculado por uma diferença, mas é menor que a soma dos desvios padrões.

Expressões multiplicativas

Se y é calculado de uma expressão do tipo:

cd

kaby (21)

Onde a, b, c e d são quantidades medidas independentes e k uma constante, então há

uma relação entre os quadrados dos desvios padrões relativo:

...

222

cbay

cbay (22)

Exemplo: o rendimento quântico de fluorescência, Φ, é calculado a partir da

equação:

0Ilck

I f (23)

Onde as grandezas envolvidas são definidas abaixo, juntamente com uma estimativa

dos seus desvios padrões relativos (sendo k uma constante do aparelho):

Intensidade de luz incidente (I0) = 0,5%;

Intensidade de fluorescência (If) = 2%;

Absortividade molar (ε) = 1%;

Concentração (c) = 0,2%;

Page 32: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

32

Caminho óptico (l) = 0,2%.

O desvio padrão de Φ é dado por:

%3,233,5

04,004,01425,0

)2,0()2,0()1()2()5,0( 22222

RSD

RSD

Pode-se observar que o desvio padrão relativo no resultado final não é muito maior

que o maior dos desvios padrões utilizados no cálculo (isso é, 2% para If). Isso é uma

conseqüência maior da elevação ao quadrado dos desvios padrões relativo e ilustra um

ponto importante: qualquer esforço para melhorar a precisão do experimento deve ser

direcionado para a melhoria da precisão dos valores menos precisos. Como um corolário

para isso, não há qualquer vantagem em tentar aumentar a precisão dos valores mais

precisos. Isso não deve ser encarado como se erros pequenos não sejam importantes.

Pequenos erros em muitos passos da análise, como a análise titrimétrica discutida

anteriormente, produzirão um erro apreciável no resultado final.

É importante ressaltar que, quando uma quantidade é elevada a uma potência, por

exemplo, b3, então o erro não é calculado como uma multiplicação, isso é, bbb, porque

as quantidades não são independentes. Se a equação for:

nby (24)

Então, o desvio padrão de y e b são relacionados por:

b

n

y

by (25)

Outras funções

Se y for uma função geral de x:

)(xfy (26)

Page 33: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

33

Então o desvio padrão de x e de y são relacionados por:

dx

dyxy (27)

Exemplo: a absorbância A, de uma solução é dada por:

TA log (28)

Onde T é a transmitância. Se o valor medido de T é 0,501, com um desvio padrão

de 0,001, calcule o seu desvio padrão. Tem-se:

300,0501,0log A

E também:

TT

e

dT

dA 434,0)(log

Assim, da equação (27) acima:

70008,0501,0

0434,001,0

log

T

eTA

Propagação de erros sistemáticos

As normas para combinação de erros sistemáticos também podem ser divididas em

três grupos.

Page 34: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

34

Combinações lineares

Se y é calculado para as quantidades medidas com o uso da equação:

... ckbkakky cba (29)

E os erros sistemáticos em a, b, e, etc., são Δa, Δb e Δc, etc., então o erro

sistemático em y, Δy, é calculado a partir de:

... ckbkakky cba (30)

É importante lembrar que os erros sistemáticos podem ser tanto positivos quanto

negativos e que esses sinais devem ser incluídos no cálculo de Δy.

Expressões multiplicativas

Se y é calculado, a partir de quantidades medidas, com a equação:

cd

kaby (31)

Então o erro sistemático relativo é:

dcbay

y dcba

(32)

Quando uma quantidade é elevada a alguma potência, então a equação:

b

n

y

by

(33)

Page 35: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

35

É usada sem o módulo e com os desvios padrões substituídos pelos erros

sistemáticos.

Page 36: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

36

CAPÍTULO 3

TESTES DE SIGNIFICÂNCIA

Umas das propriedades mais importantes de um método analítico é que ele deve ser

isento de erros sistemáticos, isso é, o valor calculado pelo método deve ser o valor real.

Entretanto, erros aleatórios fazem com que o valor medido raramente seja exatamente igual

ao valor real. Para decidir se a diferença entre o valor medido e o valor padrão pode ser

atribuída a esses erros aleatórios, um teste estatístico, conhecido como teste de

significância, pode ser empregado.

Comparação entre uma média experimental e um valor conhecido

Ao se fazer um teste de significância, está se testando a validade de uma hipótese

conhecida como hipótese nula. Por exemplo: anteriormente adotou-se uma hipótese nula de

que um método analítico não deve conter erros sistemáticos. O termo nulo é utilizado para

significar que não há qualquer outra diferença entre o valor observado e conhecido, a não

ser aquela atribuída a erros aleatórios. Assumindo a validade dessa hipótese, uma teoria

estatística pode ser usada para calcular a probabilidade de que a diferença observada entre a

média da amostra, x , e o valor verdadeiro, µ, seja originada apenas de erros aleatórios.

Usualmente, a hipótese nula é rejeitada se a probabilidade de tal diferença for menor que

uma em 20 (ou seja, 0,05 ou 5%). Nesse caso, a diferença é dita significante no nível de

0,05 (ou 5%).

Usando esse nível de significância, há uma probabilidade de uma em 20 de que

tenhamos que rejeitar uma em 20 a hipótese nula, quando de fato ela é verdadeira. Para se

ter maior certeza de se fazer a escolha correta, um nível mais elevado de significância deve

ser usado, usualmente 0,01 ou 0,001 (1% ou 0,1%).

Page 37: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

37

O nível de significância é indicado por P (isso é, probabilidade) = 0,05 e 0,05, e dá a

probabilidade de se rejeitar uma hipótese nula verdadeira. Deve-se ressaltar que, se a

hipótese nula é mantida, não foi provado que ela seja verdadeira, apenas não se demonstrou

que ela seja falsa.

Adiante será discutida a probabilidade de se manter uma hipótese nula falsa.

Para se decidir quando a diferença entre µ e x é significante, a equação:

n

stx

(34)

É reescrita como:

s

nxt )( (35)

E um valor de t é calculado. Se |t| exceder um certo valor crítico, então a hipótese

nula deverá ser rejeitada. O valor crítico de |t| para um nível de significância particular é

encontrado na Tabela 6.

Exemplo: em um método para determinar mercúrio por absorção atômica os

seguintes valores foram encontrados para um material de referência contendo 38,9% de

mercúrio: 38,9%, 37,4% e 37,1%. Há alguma evidência de erro sistemático?

A média desses valores é 37,8% e o desvio padrão é 0,964%. Adotando a hipótese

nula que não há erro sistemático, isso é, µ = 38,9% e usando a equação acima, tem-se:

98,1964,0

3)9,388,37( t

Da Tabela 6, para dois graus de liberdade, o valor crítico de t é 4,3 (P = 0,05).

Page 38: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

38

Como se observou um valor muito menor de |t|, a hipótese nula é mantida, não há

evidência de erro sistemático. Repare, novamente, que isso não significa que não haja erro

sistemático, apenas não se provou que há.

Comparação das médias de duas amostras

Uma outra maneira na qual os resultados de uma nova metodologia analítica podem

ser testados é pela comparação com aqueles obtidos usando uma segunda metodologia

(talvez uma metodologia de referência). Nesse caso, têm-se duas médias amostrais, 1x e 2x .

Tomando a hipótese nula, de que os dois métodos dão o mesmo resultado, será preciso

testar se )( 21 xx é significativamente diferente de zero ou não.

Se as duas amostras têm desvios padrões que não são significativamente diferentes,

uma estimativa associada do desvio padrão pode ser calculada a partir de dois desvios

padrões s1 e s2, usando a equação:

)2(

)1()1(

21

2

22

2

112

nn

snsns (36)

Pode-se então mostrar que t será dado por:

21

21

11

)(

nns

xxt

(37)

Onde t tem n1 + n2 graus de liberdade. Exemplo: numa comparação entre dois

métodos para a determinação de boro em amostras de plantas, os seguintes resultados foram

obtidos em μg mL-1

(Tabela 7).

Tabela 7. Resultados de dois métodos na determinação de boro (do exemplo).

Método espectrofotométrico Método fluorimétrico

Média 28,0 Média 26,25

Desvio padrão 0,3 Desvio padrão 0,23

Page 39: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

39

Dez determinações foram feitas para cada método. A hipótese nula adotada é que as

médias obtidas pelos dois métodos são iguais. Da equação anterior, o valor combinado de

desvios padrões é dado por:

267,018

)23,093,09( 222

ss

Da equação de t:

7,14

10

1

10

1267,0

)25,260,28(

tt

Existem 18 graus de liberdade, assim, da Tabela 6, o valor crítico de |t| (P = 0,05) é

2,1. Como o valor experimental de |t| é maior do que esse valor, a diferença entre os dois

resultados é significante no nível de cinco e a hipótese nula é rejeitada. De fato, como o

valor crítico de |t| para P = 0,001 é cerca de 3,9, a diferença é significante mesmo no nível

de 0,1%. Em outras palavras, se a hipótese nula for verdadeira, a probabilidade de tão

grande diferença surgir por acaso é menor que um em 1000.

Outra aplicação para esse teste é ilustrada no próximo exemplo, onde ele é usado

para decidir se uma mudança nas condições experimentais afeta o resultado. Exemplo:

numa série de experimentos para a determinação de estanho em comidas enlatadas, as

amostras eram fervidas com ácido hidro clorídrico sob refluxo por tempos diferentes.

Alguns resultados são apresentados na Tabela 8:

Tabela 8. Resultados finais na determinação de estanho em diferentes tempos de refluxo (do

exemplo).

Tempo de refluxo (min) Estanho (mg kg-1

)

30 55 57 59 56 56 59

75 57 55 58 59 59 59

Page 40: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

40

As médias encontradas de estanho diferem significativamente com o tempo de

fervura? As médias e variâncias (desvios padrões elevado ao quadrado) para os dois tempos

estão na Tabela 9:

Tabela 9. Médias e variâncias de dois métodos na determinação de estanho em diferentes

tempos de refluxo (do exemplo).

Tempo (min) x s2

30 57,00 2,80

75 57,83 2,57

A hipótese nula adotada é que o tempo de ebulição não tem efeito na quantidade

determinada de estanho. O valor combinado para a variância é dado por:

64,110

57,2580,252

ss

Assim, t é calculado da equação conhecida:

88,0

6

1

6

164,1

83,5700,57

tt

Há 10 graus de liberdade e, assim, o valor crítico de |t| é 2,23 (P = 0,05). O valor

observado de |t| é menor que o valor crítico, assim a hipótese nula é mantida. Não há

evidências de que o tempo de fervura afete a taxa de recuperação.

Se o postulado da igualdade dos desvios padrões das populações não for verdadeiro,

é preciso modificar a equação de t para:

2

2

2

1

2

1

21 )(

n

s

n

s

xxt

(38)

Page 41: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

41

E calcular o nº de graus de liberdade com:

2

11 2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

n

n

s

n

n

s

n

s

n

s

GL (39)

Arredondando-se o resultado para o número inteiro mais próximo. Exemplo: a

Tabela 10 apresenta os resultados da concentração de tiol no sangue de dois grupos de

voluntários, o primeiro grupo sendo “normal” e o segundo sofrendo de artrite reumatóide.

Tabela 10. Resultados da concentração de tiol no sangue de dois grupos de voluntários (do

exemplo).

Ensaios “Normal” Reumatóide

1 1,84 2,81

2 1,92 4,06

3 1,94 3,62

4 1,92 3,27

5 1,85 3,27

6 1,91 3,76

7 2,07 Não realizado

N 7 6

s 0,076 0,440

x 1,921 3,465

Novamente, a hipótese nula é adotada de que a concentração média de tiol é a

mesma para os dois grupos. Substituindo-se na equação acima, obtém-se t = 8,5 e da outra

equação obtém-se 5 graus de liberdade. O valor crítico de |t| (P = 0,01) é 4,03 e assim a

hipótese nula tem que ser rejeitada: as concentrações de tiol são diferentes para os dois

grupos.

Teste t pareado

Dois métodos de análises diferentes podem ter que ser comparados pelo estudo de

amostras contendo quantidades diferentes da espécie-teste. Exemplo: a Tabela 11 mostra

Page 42: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

42

concentrações de chumbo (µg mL-1

) determinadas por dois métodos diferentes para cada

uma das quatro amostras.

Tabela 11. Concentrações de chumbo (µg mL-1

) determinadas por dois métodos diferentes (do

exemplo).

Solução Oxidação úmida Extração direta

1 71 76

2 61 68

3 50 48

4 60 57

Os dois métodos dão valores médios de chumbo que variam de maneira

significativa? O teste de comparação das duas médias não pode ser aplicado nesse caso,

porque qualquer variação devida ao método seria disfarçada pelo efeito da diferença entre

as porções-teste.

A melhor maneira de concluir se existe diferença significante entre as duas amostras

é analisando a diferença entre cada par de resultados, um de cada método. Adotando a

hipótese nula de que não há diferença entre as médias de concentrações pelos dois métodos,

pode-se testar se as diferenças são significativamente diferentes de zero. Para os pares de

valores acima, as diferenças são -5, -7, 2 e 3. A diferença média, dx , é -1,75 e o desvio

padrão para a diferença, sd, é 4,99. Como µd = 0, a equação para calcular t torna-se:

d

d

s

nxt

(40)

Onde t tem (n - 1) graus de liberdade. Substituindo os valores na equação acima,

obtém-se t = -0,70. O valor crítico de |t| é 3,18 (P = 0,05) e como o valor calculado de |t| é

menor que isso, a hipótese nula é mantida. O método não deu diferença significativa para

os valores médios da concentração de chumbo.

Existem circunstâncias nas quais é necessário planejar um experimento no qual cada

analito é analisado por dois métodos e os resultados são naturalmente pareados. Alguns

exemplos:

Page 43: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

43

i. A quantidade de qualquer uma das espécies-teste é suficiente para uma única

determinação por método.

ii. Os métodos serão comparados usando uma grande variedade de amostras de

diferentes fontes com diferentes concentrações.

iii. As espécies-teste podem ser de um longo intervalo de tempo e é necessário

remover os efeitos sazonais (temperatura, pressão, etc.).

Como os métodos analíticos têm, constantemente, que ser aplicados a uma faixa

grande de concentrações, qualquer novo método deve ser comparado a um método padrão

pela análise de amostras nas quais a concentração do analito pode variar em ordens de

grandeza. Nesse caso é inapropriado usar o teste-t pareado, pois sua validade depende da

afirmação que qualquer erro, aleatório ou sistemático, é independente da concentração.

Assim, em amplas faixas de concentrações, não se pode mais fazer tal afirmação.

TESTES MONO E BI-CAUDAIS

Os métodos descritos até aqui analisados foram desenvolvidos para testar as

diferenças entre dois valores de média em ambas as direções. Por exemplo, o método

descrito na seção 1 testa a existência de uma diferença significativa entre o resultado

experimental e o valor conhecido, independentemente do sinal da diferença. Na maioria das

situações desse tipo, o experimentador não tem qualquer idéia pré-concebida, antes dos

resultados experimentais, se uma diferença significante eventual entre as médias

experimentais e os valores de referência será positiva ou negativa. Ele, então, necessita de

um teste que cubra ambas possibilidades. Tal teste é chamado bi-caudal (ou bilateral).

Entretanto, em poucos casos, um tipo específico de teste pode ser apropriado.

Considerar, por exemplo, um experimento no qual se espera um aumento na

velocidade da reação pela adição de um catalisador. Nesse caso, é claro, antes do

experimento, que apenas os resultados que indiquem um aumento no valor da constante de

velocidade em relação à anterior são de interesse. Assim, apenas um aumento deve ser

testado para a significância. Esse tipo de teste é chamado de mono-caudal (ou unilateral).

Page 44: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

44

Para um dado valor de n e para um nível de probabilidade particular, o valor crítico para um

teste mono-caudal difere daquele para um teste bi-caudal. Em um teste mono-caudal para

um incremento, o valor crítico de t (no lugar de |t|) para P = 0,05 é aquele valor que é

excedido com uma probabilidade de 5%. Como a distribuição da amostra da média é

assumida ser simétrica, essa probabilidade é metade da probabilidade que é obtida num

teste bi-caudal. O valor apropriado para um teste mono-caudal é, assim, encontrado na

coluna P = 0,10 tabelado (ANEXO B: VALORES CRÍTICOS DE F (P = 0,05)). De

maneira similar, para um teste mono-caudal, com P = 0,01, o valor da coluna P = 0,05

deverá ser utilizado.

Para um teste mono-caudal onde se espera uma diminuição no valor da média, o

valor crítico de t será de igual magnitude, mas com um sinal negativo. Exemplo: suspeita-se

que um método titrimétrico ácido-base tem um erro significativo no indicador e, assim,

tende a resultar num erro sistemático positivo (isso é, numa bias positiva). Para verificar

esse fato, foi utilizada uma solução de ácido exatamente 0,1 mol L-1

para titular 25,00 mL

de uma solução alcalina exatamente 0,1 mol L-1

, com os seguintes resultados (mL): 25,06

25,18 24,87 25,51 25,34 e 25,41. Para esses resultados tem-se: média = 25,228 mL e desvio

padrão = 0,238 mL. Adotando a hipótese nula de que não há bias, isso é, µ = 25,00 mL, e

usando a equação de t:

35,2238,0

6)00,25228,25(

)(

tt

s

nxt

O valor crítico de t para 5 graus de liberdade é 2,02 (P = 0,05, teste mono-caudal,

ver na página 166). Como o valor de t observado é maior que o valor crítico, a hipótese

nula deve ser rejeitada e há evidências para bias positiva. É interessante notar que se um

teste bi-caudal for feito no exemplo acima, (|t| = 2,57), a hipótese nula não deve ser

rejeitada. Esta contradição aparente é explicada pelo fato da decisão de se fazer um teste

mono ou bi-caudal depender no grau de conhecimento prévio, nesse caso uma suspeita de

bias positiva.

Page 45: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

45

TESTES F PARA A COMPARAÇÃO DE DESVIOS

PADRÕES

Os testes de significância descritos anteriormente são usados para comparar valores

de médias, e assim detectar erros sistemáticos. Também é importante, em muitos casos,

comparar os desvios padrões, isso é, os erros aleatórios de dois conjuntos de dados. Como

nos testes com médias, esta comparação pode tomar duas formas. Tanto se pode querer

testar se o método A é mais preciso que o método B (isso é, um teste mono-caudal) ou

querer saber de quanto a precisão do método A difere da do método B (um teste bi-caudal).

Assim, se quiser saber se um método analítico novo é mais preciso que o método padrão é

necessário fazer um teste mono-caudal. Se desejar apenas saber de quanto à precisão dos

dois métodos difere, é necessário executar um teste bi-caudal.

O teste-F considera a relação de variâncias de duas amostras, isso é, a relação dos

quadrados dos desvios padrões. A quantidade calculada (F) é dada por:

2

2

2

1

s

sF (41)

Onde os parâmetros são colocados na equação de tal forma que F é sempre maior ou

igual a um. A hipótese nula adotada é que as populações de onde as amostras são tomadas

são normais, e que as variâncias das populações são iguais.

Se a hipótese nula for verdadeira, então a relação de variâncias deve ser muito perto

de um. Diferenças de um ocorrem por causa das variações aleatórias, mas se a diferença é

muito grande, ela não pode mais ser atribuída a esta causa. Se o valor calculado de F

exceder um certo valor crítico (Erro! Fonte de referência não encontrada. e Erro! Fonte

de referência não encontrada.) então a hipótese nula deve ser rejeitada. Esse valor crítico

de F depende do tamanho de ambas as amostras, do nível de significância e do tipo de teste

executado. Exemplo: um método para determinar a demanda química de oxigênio em águas

residuárias foi comparado com um método padrão (sal de mercúrio). Os resultados

seguintes foram obtidos de uma alíquota de efluentes de esgotos (Tabela 12).

Page 46: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

46

Tabela 12. Resultados de dois métodos para determinar a demanda química de oxigênio em

águas residuárias (do exemplo).

Método Média (mg L-1

) Desvio padrão (mg L-1

)

Padrão 72 3,31

Proposto 72 1,51

Para cada método, oito determinações foram feitas. A precisão do método proposto

é de maneira significativa maior que a do método padrão? Aplicando a equação de F:

8,451,1

31,37,72

2

7,7 FF

Ambas amostras continham oito valores e, portanto, o número de graus de liberdade

em cada caso é sete, como indicado nos subscritos. Esse é um caso onde um teste mono-

caudal deve ser usado, o único ponto de interesse é se o método proposto é mais preciso

que o método padrão.

O valor crítico de F (P = 0,05) é, nesse caso, 3,787 (Erro! Fonte de referência não

encontrada.). Como o valor calculado de F (4,8) excede o valor crítico, a variância do

método padrão é significantemente maior que a do método proposto, portanto, esse é mais

preciso.

Outro exemplo: anteriormente, do cálculo de boro em plantas, foi assumido que as

variâncias não eram diferentes de maneira significativa. Esta proposição pode ser testada

agora. Os desvios padrões eram 0,3 e 0,23 (cada um obtido de dez medidas em uma espécie

particular de planta). Calculando o F de tal forma que ele seja maior que um, tem-se:

Nesse caso, entretanto, não se tem qualquer razão para supor, em antemão, que a

variância de um método deva ser maior que a do outro. Assim, um teste bi-caudal deve ser

apropriado. Os valores críticos da tabelados são aqueles que F excede, com uma

probabilidade de 0,05, assumindo que ele deve ser maior que um.

Num teste bi-caudal, a relação entre a primeira e a segunda variância pode ser

menor ou maior que um, mas se F for calculado como maior que um, a probabilidade que

Page 47: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

47

ele exceda o valor tabelado deve ser dobrada. Assim, os valores críticos dados da Erro!

Fonte de referência não encontrada. não são apropriados para testes bi-caudais e a outra

tabela deve ser utilizada no lugar. Da Erro! Fonte de referência não encontrada.,

tomando o número de graus de liberdade de ambos numerador e denominador como nove,

o valor crítico para F é 4,026. O valor calculado é menor que isso, assim não há diferença

significante entre as duas variâncias no nível de 5%.

Page 48: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

48

CAPÍTULO 4

PONTOS FORA DA CURVA (“OUTLIERS”)

Todos os experimentalistas são familiarizados com a situação onde um (ou

possivelmente vários) de um conjunto de resultados parece diferir dos outros dados do

conjunto, de uma maneira inexplicável. Tais medidas são conhecidas como “pontos fora da

curva” (outlier). Em alguns casos, os pontos fora da curva podem ser atribuídos a erros

humanos. Por exemplo: 12,2; 12,15; 12,13; 13,14 e 12,12 mL. Esses valores foram obtidos

para uma titulação. Nessa série, o quarto valor é, quase com certeza, um engano na escrita

do número, que deveria ser lido 12,14. Entretanto, mesmo quando esses erros óbvios estão

ausentes, valores que parecem estar fora ainda podem ocorrer. Eles devem ser mantidos ou

removidos?

Os valores calculados para a média e o desvio padrão dependerão da decisão de

rejeitar ou manter. Como a discussão sobre a precisão e a exatidão do método depende

desses valores finais, deve-se sempre precisar com clareza quando os pontos fora da curva

devem ser rejeitados e, se forem, porque. Um dos vários testes disponíveis para avaliar uma

medida suspeita consiste em comparar a diferença entre o seu valor e o do vizinho mais

próximo com aquela obtida entre o valor máximo e o mínimo encontrado. A relação entre

essas diferenças (independente do sinal) é conhecida como Teste Q de Dixon.

menormaior

vizinhosuspeito

valorvalor

valorvalorQ

(42)

Os valores críticos de Q para P = 0,05 e para P = 0,01 estão na Tabela 13. Se o valor

calculado de Q exceder o valor crítico, o suspeito deve ser rejeitado.

Page 49: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

49

Os valores dados são para os testes bi-caudais, apropriados quando não se conhece

em que extremo um ponto fora da curva pode ocorrer.

Tabela 13. Valores críticos de Q (P = 0,05) para um teste bi-caudal.

Tamanho da amostra Valor crítico

4 0,831

5 0,717

6 0,621

7 0,570

8 0,524

9 0,492

10 0,464

Exemplo: os seguintes valores foram obtidos para a concentração de ácido nítrico

numa amostra de água de rio: 0,403 0,410 0,401 0,380; o último valor é suspeito. Ele deve

ser rejeitado?

7,0380,0410,0

401,0380,0

QQ

Da Tabela 13, para uma amostra com tamanho 4, o valor crítico de Q é 0,831 (P =

0,050). Como o valor encontrado não excede o valor crítico, ele deve ser mantido.

Idealmente, mais medidas devem ser feitas, quando um valor suspeito é detectado,

particularmente quando poucas medidas foram tomadas inicialmente. Isso pode tornar mais

claro quando um valor suspeito deve ou não ser rejeitado. Mesmo se ele for mantido, sua

contribuição para o valor da média e desvio padrão será menor.

Exemplo: se três mais valores forem adicionados àqueles do exemplo anterior e os

resultados forem: 0,403 0,410 0,401 0,380 0,400 0,413 0,411 o resultado de 0,380 deve

ainda ser mantido?

O valor calculado de Q agora se torna:

606,0380,0413,0

400,0380,0

QQ

Page 50: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

50

O valor crítico de Q (P = 0,05) para uma amostra de sete valores é 0,570, assim o

valor suspeito é rejeitado em um nível de significância de 5%. O resultado de 0,380 deve

ainda ser mantido?

O valor calculado de Q agora se torna:

606,0380,0413,0

400,0380,0

QQ

O valor crítico de Q (P = 0,05) para uma amostra com sete medidas é 0,570. Assim,

a medida suspeita deve ser rejeitada a um nível de significância de 5%.

É importante atentar para o fato de que, num nível de significância de 5%, ainda há

uma chance de 5%, ou seja, um em 20, de se rejeitar de maneira incorreta um valor

suspeito. Isso pode ter uma influência considerável na estimativa da precisão de um

experimento. Por exemplo, para todos os sete valores de concentração de nitrito dados

acima, o desvio padrão é 0,011 mg L-1

, mas quando o valor suspeito é rejeitado, o desvio

padrão torna-se 0,0056 mg L-1

, isso é, a precisão do experimento parece ter aumentado por

um fator de dois. O exemplo acima ilustra a importância de se ater a critérios para aceitar

ou rejeitar um valor fora da curva.

Quando as medidas são repetidas apenas algumas vezes, (o que é comum no

trabalho analítico), a rejeição de um valor faz uma grande diferença nos valores da média e

do desvio padrão.

Na prática, o procedimento de se obter três medidas e rejeitar aquela que mais se

afastar das outras deve ser evitado.

Se o conjunto de dados contém mais de um valor suspeito, mais complicado é

decidir sobre a rejeição ou não. A Figura 6 mostra, na forma de “dot plots” dois exemplos

de tais dificuldades.

Page 51: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

51

a

b

2 2,2 2,4 2,6 2,8 3 3,2

x1

xn

Figura 6. Dois exemplos a e b na forma de “dot plots”.

Na Figura 6 há dois resultados, 2,9 e 3,1, que são suspeitos quando comparados com

os outros. Entretanto, se calcular o valor de Q, obter-se-á:

18,00,21,3

9,21,3

QQ

Um valor que não é significante (P = 0,05). Claramente, o valor fora da curva 3,1

foi mascarado pelo outro valor suspeito 2,9, dando um valor baixo de Q.

Como resolver tais situações?

Uma das maneiras é considerá-los como um par (procedimento do bloco), com o

teste sendo feito pela sua média dividida pela média de todo o conjunto. O risco que se

corre com esta aproximação é que ambos devem (necessariamente) ser aceitos ou rejeitados

juntos em situações onde um dos dois poderia ser aceito. Como alternativa, em um

procedimento consecutivo, testamos primeiro, com a ajuda de uma estatística similar ao

teste Q, se o valor 2,9 pode ser rejeitado. Se for rejeitado, então o valor 3,1 também será

naturalmente rejeitado. Se o valor 2,9 for mantido, um teste separado é aplicado ao valor

3,1.

Uma situação diferente ocorre com o exemplo b, onde os dois valores suspeitos

estão nas extremidades opostas do conjunto de dados.

Novamente, vários tipos de testes têm sido propostos, um deles sendo (xn - xi) / s,

sendo s o desvio padrão da amostra.

Page 52: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

52

A discussão de erros até aqui tem assumido que as distribuições de medidas

repetidas são normais, ou quase. É importante entender que os testes de pontos descritos

fora da curva acima levam esta afirmação em conta. Um resultado que parece estar fora da

curva numa distribuição normal pode muito bem não ser suspeito numa distribuição log-

normal, por exemplo. Assim, os testes para pontos fora da curva não devem ser feitos se

existir dúvidas sobre a distribuição normal de pontos.

ANÁLISE DE VARIÂNCIA

Na aula anterior, foi discutido um método para se comparar os valores de duas

médias e concluir se eles diferem significantemente. No trabalho analítico há,

freqüentemente, mais de dois valores de médias para serem comparados. Alguns exemplos

possíveis são: comparar a concentração média de proteínas em solução, a partir de amostras

armazenadas sob diferentes condições, comparar os resultados médios obtidos para a

concentração de um analito por diferentes métodos, etc. Nesses, e em outros exemplos, há

duas possíveis fontes de variações. A primeira, que está sempre presente, são os erros

aleatórios das medidas, que já foi discutido em detalhes, nos tópicos anteriores. Essa é a

fonte de resultados diferentes, cada vez que as medidas são feitas utilizando as mesmas

condições.

A segunda fonte de erro possível é devido ao que se conhece como um fator

controlado ou de efeito fixo.

Nos exemplos acima, os fatores fixos eram, respectivamente, as condições de

armazenamento das proteínas e as técnicas utilizadas.

A análise de variância – ANOVA (analysis of variance) é uma técnica estatística

muito poderosa que pode ser utilizada para separar e estimar as diferentes causas de

variações.

Nos exemplos anteriores, ela pode ser usada para separar qualquer variação causada

pelos fatores de controle da variação causada por erros aleatórios. Ela pode, assim, testar se

Page 53: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

53

a mudança nos fatores de controle altera significativamente os valores das médias

calculadas.

ANOVA também pode ser usada em situações onde há mais de uma fonte de

variações aleatórias. Considere, por exemplo, o teste de pureza de um lote de frascos de

cloreto de sódio. As amostras são tiradas de várias partes do lote, escolhidas de maneira

aleatória e análises repetidas são feitas nessas amostras. Além do erro randômico na medida

das purezas, também pode haver variações na pureza de cada amostra, de diferentes partes

do lote. Como as amostras são tomadas aleatoriamente, os erros também serão aleatórios e,

assim, eles são chamados de fator de efeito aleatório.

Ambos os tipos de análise estatística descritos acima, isso é, onde há apenas um

fator, seja de controle ou aleatório, em adição ao erro randômico do experimento, são

conhecidos como ANOVA monomodal (one way).

Os procedimentos matemáticos utilizados são similares nos casos de fatores de

efeitos fixos ou fatores de efeito aleatórios. Isso será explorado por meio de exemplos. É

necessário explorar aqui os fatores de efeitos fixos e num próximo tópico os de efeitos

aleatórios. Para esse último caso deve-se, antes, discutir a amostragem com mais detalhes.

Mais adiante, será discutida também situação mais complexa, com dois ou mais

fatores, todos interagindo entre si.

Comparação de várias médias

A Tabela 14 mostra o resultado obtido de uma investigação da estabilidade de um

reagente fluorescente armazenado sob diferentes condições. Os valores dados são sinais de

fluorescência em unidades arbitrárias de soluções diluídas de iguais concentrações.

Três medidas repetidas foram feitas de cada amostra. A Tabela 14 mostra que os

valores das médias para cada amostra são diferentes.

Entretanto, sabe-se que, devido ao erro aleatório, mesmo se o valor verdadeiro que

se está tentando avaliar não mudasse, a média de cada amostra deverá variar.

Page 54: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

54

ANOVA testa se a diferença entre os valores de médias é, ou não, muito grande

para ser explicada pelo erro aleatório. O problema pode ser generalizado para se considerar

h amostras, cada uma com n membros como na tabela, onde xij é a medida j da amostra i.

Tabela 14. Sinal de fluorescência de soluções estocadas em diferentes condições (do exemplo).

Ensaio Condições Medidas Média

A Preparado na hora 102, 100, 101. 101

B Estocada 1 h no escuro 101, 101, 104. 102

C Estocada 1 h à meia-luz 97, 95, 99. 97

D Estocada 1 h sob luminosidade 90, 92, 94. 92

Média total 98

Tabela 15. Generalização da Tabela 14.

Amostra Medidas Médias

1 x11 x12 → x1n 1x

2 x21 x22 → x2n 2x

↓ ↓ ↓ ↓ ↓

i xi1 xi2 → xin ix

↓ ↓ ↓ ↓ ↓

h xh1 xh2 xhn hx

Média total x

As médias das amostras são nxxx ,...,, 21 e a média para todos os valores agrupados

é x . A hipótese nula adotada é que todas as amostras foram tiradas de uma população com

média µ e variância σ02.

Com base nesta hipótese, σ02

pode ser estimado de duas maneiras, uma envolvendo

a variação dentro das amostras e outra a variação entre as amostras.

Variações dentro da amostra

Para cada amostra, a variância pode ser calculada usando a fórmula:

Page 55: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

55

1

)( 2

n

xxi

(43)

Usando os valores da Tabela 14, tem-se:

4var13

)9294()9292()9290(var

4var13

)9799()9795()9797(var

3var13

)102104()102101()102101(var

1var13

)101101()101100()101102(var

222

222

222

222

dd

cc

bb

aa

Fazendo a média dos valores de variância acima tem-se a estimativa de σ02 dentro

da amostra:

34

44312

0

Esta estimativa possui oito graus de liberdade; cada amostra tem dois graus de

liberdade e existem quatro amostras. É necessário observar que esta estimativa não depende

das médias das amostras; se, por exemplo, todas as medidas de A forem acrescidas de, por

exemplo, quatro, esta estimativa de σ02 permaneceria inalterada.

A equação geral para estimar σ02 dentro da amostra é:

i j

iij

nh

xx

)1(

)( 2

2

0 (44)

A somatória em j e a divisão por (n - 1) dá a variância de cada amostra; a somatória

em I e a divisão por h dá a média dessas variâncias. A expressão na equação acima é a

média quadrada, desde que envolve a soma de termos quadráticos dividida pelo grau de

Page 56: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

56

liberdade. Como o número de graus de liberdade é 8 e a média quadrada 3, a soma dos

termos quadráticos é 2483 .

Variação entre amostras

Se as amostras forem retiradas de uma população que apresenta uma variância σ02,

então as suas médias vêm de uma população com variância σ02 (como foi visto na

distribuição de médias amostradas). Assim, se a hipótese nula é verdadeira, a variância das

médias das amostras dá uma estimativa de σ02 / n. Da Tabela 14:

3

62var

14

)9892()9897()98102()98101(var

2222

ss xx

Assim, a estimativa de amostras de σ02 é:

6233

62 2

0

2

0

Essa estimativa tem três graus de liberdade, desde que ela foi calculada de quatro

médias de amostras. Observe que esta estimativa de σ02 não depende da variabilidade

dentro de cada amostra, pois ela é calculada de médias de amostras. Entretanto, se, por

exemplo, a média da amostra D for mudada, a estimativa σ02 também mudará. Em geral

tem-se (para σ02 entre amostras):

i

i

h

xxn

1

)( 220 (45)

Que é, novamente, uma média quadrada envolvendo a soma dos termos quadráticos

dividida pelo número de graus de liberdade. Nesse caso, o número de graus de liberdade é

três e a média quadrada é 62 e, assim, a soma dos termos quadráticos é 186823 .

Sumarizando o que foi feito até agora:

Média quadrada dentro das amostras → 3 com 8 graus de liberdade.

Média quadrada entre as amostras → 62 com 3 graus de liberdade.

Page 57: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

57

Se a hipótese nula for correta, essas duas estimativas de σ02 não devem diferir

significativamente. Se ela for incorreta, a estimativa de σ02 entre amostras será muito maior

que a de dentro da amostra por causa das variações entre as amostras.

Para se testar se o valor é significativamente maior, um teste F mono-caudal pode

ser utilizado:

7,203

628,32

2

2

1 Fs

sF

É bom lembrar que cada média quadrada é usada, assim não é necessário mais

elevar ao quadrado.

O valor crítico de F é 4,066 (página 166) para P = 0,05.

Como o valor calculado é maior que o valor crítico, a hipótese nula é rejeitada e a

diferença entre as médias é significativa.

Um resultado significante numa ANOVA mono-modal pode surgir por diferentes

razões: uma média pode diferir de todas as outras, todas as médias podem diferir entre si, as

médias podem cair em dois grupos distintos, etc.

Uma maneira simples de se decidir a razão para um resultado significante é ordenar

as médias por valor e comparar a diferença entre valores adjacentes com uma quantidade

chamada menor diferença significante. Essa quantidade é dada por:

)1(

2nht

ns (46)

Onde s é a estimativa dentro da amostra de σ02 e h(n - 1) é o número de graus de

liberdade desta estimativa. Para o exemplo acima, as médias amostradas podem ser

ordenadas em ordem crescente de valor como: média (D) = 92, média (C) = 97, média (A)

= 101 e média (B) = 102. E a menor diferença significativa é dada por:

Page 58: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

58

26,3)05,0(306,23

23 P

Comparando esse valor com as diferenças entre as médias fica evidente que média

(D) e média (C) diferem significantemente uma da outra e da média (A) e média (B), mas

essas duas não diferem entre si, isso é, a exposição à luz é que afeta a fluorescência.

O método das menores diferenças significantes descrito acima não é inteiramente

rigoroso: pode-se mostrar que ele leva a diferenças significativas em excesso. Entretanto é

uma aproximação a ser usada quando ANOVA indicou uma diferença significante das

médias.

A aritmética dos cálculos da ANOVA

Ao se usar ANOVA para comparar diferenças entre valores de médias, se a hipótese

nula mostrar-se verdadeira, σ02 também pode ser calculado numa terceira forma, tratando os

dados como uma amostra grande. Isso pode envolver a somatória dos quadrados dos

desvios padrões de todas as médias:

i j

ij xx 210...324)( 2222

E dividir pelo número de graus de liberdade, 12 - 1 = 11. Esse método para se

estimar σ02

não é usado em análises porque a estimativa depende tanto das variações dentro

das amostras como entre as amostras. Entretanto, existe uma relação algébrica exata entre

esta variação total e as fontes de variações, que, principalmente nos cálculos mais

complicados de ANOVA, leva a uma simplificação da aritmética envolvida. Esta relação é

ilustrada na Tabela 16.

Os valores das variâncias totais, dados na última linha da Tabela 16, são as somas

dos valores nas duas primeiras linhas, tanto para os quadrados dos desvios padrões como

para os graus de liberdade. Esta propriedade aditiva se mantém para toda a discussão de

Page 59: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

59

ANOVA feita no curso. Assim como no cálculo da variância, existem fórmulas que

simplificam os cálculos das somas dos quadrados.

Tabela 16. Sumário das somas dos quadrados e graus de liberdade.

Fonte de variação Soma dos quadrados Graus de liberdade

Entre amostras i

i xxn 186)( 2 31h

Dentro da amostra i j

iij xx 24)( 2 3)1( nh

Total i j

ij xx 210)( 2 111hn

Essas fórmulas estão sintetizadas na

Tabela 17, que utiliza as notações abaixo e introduz os símbolos:

Número total de medidas = N = nh.

Soma de medidas na i-ésima amostra = Ti.

Soma de todas as medidas, gran total = T.

Tabela 17. Fórmulas para cálculos de ANOVA mono-modal.

Fonte de variação Soma dos quadrados Graus de liberdade

Entre amostras i

i

N

T

n

T 22

1h

Dentro da amostra Por subtração Por subtração

Total i j

ijN

Tx

22

1N

O uso das fórmulas na

Page 60: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

60

Tabela 17 pode ser ilustrado repetindo-se os cálculos de ANOVA para os dados da

Tabela 14.

Os cálculos das médias quadráticas são feitos na Tabela 18 e na Tabela 19. Todos os

valores da Tabela 14 foram subtraídos por um valor de 100, o que simplifica muito os

cálculos.

Foram feitas certas suposições ao se fazer os cálculos na Tabela 18 e na Tabela 19,

de ANOVA. A primeira é que a variância do erro aleatório não é afetada pelo tratamento

usado. Esta suposição está implícita na extrapolação das variâncias de dentro das amostras

para calcular uma estimativa total do erro das variâncias. Ao se fazer isso, assume-se o que

se conhece por homogeneidade de variâncias. Em particular, no exemplo anterior, onde

todas as medidas são feitas da mesma maneira, pode-se esperar a homogeneidade das

variâncias. Uma segunda suposição é que a variação não controlada é aleatória. Fatores não

controlados como, por exemplo, a temperatura, podem exercer um efeito sistemático nos

dados experimentais. Técnicas para se livrar de tais perturbações serão discutidas mais à

frente.

Tabela 18. Cálculos do exemplo (I).

Ti Ti2

A 2 0 1 3 9

B 1 1 4 6 36

C -3 -5 -1 -9 81

D -10 -8 -6 -24 576

24T i

iT 7022

i j

ijxNhn 258,12,4,3 2

Tabela 19. Cálculos do exemplo (II).

Fonte de variação Soma dos quadrados Graus de liberdade Média quadrada

Entre amostras 18612

)24(

3

702 2

3 623

186

Dentro da amostra Por subtração = 24 8 38

24

Page 61: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

61

Total 21012

)24(258

2

11

Será visto que uma parte importante da ANOVA é a aplicação dos testes-F. O uso

desses testes é limitado para a comparação da variância de duas amostras e depende de que

as amostras sejam retiradas de uma população normal. Entretanto, por sorte, os testes-F

quando aplicados em ANOVA, não são tão sensíveis para desvios da normalidade.

Page 62: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

62

CAPÍTULO 5

TESTE CHI-QUADRADO

Os testes de significância descritos até aqui têm, em geral, testado se a média de

várias medidas difere significativamente do valor proposto pela hipótese nula.

Os dados usados foram tomados na forma de observações que, por algum tipo de

arredondamento, foram medidos numa escala contínua. Em contraste, nessa parte da aula a

preocupação será com a freqüência, isso é, o número de vezes que um evento ocorre. Por

exemplo, a

Tabela 4 dá a freqüência com que os diferentes valores obtidos para concentrações

do íon nitrato quando são feitas 50 medidas em uma amostra.

Como já discutido anteriormente, tais medidas são assumidas como tiradas de uma

população que está normalmente distribuída. .

O teste chi-quadrado pode ser usado para verificar se as freqüências observadas

diferem significativamente daquelas que são esperadas nesta hipótese nula.

Os princípios do método chi-quadrado podem ser mais facilmente entendidos com o

seguinte exemplo: o número de quebras de vidrarias relatado por quatro técnicos de

laboratórios, para um dado período, é:

Número de quebras: 24, 17, 11, 9.

Há alguma evidência de que os técnicos diferem em suas habilidades?

A hipótese nula adotada é que não há diferença nas habilidades dos quatro técnicos.

Assumindo que eles utilizaram a vidraria por um intervalo de tempo igual, espera-

se, pela hipótese nula, que cada um quebrou o mesmo número de vidros. Como o total de

quebra foi 61, espera-se que cada técnico quebrou 61 / 4 = 15,25 vidros. A questão a ser

respondida é se a diferença entre as freqüências observadas e esperada é tão grande que a

hipótese nula deva ser rejeitada.

Page 63: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

63

Se existe alguma diferença entre os dois conjuntos de dados de freqüências pode ser

mais facilmente observado considerando-se uma seqüência de lançamentos de dados.

Ficaríamos surpresos se em 30 lançamentos ocorresse exatamente o mesmo número

de 1, 2, 3, etc. O cálculo de chi-quadrado, χ2, a quantidade usada para testar a significância

da diferença, é mostrada na Tabela 20:

Tabela 20. Cálculo do teste chi-quadrado (do exemplo).

Freqüência observada (O) Freqüência esperada (E) O - E (O – E)2 / E

24 15,25 8,75 5,020

17 15,25 1,75 0,201

11 15,25 -4,25 1,184

9 15,25 -6,25 2,561

0,00 χ2 = 8,966

Observe que o total da coluna O - E é sempre zero assim podendo ser usada para

checar os cálculos. Se χ2 exceder um certo valor crítico, a hipótese nula deve ser rejeitada.

O valor crítico depende, como nos outros testes de significância, no nível de

significância do teste e nos graus de liberdade. O número de graus de liberdade é, nesse

exemplo, um a menos que o número de dados relatados pelos técnicos, ou seja, 4 - 1 = 3,

nesse caso. Os valores críticos de χ2 para P = 0,05 são dados na Tabela 21.

Para 3 graus de liberdade, o valor crítico é 7,81. Como o valor calculado de χ2 é

maior que esse valor crítico, a hipótese nula deve ser rejeitada.

Tabela 21. Valores críticos de χ2 para P = 0,05.

Nº de graus de liberdade Valor crítico

1 3,84

2 5,99

3 7,81

4 9,49

5 11,07

6 12,59

7 14,07

8 15,51

9 16,92

10 18,31

Há evidências de que os técnicos diferem em suas habilidades.

Nesse cálculo de χ2, parece que o resultado significante foi obtido pelo alto número

de quebras reportado pelo técnico número um. Para aprofundar esse estudo, testes chi-

Page 64: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

64

quadrado adicionais devem ser feitos. Um desses testes analisa se o segundo, terceiro e

quarto técnicos diferem significantemente: nesse caso, a freqüência esperada para cada um

será: (17 + 11 + 9) / 3.

Observe que um teste T não pode ser aplicado aqui, pois está se trabalhando com

freqüências e não com valores contínuos.

Um outro teste verifica se o primeiro difere significantemente dos outros, tomados

como um grupo. Nesse caso, há duas classes: as quebras do primeiro técnico com uma

freqüência esperada de 15,25 e o total das outras quebras, com freqüência esperada de

15,25 3 = 45,75. Nesse caso, onde há apenas duas classes e, assim, apenas um grau de

liberdade, um ajuste, conhecido como correção de Yates, deve ser feito. Isso envolve a

substituição de O - E por |O - E| - 0,5, por exemplo, -4,5 torna-se 4.

Teste para distribuição normal

Como já foi enfatizado, muitos testes estatísticos requerem dados originados de uma

população normal. Um método para se testar esta condição, usando o teste chi-quadrado,

foi mencionado há pouco. Infelizmente, esse método só pode ser usado se há 50 ou mais

pontos.

É comum, no trabalho experimental, ter-se apenas um pequeno conjunto de dados.

Um modo simples e visual de se conferir se tal conjunto de dados é consistente com

a condição de normalidade é plotar uma curva cumulativa de freqüência. Esta curva é

obtida de um gráfico especial conhecido como papel de probabilidade normal. Esse método

é mais facilmente compreendido por meio de um exemplo: use o papel de probabilidade

normal para testar se os dados abaixo foram tirados de uma população normal: 109, 89, 99,

99, 107, 111, 86, 74, 115, 107, 134, 113, 110, 88, 104.

A Tabela 22 mostra os dados arranjados em ordem crescente de valor. A segunda

coluna dá a freqüência cumulativa de cada medida, isso é, o número de medidas menores

ou iguais àquela medida. A terceira coluna dá a porcentagem de freqüência cumulativa.

Esta porcentagem foi calculada usando a equação: % freqüência cumulativa = 100 x

freqüência cumulativa / (n + 1). Onde n é o número total de medidas. Se os dados vierem

Page 65: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

65

de uma distribuição normal, um gráfico da porcentagem da freqüência cumulativa contra os

resultados da medida tem a forma de S, como mostrado na Figura 7.

O papel de probabilidade normal tem uma escala não-linear para o eixo da

porcentagem de freqüência cumulativa, o que converte esta curva não linear em uma reta.

Isso é mostrado na Figura 8.

Tabela 22. Medidas e valores de freqüência cumulativa (do exemplo).

Medida Freqüência cumulativa % freqüência cumulativa

74 1 6,3

86 2 12,5

88 3 18,8

89 4 25,0

99 6 37,5

104 7 43,8

107 9 56,3

109 10 62,5

110 11 68,8

111 12 75,0

113 13 81,3

115 14 87,5

134 15 93,8

Medida

% f

reqüên

cia

cum

ula

tiva

50

100

Figura 7. Gráfico da porcentagem da freqüência cumulativa contra os resultados da medida.

Os pontos estão, aproximadamente, sobre uma reta, apoiando a hipótese de que os

dados foram tomados de uma população com distribuição normal.

Page 66: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

66

Medida

% f

reqüên

cia

cum

ula

tiva

70 80 90 100 110 120

12

5

10

20

30

40506070

80

90

95

9899

Figura 8. Gráfico da curva convertida em uma reta.

CONCLUSÕES SOBRE OS TESTES DE SIGNIFICÂNCIA

Essas últimas aulas foram concentradas em diferentes tipos de testes de

significância. Vamos agora analisar algumas conclusões a que se pode chegar após essas

discussões. Como já foi dito várias vezes, um teste de significância em nível de, por

exemplo, P = 0,05 envolve 5% de risco de uma hipótese nula ser rejeitada, mesmo se ela

for verdadeira. Esse tipo de erro é conhecido como erro tipo um: o risco desse tipo de erro

pode ser diminuído alterando o nível de significância para P = 0,01 ou mesmo P = 0,001.

Esse, entretanto, não é o único tipo de erro possível; também é possível reter uma hipótese

nula mesmo que ela seja falsa. Isso é chamado de erro tipo dois.

Para se calcular a probabilidade de se cometer esse tipo de erro, é necessário

postular uma alternativa à hipótese nula, conhecida como uma hipótese alternativa.

Considere uma situação onde um certo produto químico deve conter 3% de fósforo

em massa. Suspeita-se que esta proporção aumentou e para testar isso sua composição será

analisada pelo método padrão com um desvio padrão conhecido de 0,03%. Suponha que

quatro medidas foram feitas e que um teste de significância foi conduzido em um nível de P

Page 67: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

67

= 0,05. Foi necessário um teste mono-caudal, pois se estava interessado apenas no aumento

da concentração de fósforo. A hipótese nula considerada foi = μ = 3,0%.

A linha sólida na Figura 9 mostra a distribuição de médias amostradas se a hipótese

nula for verdadeira. Esta distribuição de amostras tem média 3,0 e desvio padrão (isso é,

erro padrão da média) dado por:

3,00 3,05

Tipo 1Tipo 2

cx

x

Figura 9. Erros tipo 1 e tipo 2.

Se a média da amostra cair acima do valor crítico indicado, cx , a hipótese nula é

rejeitada. Assim, a região preta, com área de 0,05, representa a probabilidade de um erro

tipo um.

Suponha que se toma uma hipótese alternativa μ = 3,05%.

A linha pontilhada da Figura 9 mostra a distribuição da média amostrada se a

hipótese alternativa estiver correta. Mesmo nesse caso, a hipótese nula será mantida se o

valor da média for menor que cx .

A probabilidade desse erro tipo dois é representada pela área achurada. Essa figura

esclarece a inter dependência dos dois tipos de erros. Se, por exemplo, P for diminuído para

0,01 para reduzir a chance do erro tipo um, cx aumentará e o risco de erro tipo dois

também. Da mesma maneira, a diminuição da probabilidade de erro tipo dois só pode ser

feita às custas de um aumento da probabilidade de erro tipo um.

A única maneira de diminuir ambos os riscos é pelo aumento da amostra.

O efeito de aumentar n para 9, por exemplo, é mostrado na Figura 10.

Page 68: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

68

3,00 3,05

cx

x

Tipo 1

Tipo 2

Figura 10. Erros tipo um e tipo dois (2º exemplo).

A diminuição resultante no erro padrão das médias produz uma diminuição nos dois

tipos de erros, para um dado valor de cx . A probabilidade de uma hipótese nula falsa ser

rejeitada é conhecida como o poder de um teste. Isso é, o poder de um teste é (1 – a

probabilidade de um erro tipo dois). No exemplo acima, é uma função da média

especificada na hipótese alternativa, do tamanho da amostra, do nível de significância e se o

teste é mono ou bi-caudal.

Em algumas circunstâncias, quando são disponíveis dois ou mais testes para avaliar

a mesma hipótese, é útil comparar os poderes desses testes antes de escolher o mais

apropriado.

Erros do tipo um e dois são relevantes também quando testes de significância são

aplicados de maneira seqüencial. Um exemplo dessa situação é a aplicação de teste-T para

a diferença entre duas médias, após se utilizar um teste-F para decidir se as variâncias das

amostras podem ser associadas.

Ambos os tipos de erros um e dois podem surgir do teste-F e a ocorrência de

qualquer tipo significará que os valores adotados de significância para o teste-T

subseqüente são incorretos, já que a forma incorreta de teste-T foi aplicada.

Page 69: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

69

CONTROLE DE QUALIDADE E AMOSTRAGEM

Os testes estatísticos descritos até aqui foram aplicados em situações mais simples

do que as encontradas em muitos laboratórios de análises. Assim, assume-se que não havia

nenhuma dificuldade ou erro envolvido em conseguir as amostras utilizadas nas análises.

Na prática, a amostragem causa problemas diretos nas análises.

As análises para boro em amostras de plantas podem ser complicadas se o nível de

boro variar em diferentes partes da planta, ou de uma planta para outra. Dois outros

problemas devem ser ressaltados. Existe o problema que ocorre quando o mesmo método é

aplicado em amostras similares em laboratórios diferentes.

Esse o problema de se aplicar análise estatística para medidas repetidas em amostras

que apresentam características que variam com o tempo, como os itens sucessivos numa

linha de montagem. Nessas situações, métodos convencionais de estatística (testes para

pontos fora da curva, testes-T, ANOVA, etc.) são aplicados a situações muito importantes

no desenvolvimento e aplicação de métodos analíticos.

Amostragem

Esse tópico é de fundamental importância, pois, a menos que para a etapa de

amostragem seja dada atenção cuidadosa, os métodos estatísticos discutidos aqui podem

tornar-se inválidos para a discussão dos resultados.

Um analista deve lidar com amostra, pois, na maioria dos casos, é impraticável ou

impossível analisar todo o objeto sob consideração. Por exemplo, não é praticável analisar

um tanque cheio de leite para determinar o teor de gordura e é impossível analisar toda a

água de um rio para se determinar poluentes. Além disso, muitos procedimentos analíticos

são destrutivos e assim não podem ser aplicados a um objeto de valor.

Para ilustrar alguns aspectos da amostragem, vamos considerar a situação onde se

tem uma batelada de tabletes e quer-se obter uma estimativa para o peso médio de um

tablete. Em vez de pesar todos os tabletes, toma-se alguns deles (digamos dez) e pesa-se um

Page 70: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

70

por um. Nesse exemplo a batelada de tabletes forma uma população e os tabletes pesados

formam uma amostra dessa população.

Se a amostra for usada para deduzir as propriedades da população, ela deve ser o

que é conhecido estatisticamente como uma amostra aleatória.

Essa é uma amostra tomada de uma maneira que todos os membros da população

têm a mesma chance de ser incluído. Apenas assim as equações utilizadas no tratamento

estatístico, por exemplo, para o cálculo do limite de confiança da média podem ser

utilizadas.

Apesar de, na prática o analista poder espalhar os tabletes na sua bancada e tentar

pegar uma amostra de dez ao acaso, esse método pode originar uma bias inconsciente.

A melhor maneira de se obter uma amostra aleatória é pelo uso de uma tabela de

números aleatórios.

A cada membro da população é dado um número, todos com o mesmo número de

dígitos, por exemplo, 001, 002, 003, etc. Números aleatórios são então lidos de uma tabela

de números aleatórios, começando em um valor arbitrário, por exemplo, 964, 173, etc.

Um método alternativo, e muito mais simples, às vezes usado, é selecionar os

membros da população em intervalos regulares, diga-se a cada 100, numa linha de

produção. Esse método não é inteiramente satisfatório, pois pode induzir a uma

coincidência periódica no peso dos tabletes.

A importância da aleatoriedade das amostras é evidente. No exemplo acima a

população é constituída de membros discretos, que são praticamente os mesmos, isso é,

tabletes. A amostragem de materiais que não são assim, como rochas, pós, gases e líquidos

é chamada de amostragem de volume (bulk).

Se o volume de material é perfeitamente homogêneo, então apenas uma pequena

porção, ou incremento de teste, é suficiente para definir suas propriedades.

Na prática, os volumes de materiais não são homogêneos por uma série de razões.

Materiais como minerais ou sedimentos consistem de partículas macroscópicas de várias

composições que não podem ser homogeneamente distribuídas no volume. Fluídos podem

ser não homogêneos numa escala molecular, devido a gradientes de concentração.

Page 71: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

71

Tais não-homogeneidades só podem ser detectadas tomando-se uma amostra dos

incrementos de teste de diferentes partes do volume. Se possível isso deve ser feito de

forma aleatória, considerando o volume como uma coleção de pequenas células de igual

tamanho e usando uma tabela de números aleatórios como descrito acima. Da amostra

aleatória, a média, x , e a variância, s2, podem ser calculadas.

Há duas contribuições para s2: a variância da amostragem, σ1

2, devida às diferenças

entre os membros da amostra, por exemplo, peso dos tabletes e as variâncias das medidas,

σ02, devido aos erros aleatórios das pesagens de cada tablete. A seguir, se descreverá como

essas duas contribuições podem ser separadas e estimadas com a ANOVA.

Para volumes a variância da amostra é dependente do tamanho do incremento

relativo à escala das não homogeneidades. Com o aumento do incremento, as não-

homogeneidades tendem a ser incluídas numa média e a variância diminui.

Separação e estimativa de variâncias usando ANOVA

Na aula passada o uso da ANOVA mono-modal foi descrito para testar a diferença

entre médias quando havia uma possível variação devido a um fator de efeito fixo. Agora

será considerada a situação onde existe um fator de efeito aleatório, ou seja, a variação da

amostragem.

A ANOVA mono-modal será utilizada não para testar se as médias variam

significativamente, mas para separar e estimar a diferença entre as fontes de variação. A

Tabela 23 mostra o resultado do teste de pureza do tambor de cloreto de sódio. Cinco

amostras de incrementos de teste, A - E, foram tomadas de diferentes partes do tambor,

escolhidas de modo aleatório e quatro análises foram feitas em cada amostra.

Tabela 23. Teste de pureza de cloreto de sódio (do exemplo).

Amostra Pureza Média

A 98,8 98,7 98,9 98,8 98,8

B 99,3 98,7 98,8 99,2 99,0

C 98,3 98,5 98,8 98,8 98,6

D 98,0 97,7 97,4 97,3 97,6

E 99,3 99,4 99,9 99,4 99,5

Page 72: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

72

Como já foi discutido, há duas possíveis fontes de variações: aquela devido aos

erros aleatórios nas medidas de pureza, dada pela variância calculada, σ02, e aquela devido

à variação real da pureza das amostras de cloreto de sódio em diferentes pontos do tambor,

dada pela variância das amostras, σ12.

Lembrar-se que média quadrada é igual a:

i j

ii

nh

xx

)1(

)( 2

2

0 (47)

Como a média quadrada dentro das amostras não depende da média da amostra

(aula anterior), ela pode ser usada como uma estimativa de σ02. A média quadrada entre as

amostras não pode ser usada para estimar σ12 diretamente, pois a variação entre as médias

das amostras é causada por ambos, erros aleatórios de medidas e de pureza das amostras.

Entretanto, antes de uma estimativa da variância das médias quadradas das amostras, σ12,

for feita, é necessário conduzir um teste para verificar se ele difere significativamente de

zero. Isso é feito comparando-se as médias quadradas dentro e inter amostras: se elas não

diferirem significantemente, então σ12 = 0 e ambas médias quadradas estimam σ0

2.

O cálculo das médias quadradas usando a fórmula dada na

Tabela 17. Todos os valores da Tabela 23 foram subtraídos de 98,5 para facilitar a

aritmética (Tabela 24 e Tabela 25). Como a média quadrada entre as amostras é maior que

aquela dentro de cada amostra, σ12 deve diferenciar significativamente de zero usando-se

um teste-F para comparar as duas médias quadradas tem-se:

300653,0

96,115,4 F

Page 73: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

73

Tabela 24. Cálculos do exemplo (III).

Amostra Ti Ti2

A 0,3 0,2 0,4 0,3 1,2 1,44

B 0,8 0,2 0,3 0,7 2,0 4,00

C -0,2 0,0 0,3 0,3 0,4 0,16

D -0,5 -0,8 -1,1 -1,2 -3,6 12,96

E 0,8 0,9 1,4 0,9 4,0 16,00

0,4T 56,342 i

iTT

62,9

20

5

4

2

i j

ijx

N

h

n

Tabela 25. Cálculos do exemplo (IV).

Fonte de variação Soma dos quadrados Graus de liberdade Média quadrada

Entre amostras 84,720

0,4

4

56,34 2

4 96,14

84,7

Dentro da amostra Por subtração = 0,98 15 0653,015

98,0

Total 82,820

0,462,9

2

19

O valor crítico de F, para P = 0,05 é 3,056. Como o valor calculado é muito maior,

σ12 difere significativamente de zero.

A média quadrada dentro das amostras dá 0,0653 como uma estimativa de σ02.

Como a média quadrada entre as amostras estima σ02 + nσ1

2 tem-se: estimativa de σ1

2 =

(médias quadradas entre amostras – dentro das amostras) / n = (1,96 - 0,0653) / 4 = 0,47,

que seria a variância das médias quadradas entre as amostras.

Page 74: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

74

CAPÍTULO 6

ANÁLISES COLABORATIVAS

Introdução

Análises colaborativas procuram examinar a seguinte questão:

“Se a mesma amostra (ou um conjunto de alíquotas idênticas de uma única amostra)

é analisada com o mesmo método em diferentes laboratórios, os resultados obtidos serão os

mesmos, nos limites de erros aleatórios?”.

Muito freqüentemente é assumido que, com o uso de equipamentos idênticos em

laboratórios diferentes, resultados muito parecidos serão seguramente obtidos, desde que

cientistas experientes apliquem um dado método a amostras idênticas. Infelizmente, a

prática tem mostrado repetidamente que essa expectativa não é freqüentemente satisfeita e

que resultados muito divergentes podem ser obtidos, mesmo se todas as precauções

experimentais forem tomadas. Por exemplo, em um estudo o nível de ácidos graxos

insaturados numa amostra de óleo de palmeira foi relatado por 16 laboratórios diferentes

variando entre 5,5% até 15,0%. O mais estranho dessa grande variação é que não foi um

método de análise de traços e que foi utilizado um método direto, de espectrometria de

absorção, após a amostra original ter sido saponificada e digerida com uma enzima. Além

disso, uma determinação do porcentual de alumínio numa amostra de rocha em dez

laboratórios produziu valores variando de 1,11% até 1,9%.

Esses resultados divergentes são extremamente sérios. Eles implicam em que uma

amostra de (por exemplo) alimento que aparentemente passou por um teste de qualidade em

um laboratório, pode não passar pelo mesmo método em outro.

Page 75: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

75

O soro sanguíneo de um indivíduo pode parecer bem normal em um laboratório,

mas dar indicações de uma patologia qualquer em outro. Tal possibilidade é claramente

inaceitável: métodos analíticos para serem usados em diferentes laboratórios devem ser

cuidadosamente escolhidos para minimizar as variações acima.

Apenas os métodos que dão pequenas variações interlaboratoriais deverão ser

aceitos para o uso em análises padrões bem conceituadas.

Gráficos de duas amostras

A dispersão alarmante de dados obtidos em diferentes laboratórios durante análises

colaborativas pode, a princípio, ser explicada por erros aleatórios nos diferentes

laboratórios. Na prática a evidência é avassaladora de que essas variações são causadas por

erros sistemáticos.

Esse resultado é demonstrado pelo uso de um gráfico de duas amostras (ou x - y),

como sugerido por W. J. Youden. O princípio envolvido é que a cada laboratório que está

colaborando na análise deve ser enviado duas amostras similares (x e y) e se farão

determinações em cada uma.

Os resultados são graficados como na Figura 11. Cada ponto representa um par de

resultados de um único laboratório.

Amostra X

Am

ost

ra Y

YX ,

Figura 11. Gráfico mostrando resultados de análise de duas amostras num único laboratório.

Page 76: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

76

Os valores médios de X e de Y, YX , , também são determinados, originando um

par de eixos que divide o gráfico em quatro quadrantes.

Se os resultados de diferentes laboratórios variam somente por causa de erros

aleatórios, as determinações de X e Y, em cada caso, deveriam resultar em valores que são:

ambos muito altos, ambos muito baixos, X alto e Y baixo ou X baixo e Y alto. Essas quatro

possibilidades deveriam ser igualmente distribuídas resultando aproximadamente no

mesmo número de pontos em cada quadrante do gráfico.

Se, entretanto, os erros sistemáticos forem a principal causa das variações,

esperaríamos que o laboratório que obtém um valor alto de X, também encontrasse um

valor alto de Y. Isso deveria levar a uma predominância de pontos no quadrante direito alto

e no quadrante esquerdo baixo do gráfico, sendo esse, realmente, o resultado obtido em

praticamente todas as medidas colaborativas.

É aparente que, numa ausência hipotética de erros aleatórios, todos os pontos

deveriam cair numa diagonal de 45º no gráfico. Na prática, desde que erros aleatórios estão

sempre presentes em alguma extensão, os pontos caem em uma elipse cujo eixo maior é a

diagonal.

A distância da perpendicular de um ponto individual à diagonal dá uma medida do

erro aleatório e a perpendicular intercepta a diagonal numa distância de ( YX , ) que é

relacionada com o erro sistemático daquele laboratório. É evidente que esta abordagem de

duas amostras para as análises colaborativas pode dar muita informação útil. Isso será visto

mais adiante.

Preparando uma Análise Colaborativa

O propósito de uma análise colaborativa é claro: avaliar a variação em um método

particular de análise (freqüentemente um método novo ou recém modificado) quando ele é

aplicado em vários laboratórios.

Os resultados podem ser usados para se avaliar se o método é adequado para o uso

geral, e às vezes, para identificar aqueles laboratórios que podem ser incumbidos de fazer

Page 77: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

77

um trabalho analítico importante, por exemplo, na área de saúde pública. Assim, parece ser

fácil se organizar uma cooperação nesse sentido.

Um laboratório único de referência (freqüentemente, na prática, um órgão do

Governo), deve mandar uma ou mais amostras para um certo número de laboratórios,

juntamente com instruções detalhadas sobre como utilizar o método analítico proposto.

Os laboratórios colaboradores deverão analisar as amostras, de acordo com as

instruções recebidas, e devolver os resultados ao centro de referência, onde eles serão

avaliados por métodos estatísticos padrão.

Na prática, uma boa quantidade de trabalho é envolvida em planejar e executar essa

colaboração, e muitas decisões importantes devem ser tomadas antes de qualquer amostra

ser enviada.

Um experimento preliminar crucial é o teste de “robustez”. Já foi visto na primeira

parte que mesmo experimentos analíticos muito simples apresentam muitos passos

individuais e talvez empregue uma certa quantidade de reagentes.

Assim, fatores experimentais (temperatura, pH, composição do solvente, umidade,

pureza dos reagentes, concentrações, etc.) afetarão os resultados, e é essencial que eles

sejam identificados e estudados antes de qualquer ensaio colaborativo ser levado a efeito.

Em alguns casos, um método que é muito sensível a pequenas mudanças de um

fator pode tornar difícil o seu controle (por exemplo, reagentes de pureza muito elevada) de

tal forma que o método deva ser rejeitado como impraticável numa análise colaborativa.

Em outros casos, a colaboração pode até continuar, porém os participantes devem ser

alertados sobre a sensibilidade do método àquele fator. É importante saber que muita

informação pode ser obtida de um número relativamente pequeno de experimentos.

Suponha que se acredite que sete fatores experimentais (A - G) podem afetar os resultados

de uma análise. Esses fatores devem ser testados (pelo menos) em dois valores, chamados

níveis, para saber se eles são realmente significantes. Assim, se a temperatura afetar o

resultado, deve-se fazer experimentos preliminares em duas temperaturas (níveis) e

comparar os resultados. Da mesma maneira, se a pureza dos reagentes for importante, deve-

se fazer experimentos com reagentes de alta pureza e com pureza comum.

Page 78: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

78

Pode-se imaginar, então, que 27 experimentos preliminares, cobrindo todas as

combinações possíveis de sete fatores em dois níveis, serão necessários. Na prática,

entretanto, apenas oito experimentos fornecerão as informações importantes.

Os dois níveis dos fatores são chamados de (+) e (-) e a Tabela 26 mostra como

esses níveis são atribuídos aos oito experimentos, cujos resultados são chamados de y1, y2,

até y8.

O efeito de se alterar cada um dos fatores do seu nível alto para o seu nível baixo é

facilmente calculável.

Tabela 26. Atribuição de níveis para oito experimentos.

Experimento Fatores Resultado

A B C D E F G

1 + + + + + + + Y1

2 + + - + - - - Y2

3 + - + - + - - Y3

4 + - - - - + + Y4

5 - + + - - + - Y5

6 - + - - + - + Y6

7 - - + + - - + Y7

8 - - - + + + - Y8

Assim, o efeito de se mudar B de + para - é dado por:

4

)(

4

)( 87436521 yyyyyyyy

Quando todas as sete diferenças para os fatores A - G forem calculadas desta

maneira, é fácil identificar qualquer fator que apresentar um grande efeito no resultado.

Pode-se demonstrar que, qualquer diferença que seja duas vezes o valor do desvio padrão

de medidas repetidas é significante e deveria ser mais bem estudada.

Esse conjunto simples de experimentos, tecnicamente conhecido como um projeto

fatorial incompleto, tem a desvantagem de não poder detectar as interações entre os fatores.

Um outro ponto que deve ser estabelecido de antemão, antes da colaboração começar é o

número de laboratórios participantes. Claramente esse número não deve ser tão pequeno,

pois senão os resultados terão uma aplicabilidade muito restrita.

Page 79: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

79

Como as diferenças sistemáticas entre os laboratórios serão as causas da maioria das

variações nos resultados, é melhor enviar algumas amostras para muitos laboratórios do que

o inverso, apesar de que o grande número de laboratório envolverá mais gastos de tempo e

dinheiro.

Na prática, muitas análises colaborativas são conduzidas de maneira satisfatória

entre 10 a 20 laboratórios.

A preparação, empacotamento e envio das amostras para os outros laboratórios é um

elemento importante na colaboração.

Cálculos em Análises Colaborativas

Quando o trabalho experimental na análise colaborativa está completo, e os dados

são enviados ao laboratório de referência, deve ser feita uma avaliação estatística dos

resultados. Esses cálculos devem revelar quanto da variação entre laboratórios participantes

se deve a erros sistemáticos.

Talvez o tipo mais simples de colaboração é aquele onde cada laboratório

participante recebe uma única amostra e faz medidas repetidas.

Os resultados reportados ao laboratório de referência devem ser analisados para

separar as variações entre as repetições das variações entre laboratórios. O exemplo

seguinte mostra como isso pode ser feito por uma aplicação simples de uma ANOVA

mono-modal; nesse caso temos um fator de efeito aleatório, como descrito antes.

Exemplo: uma amostra de um alimento para animal, contendo o promotor de

crescimento olaquindox foi enviado para cinco laboratórios, cada um devendo fazer

análises duplicadas por HPLC com um detector de UV-vis. Os seguintes resultados estão

mostrados na Tabela 27.

Tabela 27. Resultados das análises de cinco laboratórios.

Laboratório Olaquindox encontrado (mg kg-1

)

1 230 22,2

2 23,8 22,6

3 21,0 23,8

4 26,5 27,1

5 21,4 21,4

Page 80: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

80

Estimar as variações aleatórias e entre laboratórios desta colaboração. Os cálculos

de ANOVA podem começar por subtrair 20 de cada resultado, obtendo-se os resultados da

Tabela 28.

Tabela 28. Cálculos do exemplo (V).

Laboratório Ti Ti2

1 3,0 2,2 5,2 27,04

2 3,8 2,6 6,4 40,96

3 1,0 3,8 4,8 23,04

4 6,5 7,1 13,6 184,96

5 1,4 1,4 2,8 7,84

8,32T 84,2832 i

iTT

06,147

10

5

2

2

i j

ijx

N

h

n

A ANOVA é mostrada então na Tabela 29.

Tabela 29. Cálculos do exemplo (VI).

Fonte de variação Soma dos quadrados Graus de liberdade Média quadrada

Entre laboratórios 336,3410

8,32

2

84,284 2

4 8,584

Dentro do laboratório Por subtração = 5,140 5 1,02

Total 476,3910

8,3206,147

2

9

Como a média quadrática entre laboratórios é maior que aquela dentro do

laboratório, o teste-F é usado para ver se a diferença é significante. O valor de F, nesse

caso, é dado por:

350,8028,1

584,85,4 F

Page 81: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

81

O valor crítico de F4,5 (P = 0,05) é 5,192, assim conclui-se que a diferença entre as

duas médias quadráticas é significante. Isso significa que a variação sistemática entre

laboratórios (σ12) é significantemente maior que zero e pode ser estimada como [(média

quadrática entre - amostras) - (média quadrática interamostras)] / n. O valor resultante para

σ12 é 3,878, mostrando claramente que a maior diferença nos resultados é devido a erros

sistemáticos diferentes entre os laboratórios.

Na primeira parte da aula viu-se que uma colaboração na qual cada laboratório faz

uma única determinação em cada uma de duas amostras similares pode gerar dados

valiosos sobre erros sistemáticos e aleatórios. Essa aproximação tem outras vantagens

relacionadas com o fato dos laboratórios participantes não ficarem tentados a censurar uma

ou mais determinações repetidas. Além disso, mais material pode ser estudado sem um

grande número de experimentos. Exemplo: o nível de chumbo (em ng g-1

) em duas

amostras similares (A e B) de formulações de leite em pó para crianças foi determinado em

nove laboratórios (1 - 9) por espectroscopia de absorção atômica com forno de grafite. Os

resultados são mostrados na Tabela 30.

Tabela 30. Nível de chumbo (em ng g-1

) em duas amostras similares (A e B) de formulações de

leite em pó para crianças - determinado em nove laboratórios (do exemplo).

Amostra Laboratórios

1 2 3 4 5 6 7 8 9

A 35,1 23,0 23,8 25,6 23,7 21,0 23,0 26,5 21,4

B 33,0 23,2 22,3 24,1 23,6 23,1 21,0 25,6 25,0

Esse exemplo difere do anterior no fato de que as amostras e os laboratórios são

diferentes.

Numa abordagem normal, tal situação seria tratada por uma ANOVA bi-modal.

Entretanto, por enquanto, têm-se apenas duas amostras, escolhidas deliberadamente por

serem similares no conteúdo de analito, assim não há interesse em avaliar a diferença entre

os conteúdos. Os cálculos podem então ser efetuados numa maneira que é muito mais

simples, tanto numericamente quanto conceitualmente do que uma ANOVA bi-modal

completa. Ao efetuar os cálculos nota-se que os resultados obtidos por cada laboratório para

a amostra A podem incluir um erro sistemático.

Page 82: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

82

O mesmo erro sistemático deverá estar incluído nos resultados daquele laboratório

para a amostra B. A diferença D (= A - B) deverá ter, então, esse erro removido, assim a

dispersão dos valores de D dará uma estimativa dos erros aleatórios das medidas. De

maneira similar, A e B podem ser somados para fornecer T, a dispersão dos quais dá uma

estimativa da variação total dos resultados. A variância medida pode então ser estimada

por:

)1(2

)( 2

2

0

n

DDi (47)

E a variância total, σ2, devida a todas as fontes de erros, é estimada por:

)1(2

)( 2

2

n

TTi (48)

Observe que ambas equações apresentam um (2) no denominador, relacionado com

a existência de dois conjuntos de dados.

Os resultados desta análise podem ser expressos na Tabela 31.

Tabela 31. Resultados do exemplo.

1 2 3 4 5 6 7 8 9

A 35,1 23,0 23,8 25,6 23,7 21,0 23,0 26,5 21,4

B 33,0 23,2 22,3 24,1 23,6 23,1 21,0 25,6 25,0

D 2,1 -0,2 1,5 1,5 0,1 -2,1 2,0 0,9 -3,6

T 68,1 46,2 46,1 49,7 47,3 44,1 44,0 52,1 46,4

Mais cálculos com as últimas duas linhas mostram que 244,0D , 33,49T e,

assim a estimativa de é (1,383)2 e uma estimativa de σ0

2 é (5,296)

2. Assim, F8,8 = (5,296 /

1,383)2 = 14,67. O valor crítico (P = 0,05) é 3,44 (tabelas de F, página Erro! Indicador

não definido.).

O resultado experimental excede, em muito, o valor crítico e, assim, concluiu-se que

σ2 é significantemente maior que σ0

2. Isso implica, como tem se visto, que as variações

Page 83: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

83

interlaboratoriais não podem ser atribuídas por erros aleatórios de medidas e que erros

sistemáticos devem ter ocorrido.

A componente de σ02 devida a esses erros sistemáticos, σ1

2, é calculada de:

2

0

2

12 (49)

Novamente aparece o (2) nessas equações.

Assim, é uma tarefa simples calcular-se que uma estimativa de σ12 é (3,615)

2.

Mesmo análises colaborativas muito simples, desse tipo, não deixa de ter seus

problemas. Às vezes, um laboratório não consegue fazer as medidas em ambas ou todas as

amostras enviadas, talvez pela perda de uma delas em trânsito ou sua adulteração, ou ainda

devido a erros grosseiros no próprio laboratório.

Dados faltando apresentam problemas de interpretação que só podem ser abordados

em um nível mais avançado.

Um outro problema em análises colaborativas é o dos pontos fora da curva – um ou

mais laboratórios podem produzir resultados que parecem estar fora da curva em relação

aos outros. No exemplo acima, parece que ambos os resultados obtidos pelo laboratório um

são consideravelmente maiores que os outros resultados e a aplicação do teste-Q mostrará

que os resultados podem, sem dúvida, serem rejeitados a um nível P = 0,05.

Após esta rejeição, o recálculo de σ02 e σ

2 para os demais laboratórios mostram que,

apesar de σ2 ainda ser grande, o teste-F indica que a diferença não é mais significante (P =

0,05). Isso significa que, se o laboratório um for eliminado da cooperação, as diferenças

observadas nos resultados dos outros laboratórios podem ser atribuídas simplesmente a

erros aleatórios. Muitas análises colaborativas podem ser muito mais complexas que essas,

envolvendo várias amostras e laboratórios e experimentos repetitivos. Isso será um tema

futuro.

Page 84: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

84

Cartas de controle

Uma situação que pode ocorrer é quando um produto manufaturado é monitorado

em função do tempo para ver se os itens individuais do produto contêm em média, os

valores corretos de uma dada substância, e que não há muita variação. Uma maneira de se

fazer isso é tomar-se pequenas amostras a intervalos regulares.

Considerar a situação específica onde o peso dos tabletes que saem de uma linha de

produção é monitorado.

Idealmente, os pesos de cada tablete medido devem estar de acordo com um valor

alvo, µo; mas, na prática, há alguma variação aleatória de um tablete a outro. Essa variação

é parcialmente devida ao erro ao se avaliar o peso do tablete e parcialmente devida às

diferenças reais de pesos. Suponha que nós conheçamos o tamanho da variação aleatória

total, como medida pelo desvio padrão da população, σ, do exemplo anterior.

Se o processo está sob controle, isso é, se os pesos dos tabletes produzidos pelo

processo tiverem realmente um peso médio, µo e um desvio padrão, σ, então, para uma

amostra consistindo de n tabletes, aproximadamente 95% das médias amostradas cairá

dentro dos limites dados por:

n

20 (50)

E aproximadamente 99,7% no intervalo:

n

30 (51)

Uma carta de controle é um gráfico que apresenta médias amostradas consecutivas

de tal maneira que qualquer ação corretiva pode ser tomada o mais rapidamente possível. A

Figura 12 mostra um tipo de carta de controle, conhecida como uma carta de Shewhart,

para o processo descrito acima.

Page 85: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

85

Tempo

Valor alvo

Linha superior de ação

Linha superior de atenção

Linha inferior de atenção

Linha inferior de ação

X

0

n

30

n

20

n

20

n

30

Figura 12. Carta de controle.

O propósito das linhas indicadas é dado pelos próprios nomes. Como a

probabilidade de uma média amostrada cair fora das linhas de ação, quando o processo

investigado estiver sob controle, é de apenas 0,003 (isso é, três em 1000), o processo

normalmente é interrompido e o motivo investigado. A probabilidade de a média amostrada

cair entre as linhas de aviso e ação é cerca de 0,025 (uma em 40): um desses pontos não é

preocupante, mas se duas ou mais médias caírem nesse intervalo, o processo deve ser

interrompido e investigado.

Pode-se observar que uma carta de controle mostra uma série de testes de

significância, com as linhas de aviso e ação representando P = 0,05 e P = 0,003,

respectivamente. Ocasionalmente o processo pode ser interrompido ainda sob controle (um

erro do tipo um), mas o risco é baixo.

Existem duas razões pelas quais os pontos podem começar a cair fora das linhas de

ação.

Primeiro, a média dos itens produzidos, conhecida como a média do

processo, pode ter se deslocado do valor alvo.

Segundo: pode ter havido um aumento da variação, de tal forma que as

linhas de aviso e ação não indicam mais as probabilidades corretas, porém

estão muito próximas do valor alvo.

Page 86: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

86

Por outro lado, uma diminuição na variação significa que uma mudança na média

do processo pode ficar sem ser detectada, novamente por causa das linhas de aviso e ação,

que não indicam mais as probabilidades corretas e que estão muito afastadas do valor alvo.

Por essas razões, é muito importante monitorar adequadamente tanto as variações

como os valores de médias dos processos. Isto é feito mais facilmente utilizando o

intervalo, w, (isto é, a diferença entre o maior e o menor valor medido) de cada amostra. A

carta de Shewhart apropriada pode ser construída com a ajuda de tabelas que dão as linhas

de ação e alerta, e o valor alvo de w para diferentes valores de n e σ. As cartas para médias

e para intervalos são usadas de maneira simultânea, com a ação apropriada sendo executada

se os pontos caírem fora das linhas em cada carta.

Ainda não foi considerado em detalhes o estabelecimento de um valor para s; isso é

crucial na definição das cartas de controle para ambos, x e w; σ é, às vezes, chamado de

capacidade do processo, porque ele mede a sua variação inerente. Como ele é um desvio

padrão da população, ele deve ser estimado de um número muito grande de amostras de,

por exemplo, tabletes. Isso pode, claramente, causar dificuldades: precisamos estar seguros

que, quando, essas medidas forem feitas, não haja deslocamentos na média do processo.

Isso pode dar um valor erroneamente alto para s, mas ainda não construímos qualquer carta

de controle para monitorar a média. Esse problema circular é resolvido tomando um grande

número de pequenas amostras em um dado período de tempo. De cada amostra, uma

estimativa da variância dentro da amostra pode ser calculada, que não é afetada por

qualquer possível variação entre as amostras. Pode ser feita a média dessas estimativas para

dar um valor da capacidade do processo.

Uma consideração importante no uso das cartas de Schewhart é quão rapidamente

uma mudança na média do processo pode ser detectada. Quando a média do processo

muda, o próximo ponto não precisa, necessariamente, cair fora das linhas de ação e aviso.

Por exemplo, se a média do processo muda por n

3 há uma probabilidade de ½ que o

próximo ponto caia fora das linhas de ação. Se a mudança for de n

1 esta probabilidade

cairá para 1/40 .

Page 87: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

87

O número médio de pontos que deve ser plotado antes que uma mudança na média

do processo seja detectada é conhecido como comprimento médio de corrida (ARL).

Claramente ele depende do tamanho da mudança da média do processo em relação a n

;

quanto maior a mudança mais rapidamente é detectada. Por exemplo, se a média do

processo muda de n

1 então a ARL antes de uma média da amostra cair fora das linhas

de ação é cerca de 50.

Um tipo diferente de carta de controle, conhecido como carta cusum, utiliza todas as

médias amostradas prévias, ao invés de apenas uma ou duas, como nas cartas de Shewhart.

‘Cusum’ é uma abreviação para ‘cumulative sum – soma cumulativa’, isso é, a soma dos

desvios das médias amostradas do valor alvo, feita acumulativamente. Um exemplo torna

esse conceito mais claro. A Tabela 32 dá os valores de médias amostradas para uma

seqüência de amostras. O valor de n

1 sabe-se que é igual a 2,5 e a Figura 13 mostra a

carta de Shewhart para as médias das amostras.

Tabela 32. Cálculo da soma cumulativa. Valor alvo = 80.

Nº da observação Média da amostra Média amostra –

Valor alvo Cusum

1 82 2 2

2 79 -1 1

3 80 0 1

4 78 -2 -1

5 82 2 1

6 79 -1 0

7 80 0 0

8 79 -1 -1

9 78 -2 -3

10 80 0 -3

11 76 -4 -7

12 77 -3 -10

13 76 -4 -14

14 76 -4 -18

15 75 -5 -23

5,2n

Page 88: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

88

Número de observações

Valor alvo

U.A.L.

U.W.L.

L.W.L.

L.A.L.

5 10

X

80

85

75

Figura 13. Carta de controle (do exemplo).

Pode-se observar que, apesar de nenhum ponto cair fora das linhas de aviso, uma

seqüência cai num dos lados do valor alvo.

A Tabela 32 também mostrou os valores calculados de cusum. Obviamente, se o

processo estiver sob controle, desvios positivos e negativos são igualmente esperados,

assim o cusum deve oscilar próximo de zero. Os valores de cusum são graficados na Figura

14.

Um bom impacto visual é conseguido se a carta cusum for desenhada de modo que

a distância correspondendo a n

2 no eixo vertical for igual à distância entre sucessivas

observações no eixo x.

Page 89: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

89

Número de

observações

5 10C

usu

m10

20

30

-10

-20

-30

0

Figura 14. Carta cusum.

Da carta cusum parece que a média do processo muda após oito amostras terem sido

tomadas. Esta é a maior vantagem de uma carta cusum – ela indica em que ponto o

processo saiu de controle.

Para se testar se um perfil da carta de cusum realmente indica que a média do

processo realmente mudou e não apenas uma variação aleatória, uma máscara V pode ser

usada. Como pode ser observada na Figura 15, uma máscara em forma de V,

preferencialmente recortada em plástico transparente, é colocada sobre a carta cusum com

seu eixo horizontal e seu vértice a uma distância d à direita da última observação. Os semi-

ângulos entre os braços do V são chamados de θ.

Número de

observações

d

Cusu

m

0

Figura 15. Carta cusum (II).

Page 90: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

90

Diz-se que o processo está sob controle quando todos os valores de cusum caem

dentro dos braços de V, como mostrado na Figura 15. Por outro lado, a Figura 16 mostra

uma situação em que o processo está fora de controle.

Número de

observações

d

Cu

sum

0

Figura 16. Carta cusum (III).

Nesse caso, dois dos valores de cusum estão fora dos braços do V, o que indica que

a média do processo caiu abaixo do valor alvo. Obviamente o desempenho da máscara

depende dos valores selecionados para θ e d. Os valores de θ e d devem ser escolhidos de

foram que muito poucos alarmes falsos sejam dados quando o processo estiver sob

controle, mas uma mudança importante na média do processo deve ser rapidamente

detectada.

Uma carta de cusum também pode ser usada para estimar o tamanho da mudança

que ocorreu na média do processo quando ele ficou fora de controle. Se, por exemplo, a

média do processo diminui por Δ então, por média, cada valor de média amostrada será Δ

menor que o valor alvo. Como resultado, o cusum decrescerá, numa média, por Δ para cada

ponto plotado. Assim, a tangente média da linha ligando os pontos do cusum dá uma

medida da mudança na média do processo e, assim, da correção requerida.

Os métodos descritos nesse tópico podem ser utilizados para monitorar a exatidão e

a precisão de análises de rotina no nosso laboratório.

Em intervalos pré-determinados de tempo, um pequeno número de medidas

repetidas é feito numa amostra padrão. A média e o intervalo das medidas repetidas são

plotadas em cartas de controle.

Page 91: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

91

A carta de controle para a média monitora a exatidão, sendo o valor alvo a

concentração conhecida do analito no padrão. A carta de controle para o intervalo monitora

a precisão e o valor alvo é a capacidade do processo. Novamente é preciso estabelecer um

valor para a capacidade do processo para montar as cartas de controle. Nesse caso, a

capacidade do processo será quase certamente limitada pelos erros aleatórios envolvidos

nas medidas e não em erros envolvidos na preparação dos padrões. Isso pode ser

confirmado preparando-se um certo número de padrões, cada um contendo a mesma

quantidade de analito (nominal), e fazendo uma série de medidas repetidas com cada um.

ANOVA pode ser usada para verificar se a variância entre os padrões não é

significantemente comparada com os erros aleatórios das medidas. Se não, ela também

pode ser usada para estimar o último parâmetro.

Nesse tópico, experimentos repetitivos significaram uma medida repetida de forma

que todos os passos da análise foram exatamente repetidos, assim estimando todas as

contribuições possíveis de erros aleatórios.

Page 92: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

92

CAPÍTULO 7

ERROS EM ANÁLISE INSTRUMENTAL: REGRESSÃO E

CORRELAÇÃO

A análise instrumental oferece a possibilidade de se experimentar um grande

intervalo de concentrações, ao invés de uma única amostra medida repetidas vezes. Isso

significa que os resultados obtidos são calculados e os erros aleatórios avaliados de uma

maneira diferente do que aqueles anteriormente discutidos. Vamos avaliar o procedimento

de obtenção de gráficos de calibração na análise instrumental.

O analista utiliza uma série de amostras (normalmente no mínimo três ou quatro,

mas freqüentemente muito mais), nas quais a concentração do analito é conhecida. Esses

padrões de calibração são medidos no instrumento analítico sob as mesmas condições do

que aquelas a serem utilizadas para o teste da solução desconhecida. Uma vez que o gráfico

de calibração foi obtido, a concentração do analito em qualquer análise é obtida, como

mostrada na Figura 17, por interpolação.

Concentração

Sin

al

Figura 17. Gráfico de calibração.

Page 93: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

93

Esse procedimento geral dá origem a uma série de importantes questões estatísticas:

i. A curva de calibração é linear? Se ela for uma curva, qual é a sua forma?

ii. Considerando-se que cada ponto, na curva de calibração, é sujeito a erros,

qual é a melhor reta (ou curva) que passa por esses pontos?

iii. Assumindo que a curva de calibração é realmente linear, quais são os erros

estimados e os limites de confiança para a tangente e o intercepto desta

linha?

iv. Quando a curva de calibração for usada pelo analista numa determinação de

uma amostra, quais são os erros e limites de confiança para a concentração

encontrada?

v. Qual é o limite de detecção do método? Isto é, qual é a menor concentração

do analito que pode ser detectada com um nível de confiança pré-

determinado?

Antes de se dedicar a essas questões, é necessário considerar alguns aspectos de se

graficar curvas de calibração.

Inicialmente, é normalmente essencial que os padrões de calibração cubram todo o

intervalo de concentrações requerido para a análise posterior. Com a importante exceção do

“método de adição de padrão”, que será tratado separadamente mais adiante, concentrações

das amostras são normalmente determinadas por interpolação, e não por extrapolação.

Além disso, é de importância crucial incluir o valor para uma amostra do branco na curva

de calibração. O branco não contém qualquer quantidade de analito deliberadamente

adicionado, mas contém os mesmos solventes, reagentes, etc., do que as outras amostras e é

sujeito exatamente ao mesmo procedimento analítico que as amostras.

O sinal do instrumento lido para a amostra do branco freqüentemente não será zero.

Ele é, naturalmente, sujeito a erros, como todos os outros pontos da curva de calibração

sendo, portanto, errado, a princípio, subtrair o valor do branco dos outros valores dos

padrões, antes de plotar a curva de calibração. Finalmente, deve-se notar que a curva de

calibração deve ser plotada sempre com a resposta do instrumento na vertical (y) e com as

concentrações dos padrões na horizontal (x).

Page 94: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

94

Isso é porque os procedimentos a serem descritos adiante assumem que todos os

erros estão na direção y e que as concentrações padrão (valores de x) estão livres de erros.

COEFICIENTE DE CORRELAÇÃO PRODUTO-MOMENTO

Nessa parte será discutido o primeiro dos problemas listados anteriormente – a

curva de calibração é linear? Será assumido que um gráfico linear satisfaz a equação

algébrica:

baxy (52)

Onde b é a tangente da linha e a o intercepto no eixo y. Os pontos individuais nesta

linha serão chamados de (x1, y1), (normalmente a leitura do branco), (x2, y2), (x3, y3) → (xi,

yi) → (xn, yn), isso é, há n pontos juntos.

A média dos valores de x é, como usual, chamada x , e a média dos valores de y é

y , a posição ),( yx , é conhecida como o “centróide” de todos os pontos.

Para se estimar quão bem os pontos experimentais se ajustam em uma linha reta,

nós calculamos o coeficiente de correlação produto-momento, r.

Esse parâmetro estatístico é conhecido simplesmente como “coeficiente de

correlação” porque em ciências quantitativas ele é, de longe, o mais comum. Entretanto,

outros tipos de coeficiente de correlação serão vistos mais adiante.

O valor de r é dado por:

2

1

22 )()(

))((

i

i

i

i

i

ii

yyxx

yyxx

r (53)

Page 95: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

95

Uma observação cuidadosa dessa equação mostra que r pode variar no intervalo

entre 11 r . Como mostrado na Figura abaixo, um valor de r = -1 descreve uma

correlação negativa perfeita, isso é, todos os pontos experimentais caem numa linha reta

com tangente negativa.

r = 1

r = -1

r = 0

x

y

0

Figura 18. Correlações.

Da mesma maneira, quando r = + 1, tem-se uma perfeita correlação positiva, todos

os pontos sobre uma linha com tangente positiva.

Quando não há correlação entre x e y, o valor de r é zero. Na prática analítica,

gráficos de calibração dão, na maioria das vezes, valores de r maior que 0,99, sendo

incomum valores de r menores que 0,90.

Um exemplo típico de cálculo de r ilustra alguns pontos importantes: soluções

padrão aquosas de fluoresceína foram examinadas em um espectrômetro de fluorescência, e

as intensidades são dadas na Tabela 33.

Page 96: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

96

Tabela 33. Intensidade na fluorescência do composto fluoresceína (do exemplo).

Intensidade Concentração (pg mL-1

)

0 2,1

2 5,0

4 9,0

6 12,6

8 17,3

10 21,0

12 24,7

Determinar o coeficiente de correlação r.

Na prática, esse cálculo será feito em uma calculadora programável ou um

computador, mas é ilustrativo examinar como fazê-lo na mão. Os dados são apresentados

na Tabela 34.

Tabela 34. Determinação do coeficiente de correlação r (cálculos do exemplo).

ix iy xxi 2)( xxi yyi

2)( yyi ))(( yyxx ii

0 2,1 -6 36 -11,0 121,00 66,0

2 5,0 -4 16 -8,1 65,61 32,4

4 9,0 -2 4 -4,1 16,81 8,2

6 12,6 0 0 -0,5 0,25 0

8 17,3 2 4 4,2 17,64 8,4

10 21,0 4 16 7,9 62,41 31,6

12 24,7 6 36 11,6 134,56 69,6

42 91,7 0 112 0 418,56 212,2

1,137

7,91

67

42

y

x

Os números da Tabela 34 representam as somas dos números nas respectivas

colunas. Observar que i

i xx )( e i

i yy )( são ambas iguais a zero.

Usando os totais juntamente com a equação anterior, tem-se:

Page 97: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

97

9989,0

44,216

2,216

28,418112

2,216

21

r

Duas observações importantes desse exemplo. Como mostrado na Figura 19, apesar

de alguns pontos estarem visivelmente fora da melhor reta (que foi obtida com o

procedimento a ser discutido mais adiante), o valor de r é muito próximo de um.

A experiência mostra que mesmo curvas de calibração bem dispersa podem gerar

altos valores de r.

0 2 4 6 8 10 12

0

5

10

15

20

25

média (x,y)

Y = A + B * X

A = 1,51786

B = 1,93036

R = 0,99888

Flu

ore

scên

cia

Concentração (pg mL-1)

Figura 19. Curva de calibração do composto fluoresceína (do exemplo).

Assim, é muito importante trabalhar com o número adequado de casas decimais. No

exemplo acima, se desprezar as casas depois da vírgula, obter-se-ia o obviamente incorreto

valor de r = 1.

Apesar do fato de que os coeficientes de correlação poderem ser facilmente

calculados, eles são ainda mais facilmente mal interpretados. Deve-se sempre lembrar que o

uso da equação acima originará valores de r mesmo se os dados forem obviamente não

lineares. A Figura 20 mostra dois casos onde os cálculos de r foram tomados de forma

Page 98: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

98

errônea. Na Figura 20 (A), os pontos da curva de calibração caem claramente em uma

curva.

1 2 3 4 50

1

2

3

4

5

1

2

3

4

5

A

B

r = 0,986

r = 0

x

y

Figura 20. Curvas de calibração.

Essa curva é suficientemente suave para originar um valor de r bastante elevado, se

utilizada a equação acima.

A lição a ser tirada desse exemplo é que a curva de calibração deve sempre ser

construída (ou num papel milimetrado ou no computador). De outra maneira, uma relação

linear pode ser assumida de maneira errônea com o resultado de r obtido simplesmente da

equação dada. A Figura 20 (B) mostra que um coeficiente de correlação zero não significa

que x e y não possuam qualquer relação, apenas que esta relação não é linear.

Como se pôde ver, valores de r obtidos na análise instrumental são normalmente

bastante elevados, assim um valor calculado, juntamente com o gráfico da curva de

calibração, é muitas vezes suficiente para assegurar ao analista que ele obteve uma relação

linear útil.

Page 99: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

99

Em algumas circunstâncias, entretanto, valores de r muito menores são obtidos.

Nesse caso, será necessário usar um teste estatístico adequado para ver se o coeficiente de

correlação ainda é significante, observando sempre o número de pares de pontos obtidos na

medida. O método mais simples para se fazer isso é calcular um valor de t, a partir de um

teste de t, usando a equação:

21

)2(

r

nrt

(54)

O valor calculado de t é comparado com o valor tabelado no nível de significância

desejado, usando um teste t bi-caudal e (n - 2) graus de liberdade. A hipótese nula, nesse

caso, é de que não há correlação entre x e y.

Se o valor calculado de t for maior que o valor tabelado, a hipótese nula deve ser

rejeitada, isso é, conclui-se que, nesse caso, uma correlação significante existe.

A LINHA DE REGRESSÃO DE Y EM X

Assumindo que existe uma correlação linear entre o sinal analítico y e a

concentração x, e mostrar como calcular a melhor linha reta entre os pontos da curva de

calibração, cada um dos quais está sujeito a um erro experimental.

Como já foi assumido que todos os erros estão no eixo y, procura-se agora uma reta

que minimize os desvios na direção y entre os dados experimentais e a reta calculada.

Como alguns desses desvios (conhecidos tecnicamente como os resíduos y) serão positivos

e outros negativos, é conveniente tentar minimizar a soma dos quadrados desses resíduos.

Isso explica o uso freqüente do termo “método dos mínimos quadrados” para esse

procedimento.

A linha reta requerida é calculada com base nesse princípio, assim, como resultado,

é encontrado que a linha deve passar através do “centróide” dos pontos ),( yx . Pode-se

mostrar que:

Page 100: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

100

xbya

xx

yyxx

b

i

i

i

ii

2

(55)

A linha calculada desta maneira é conhecida como curva de regressão de y em x,

isso é, a curva indicando como y varia quando x é colocado nos valores escolhidos.

É muito importante perceber que a curva de regressão de x em y não é a mesma

curva (exceto no altamente improvável caso em que todos os pontos estejam exatamente

sobre a reta e r = 1).

A linha de regressão de x em y (que também passa pelo centróide) assume que todos

os erros ocorrem na direção x.

Se mantivermos com rigidez a proposta que o sinal analítico deve ser plotado

sempre no eixo y e a concentração no eixo x, será sempre a curva de regressão de y em x

que será usada nos experimentos de calibração. Exemplo: calcule a tangente e o intercepto

da curva de regressão para os dados do exemplo anterior (Tabela 33 e Tabela 34).

No exemplo anterior calculou-se que, para esta curva de calibração:

1,13;6

112

2,216

2

yx

xx

yyxx

i

i

i

ii

Usando-se as equações acima se calcula que:

52,158,111,13)693,1(1,13

93,1112

2,216

a

b

Assim, a equação para a reta da regressão linear será:

52,193,1 xy

Page 101: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

101

Os resultados dos cálculos de tangente e intercepto foram mostrados na Figura 19.

Novamente é importante enfatizar que essas equações não devem ser utilizadas

erroneamente. Elas apenas darão resultados úteis quando um estudo prévio (cálculo de r e

gráfico visual) tiver indicado que uma relação linear é realmente válida para o experimento

em questão. Métodos não paramétricos (isso é, métodos que não fazem assunção prévia

sobre a natureza da distribuição de erros) podem também ser utilizados para calcular as

curvas de regressão e serão discutidos em aulas futuras.

ERROS NA TANGENTE E NO INTERCEPTO DA CURVA

DE REGRESSÃO

A curva de regressão calculada na secção anterior será utilizada, na prática, para

estimar as concentrações de amostras de teste por interpolações, e, às vezes, para estimar o

limite de detecção do procedimento analítico. Os erros aleatórios nos valores para a

tangente e intercepto são, assim, importantes e as equações usadas para calculá-los serão

consideradas. Deve-se inicialmente calcular a estatística sy/x que é dada por:

2

12

2

ˆ

n

yy

s i

i

xy (56)

Esta equação utiliza os residuais de y, onde são os pontos na curva de regressão

calculada que correspondem aos valores individuais de x, isso é, os valores ajustados de y.

Esses pontos são mostrados na Figura 21.

Page 102: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

102

11

11

ˆ,

,

yx

yx

22

22

,

ˆ,

yx

yx

33

33

ˆ,

,

yx

yx

66

66

,

ˆ,

yx

yx

44

44

,

ˆ,

yx

yx

55

55

ˆ,

,

yx

yx

x

y

Figura 21. Valores ajustados de y.

O valor de y para um dado x é facilmente calculado com a equação da regressão. A

equação abaixo:

2

12

2

ˆ

n

yy

s i

i

xy (57)

É claramente semelhante em forma à equação para o desvio padrão de um conjunto

de medidas repetidas.

1

)( 2

n

xx

s i

i

(58)

Numa regressão linear, o número de graus de liberdade é (n - 2), o que reflete a

consideração óbvia de que apenas uma linha reta pode ser desenhada passando por dois

pontos.

Armado com um valor para sy/x pode-se agora calcular sb e sa, os desvios padrões

para a tangente (b) e o intercepto (a). Eles são dados por:

Page 103: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

103

2

1

2

2

2

1

2

i

i

i

i

xya

i

i

xy

b

xxn

x

ss

xx

s

s

(59)

Os valores de sb e sa podem ser utilizados de maneira usual para estimar os limites

de confiança para a tangente e o intercepto. Assim, os limites de confiança para a tangente

são dados por:

bstb (6)

Onde o valor de t é tomado no nível de confiança desejado e (n - 2) graus de

liberdade. De maneira similar, os limites de confiança para o intercepto são dados por:

asta (61)

Exemplo: calcular os desvios padrões e intervalos de confiança para a tangente e

intercepto da curva de regressão calculada anteriormente.

A partir da Tabela 34 e usando as equações acima:

4329,05

9368,0 2

1

xys

Anteriormente, já foi visto que:

1122

i

i xx

Page 104: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

104

E, assim a equação:

2

1

2

i

i

xy

b

xx

s

s (59)

Pode ser usada para mostrar que:

0409,058,10

4329,0

112

4329,0bs

O valor de t para (n - 2) = 5 e 95% de nível de confiança é 2,57 (valor tabelado).

Assim, para um nível de confiança de 95% os limites de confiança para b são:

11,093,10409,057,293,1 b

A utilização da equação para o desvio padrão do intercepto:

2

1

2

2

i

i

i

i

xya

xxn

x

ss (59)

Requer o conhecimento do valor de i

ix 2 , 364. Assim:

2950,0784

3644329,0 as

E os limites de confiança são:

76,052,12950,057,252,1 a

Page 105: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

105

CÁLCULOS DE UMA CONCENTRAÇÃO

Uma vez que a tangente e o intercepto de uma curva de regressão tenham sido

determinados, é simples calcular um valor de x correspondente a qualquer valor medido de

y. Um problema mais complexo surge quando é necessário estimar o erro numa

concentração calculada com a curva de regressão.

O cálculo de qualquer valor de x envolve o uso tanto da tangente (b) como do

intercepto (a) e, como foi visto no item anterior, ambos são sujeitos a erros. Como

resultado, a determinação do erro no valor de x é extremamente complexa e muitos

analistas preferem usar uma fórmula aproximada:

2

1

22

21

1

i

i

oxy

xoxxb

yy

nb

s

s (62)

Nessa equação, yo é o valor experimental de y, a partir do qual o valor de

concentração xo deverá ser determinado, sxo é o desvio padrão estimado de xo e os outros

símbolos retêm os seus significados normais.

No caso do analista ter que fazer várias leituras de yo, por exemplo, se houver m

leituras, então a equação acima deve ser modificada para:

2

1

22

211

i

i

oxy

xoxxb

yy

nmb

s

s (63)

Como sempre, os limites de confiança podem ser calculados como: xoo stx n – 2

graus de liberdade. Exemplo: usando os dados extraídos dos exemplos acima, determinar os

valores de xo e sxo e os limites de confiança de xo para soluções com intensidades de

fluorescência de 2,9, 13,5 e 23,0 ua. Os valores de xo são facilmente calculados utilizando a

equação da regressão determinada anteriormente, y = 1,93x + 1,52. Substituindo os

respectivos valores de yo, 2,9, 13,5 e 23,0, obtemos os valores de xo como sendo: 0,72, 6,21

Page 106: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

106

e 11,13 pg mL-1

, respectivamente. Para obter os valores de sxo correspondentes a esses

valores de xo, usa-se a equação:

(62)

Recordando dos itens anteriores que n = 7, b = 1,93, sy/x = 0,4329, = 13,1 e também

que a 1122

i

i xx . Os valores de yo de 2,9; 13,5 e 23,0 geram os valores de sxo de

0,26; 0,24 e 0,26, respectivamente. Os intervalos de confiança correspondentes, a 95%, (t =

2,57) são 0,72 ± 0,68; 6,21 ± 0,62 e 11,13 ± 0,68 pg mL-1

, respectivamente.

Esse exemplo ilustra um ponto de importância. É aparente que os limites de

confiança são menores (isso é, melhores) para o resultado de yo = 13,5 do que para os

outros dois.

Uma análise da equação acima confirma que quando yo aproxima do valor médio

y , o terceiro termo dentro do colchete tende a zero, e sxo aproxima-se do valor mínimo. A

forma geral dos limites de confiança para uma concentração calculada é mostrada na Figura

22.

Concentração

Sin

al

),( yx

Figura 22. Forma geral dos limites de confiança para uma concentração.

2

1

22

21

1

ii

oxy

xoxxb

yy

nb

s

s

Page 107: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

107

Na prática, entretanto, um experimento de calibração desse tipo dará um resultado

mais preciso quando o sinal medido do instrumento corresponder a um ponto próximo do

centróide da curva de regressão.

Se for desejado melhorar, isto é estreitar, os limites de confiança nesse experimento

de calibração, as equações de sxo mostram, pelo menos, duas possibilidades. Pode-se

aumentar n, o número de pontos da curva de calibração e também se pode fazer mais

medidas de yo, e usar o valor médio de m tais medidas, no cálculo de xo.

O resultado desses procedimentos pode ser previsto ao examinar os três termos

dentro dos colchetes nas duas equações. No exemplo anterior, o termo dominante nos três

cálculos é o primeiro, unidade. Segue-se que, nesse caso (e em muitos outros), uma

melhoria na precisão pode ser feita fazendo-se várias medidas de yo e usando a equação que

contém m. Se, por exemplo, o valor de yo de 13,5 tivesse sido calculado como a média de

quatro determinações, então o valor de sxo e os limites de confiança teriam sido 0,14 e 6,21

± 0,36, respectivamente, ambos resultados indicando uma substancial melhora na precisão.

Naturalmente, fazer muitas medidas repetidas (assumindo que existam amostras

suficientes) gera uma grande quantidade de trabalho para um benefício apenas moderado:

pode-se verificar que se foram feitas oito medidas de yo, então um valor de sxo de 0,12 e

limite de confiança de 6,21 ± 0,30 serão encontrados. O efeito de n, o número de pontos da

curva de calibração, é mais complexo de se calcular, pois se deve levar em conta a variação

concomitante do valor de t.

Os inconvenientes de um grande valor de n são equivalentes aos apontados para m.

Por outro lado, pequenos valores de n não são permitidos: nesses casos, não apenas 1 / n

será maior, mas o número de graus de liberdade, (n - 2) se tornará muito pequeno,

necessitando-se do uso de valores muito grandes de t para calcular-se, de maneira

adequada, dos limites de confiança.

Em muitos experimentos, assim como no exemplo dado, seis ou mais pontos de

calibração deverão ser adequados, com o analista ganhando uma maior precisão, se

necessário, fazendo experimentos repetidos para se determinar yo.

Page 108: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

108

CAPÍTULO 8

LIMITES DE DETECÇÃO

Uma das principais vantagens em se utilizar métodos instrumentais de análise

consiste na possibilidade de se detectar quantidades muito menores de analito do que os

métodos clássicos. Essa característica implica na possibilidade de se estabelecer a

importância de concentrações em nível de traços de muitos materiais, por exemplo em

amostras biológicas e ambientais. Assim foram desenvolvidas várias metodologias nas

quais os baixos limites de detecção são o principal critério de aplicação bem sucedida.

Dessa maneira, é evidente que os métodos estatísticos para obter e comparar os

limites de detecção são importantes. Em termos gerais, o limite de detecção de um analito

pode ser descrito como aquela concentração que dá um sinal (y) no instrumento

significantemente diferente do sinal do “branco” ou da “linha de base”. Torna-se

imediatamente aparente que essa definição dá ao analista uma grande liberdade para decidir

a definição exata de limite de detecção, baseado na definição adequada da frase

“significantemente diferente”.

Uma definição comumente usada na literatura de Química Analítica é que o limite

de detecção é a concentração do analito que dá um sinal igual ao sinal do branco, yB, mais

duas vezes o desvio padrão do branco, sB. Normas recentes de órgãos públicos

(principalmente americanos) indicam que esse critério deve ser:

BB Syy 3 (64)

O significado desta última definição é ilustrado, com mais detalhes, na Figura 23.

Page 109: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

109

y

A B C

P Q

3SB

SB

Limite de

decisão

Limite de

detecçãoy

B

Figura 23. Limite de detecção.

Um analista que estuda as concentrações no nível de traços se confronta com dois

problemas: ele não quer reivindicar a presença de um analito que está ausente, mas ele

também não quer reportar a ausência do analito que, de fato, está presente. A possibilidade

de qualquer desses erros deve ser minimizada por uma definição precisa de limite de

detecção.

Na Figura 23, a curva A representa a distribuição normal dos valores medidos do

sinal do branco. É possível identificar um ponto, y = P, além do limite superior dessa

distribuição, e assumir que um sinal maior que esse é improvável que pertença ao branco,

enquanto que um sinal menor que P deve ser assumido como sendo do branco. Entretanto,

para uma amostra dando um sinal médio P, 50% do sinal observado será menor que P,

desde que o sinal tenha uma distribuição normal. A probabilidade de se concluir que essa

amostra não difere do branco, quando ela de fato difere, é, assim, 50%.

O ponto P, que tem sido chamado de limite de decisão é, assim, insatisfatório como

limite de detecção, pois ele pode resolver o primeiro dos problemas citados acima, mas não

o segundo.

Um ponto mais adequado situa-se em y = Q (Figura 23), pois Q está duas vezes

mais afastado de yB que P. Pode-se mostrar que, se yB - Q for 3,28 vezes o desvio padrão do

branco, sB, então a probabilidade de cada um dos dois erros acontecerem (indicada pela

área achurada da Figura 23) é de apenas 5%. Se, como sugerido na Figura 23, a distância

Page 110: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

110

for de 3sB, a probabilidade de ambos os erros será de cerca de 7%. Muitos analistas

consideram esta como sendo uma boa definição de limite de detecção.

Deve ser enfatizado que essa definição é bastante arbitrária e que ainda está

inteiramente aberto para um analista propor uma outra definição alternativa para um

propósito particular. Por exemplo, pode haver ocasiões onde um analista está ansioso para

evitar, a todo custo, a possibilidade de reportar a ausência de um analito quando ele, de

fato, estiver presente, mas está relativamente despreocupado com o erro oposto.

Torna-se claro que, sempre que o termo limite de detecção for citado em um artigo,

a definição usada deve ser também citada.

Algumas tentativas foram feitas de se definir um limite posterior, chamado de limite

de quantificação (ou limite de determinação) como o menor limite para uma medida

quantitativa precisa, em oposição à detecção qualitativa.

Um valor de yB + 10 sB foi sugerido para esse limite, mas seu uso ainda é bastante

restrito na prática. Devem-se agora discutir como os termos yB e sB são obtidos na prática,

quando uma reta de regressão convencional for usada para a calibração, como descrito na

aula passada.

Um requisito fundamental do método de mínimos quadrados não ponderado que se

tem estudado é que cada ponto no gráfico (incluindo o ponto do branco) tem uma variação

de erros normalmente distribuída (apenas na direção y) com um desvio padrão estimado

como sy/x. Esta é a justificativa de termos desenhado curvas de distribuição normal com a

mesma largura na Figura 23. Assim, é apropriado utilizar sy/x ao invés de sB na estimativa

do limite de detecção.

Logicamente é possível fazer vários experimentos do branco e obter valores

independentes para o sB. Isso, entretanto, é um desperdício de tempo e o uso do yy/x é bem

adequado na prática.

O valor de a, o intercepto calculado pela regressão, pode ser utilizado como uma

estimativa do valor de yB, o sinal do branco, ele deve ser uma estimativa mais precisa de yB

do que o único valor medido do branco, y1.

Page 111: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

111

Exemplo: estimar o limite de detecção para a determinação da fluoresceína estudada

na aula anterior.

Usa-se a equação y - yB = 3 sB com o valor de yB (= a) e sB (= sy/x) calculado

previamente. O valor de y no limite de detecção é encontrado como sendo 1,52 + (3)

0,4329, isso é, 2,82.

Usando a equação da regressão calcula-se um limite de detecção de 0,67 pg mL-1

. A

Figura 24 sumariza todos os procedimentos adotados no cálculo do limite de detecção da

fluoresceína.

0 2 4 6 8 10 12

0

5

10

15

20

25

LOD

yB + 3s

B

sy/x

= sb = 0,433

LOD = 0,67 pg mL-1

sx0

= 0,25

média (x,y)

Y = A + B * X

A = 1,51786

B = 1,93036

R = 0,99888

Flu

ore

scên

cia

Concentração (pg mL-1)

Figura 24. Gráfico de regressão mostrando o LOD da fluoresceína (do exemplo).

É muito importante evitar confundir o limite de detecção de uma técnica com sua

sensibilidade. Esta fonte de confusão muito comum se origina, provavelmente, do fato de

não haver uma palavra apropriada que demonstre que uma técnica tem um “baixo limite de

detecção”.

A palavra sensibilidade é usada nesse caso, gerando ambigüidade.

Page 112: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

112

A sensibilidade de uma técnica é corretamente definida como a tangente da curva de

calibração e, desde que a curva seja linear, pode ser medida em qualquer ponto dele.

O MÉTODO DAS ADIÇÕES PADRÃO

Suponha que um analista deseja determinar prata em amostras de resíduos de

revelação de filmes por absorção atômica. Usando os métodos discutidos anteriormente, ele

pode calibrar o espectrômetro com uma solução aquosa de um sal de prata puro e usar a

curva de calibração na determinação de prata nas amostras de teste. Entretanto, esse método

só será válido se a solução pura de sais de prata gerar o mesmo sinal de absorção do que o

resíduo fotográfico com a mesma concentração de prata. Em outras palavras, usando

soluções puras para estabelecer a curva de calibração, assume-se que não existe o “efeito de

matriz”, isso é, redução ou aumento do sinal obtido pelos outros componentes da solução.

Em muitas áreas, esta proposição freqüentemente não é válida. Efeitos de matriz

ocorrem até com métodos como espectrometria de plasma, que tem a reputação de ser

insensível para interferentes. Uma possível solução para esse problema é tomar uma

amostra do resíduo fotográfico que é similar à amostra teste, porém não contenha prata, e

adicionar quantidades conhecidas de sal de prata para fazer as soluções padrões. A curva de

calibração será então construída usando uma matriz aparentemente adequada. Em muitos

casos, entretanto, essa aproximação é impraticável. Ela não eliminará efeitos de matriz que

diferem em magnitude de uma amostra para outra, e pode ser impossível obter uma amostra

da matriz que não contenha o analito. Por exemplo, obter uma amostra de resíduos

fotográficos que não contenha prata é improvável. Segue-se que todas as medidas

analíticas, incluindo o estabelecimento da curva de calibração, devem ser feitos com a

própria amostra. Isso é feito na prática usando o método das adições padrão. Esse método

tem sido largamente utilizado em absorção atômica e espectrometria de emissão e também

tem sua utilidade em eletroanálises e outras áreas.

Volumes iguais de solução da amostra são tomados e todos, menos um são

“contaminados” separadamente com quantidades conhecidas e diferentes do analito, e todos

são, então, diluídos para o mesmo volume. Os sinais do instrumento analítico são, então,

Page 113: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

113

determinados para todas essas soluções e os resultados graficados como mostrado na Figura

25.

Como usual, os sinais obtidos são plotados no eixo y, nesse caso o eixo x é

graduado em termos de quantidades de analito adicionadas (tanto como pesos absolutos

como concentrações).

Quantidade

adicionada

Quantidade de

analito em

amostra teste

Sinal da

amostra

Figura 25. Método das adições padrão.

A curva de regressão é calculada da maneira usual, mas dessa vez é feita uma

extrapolação até o ponto no eixo x correspondendo a y = 0. É evidente que esse intercepto

negativo no eixo x corresponde à quantidade de analito na amostra teste.

A análise da Figura 25 mostra que esse valor é dado por a / b, a relação entre o

intercepto e a tangente da curva de regressão. Como ambos, a e b são sujeitos a erros, o

valor calculado é também sujeito a erro, do mesmo modo. Nesse caso, a quantidade não é

predita por um valor único medido de y, assim a fórmula para o desvio padrão, sxE, do valor

extrapolado xE, não é a mesma daquela vista anteriormente, mas sim:

Page 114: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

114

2

1

22

21

i

i

xy

xExxb

y

nb

s

s (65)

Aumentando o valor de n melhora, novamente, a precisão do valor estimado: em

geral, pelo menos seis pontos são necessários para um experimento de adição de padrão.

Além do mais, a precisão é aumentada maximizando-se o termo quadrático i

i xx2

, de

tal forma que as soluções para a confecção da curva de calibração devem, se possível,

cobrir um amplo intervalo.

Os limites de confiança para xE podem, como costume, serem determinados como

xE ± tsxE.

Exemplo: a concentração de prata em uma amostra de resíduos fotográficos foi

determinada por espectroscopia de absorção atômica com o método de adição de padrões

(Tabela 35).

Tabela 35. Dados de absorbância em amostra de resíduos fotográficos (do exemplo).

Ag adicionada (μg mL-1

) Absorbância

0 0,32

5 0,41

10 0,52

15 0,60

20 0,70

25 0,77

30 0,89

Determinar a concentração de prata na amostra e obter os limites de confiança a

95% para a concentração calculada. As equações:

xbya

xx

yyxx

b

i

i

i

ii

2

(66)

Page 115: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

115

Dão um valor de a = 0,3218 e b = 0,0186. A relação entre esses dois valores dá a

concentração de prata na amostra de teste de 17,3 µg mL-1

.

Os limites de confiança para esse resultado podem ser determinados com a ajuda da

equação:

2

1

22

21

i

i

xy

xExxb

y

nb

s

s (67)

Aqui, os valores de sy/x é 0,01094, é 0,6014 e i

i xx2

é 700. Assim, o valor de

sxE é igual a 0,749 e os limites de confiança são 17,3 ± 2,57 x 0,749, isso é, 17,3 ± 1,9 µg

mL-1

. Apesar de ser uma aproximação elegante para o problema do efeito de matriz, o

método da adição de padrões tem a suas desvantagens.

É difícil de se automatizar e pode utilizar maior quantidade de amostra do que os

outros métodos.

Em termos estatísticos, sua desvantagem principal está relacionada ao fato dele ser

um método de extrapolação, menos preciso do que as técnicas de interpolação.

No exemplo acima, é fácil mostrar que, se uma quantidade desconhecida de prata

for adicionada à amostra teste e fornecer um valor de absorbância de 0,65, a concentração

adicionada seria de 17,6 µg mL-1

com limites de confiança dados por 17,6 ± 1,6 µg mL-1

.

Esse resultado mostra apenas uma ligeira melhora do limite de confiança, devido ao ponto

de absorção estar mais próximo do valor médio da curva de calibração.

Page 116: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

116

USO DE RETAS DE REGRESSÃO PARA COMPARAR

MÉTODOS ANALÍTICOS

Se um químico analítico desenvolve um novo método para a determinação de um

analito particular, ele vai querer validá-lo, aplicando-o em uma série de amostras já

estudadas com o uso de outra técnica padrão. Ao fazer tal comparação, o principal interesse

deve ser identificar erros sistemáticos – o método novo dá resultados que são

significativamente maiores ou menores que o procedimento padrão?

Nos casos onde uma análise é repetida várias vezes em um intervalo de

concentrações limitado, tal comparação pode ser feita usando os procedimentos estatísticos

descritos anteriormente. Tais procedimentos não são apropriados para análise instrumental,

pois nessas emprega-se, normalmente, um grande intervalo de concentrações.

Quando dois métodos devem ser comparados em diferentes concentrações do

analito, o procedimento mostrado na Figura 26 é normalmente adotado.

Um eixo do gráfico de regressão é usado para os resultados obtidos com o novo

método e o outro eixo com os resultados obtidos com o método padrão, para as mesmas

amostras.

A importante questão de decidir qual eixo contém os dados de qual amostra será

discutido posteriormente.

Page 117: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

117

Mét

odo A

Método B

A B

C D

E F

Figura 26. Retas de regressão para comparação de métodos.

Cada ponto no gráfico representa uma única amostra analisada pelas duas técnicas

diferentes. Os métodos da aula passada são, então, aplicados para se calcular a tangente (b),

o intercepto (a) e o coeficiente de correlação produto momento (r) da linha de regressão. É

claro que se cada amostra render um resultado idêntico em ambos os métodos analíticos, a

linha de regressão deverá ter intercepto zero e valores de tangente e coeficiente de

correlação igual a um (Figura 26 A). Na prática, naturalmente, isso nunca ocorre, mesmo na

ausência de erros sistemáticos. Os erros aleatórios garantirão que os valores encontrados

para os dois métodos sejam diferentes.

Page 118: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

118

Os desvios da situação ideal (a = 0 e b = r = 1) podem ocorrer de algumas maneiras

diferentes. Pode ocorrer que a reta de regressão tenha uma tangente um, mas um intercepto

diferente de zero. Isto significa que um dos métodos de análise pode resultar em valores

maiores ou menores que o outro, por uma quantidade fixa. Esse tipo de erro pode ocorrer se

o sinal residual para um dos métodos for estimado de forma errada (Figura 26 B).

Uma segunda possibilidade é que a tangente da linha de regressão seja maior ou

menor que um, indicando que um erro sistemático pode estar ocorrendo na tangente de um

dos gráficos de calibração (Figura 26 C). Esses dois tipos de erros podem, naturalmente,

ocorrer simultaneamente (Figura 26 D). Outros possíveis tipos de erros sistemáticos podem

ocorrer se a linha for curva (Figura 26 E). Problemas de especiação podem dar resultados

surpreendentes (Figura 26 F). Esse tipo de problema pode surgir se o analito ocorre em

duas formas químicas diferentes, a proporção das quais varia de amostra para amostra. Um

dos métodos sob estudo (aqui plotado no eixo y) pode detectar apenas uma das formas do

analito, enquanto que o segundo método detecta as duas formas.

Na prática o analista deseja testar se o intercepto difere significativamente de zero e

se a tangente difere significativamente de um. Isso pode ser feito determinando-se os

limites de confiança para a e b a 95% de confiança.

Exemplo: os níveis de chumbo em dez amostras de sucos de frutas foram

determinados por um novo método potenciométrico de redissolução (PSA) empregando um

eletrodo de trabalho de carbono vítreo, e os resultados comparados com aqueles obtidos

usando uma técnica de espectrometria de absorção atômica sem chama (AAS). Os

resultados encontrados (todos em µg L-1

) estão na Tabela 36.

Esses resultados foram graficados com os de AAS no eixo x e os de PSA no eixo y

e uma linha de regressão foi calculada (Figura 27).

Page 119: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

119

0 50 100 150 200 250 300 350 400

0

50

100

150

200

250

300

350

resu

ltad

os

PS

A (

g L

-1)

resultados AAS (g L-1)

Figura 27. Gráfico de regressão na comparação de dois métodos de análise de chumbo.

Tabela 36. Níveis de chumbo em dez amostras verificados em dois métodos (µg L-1

, do

exemplo).

Amostra AAS PSA

1 35 35

2 75 70

3 75 80

4 80 80

5 125 120

6 205 200

7 205 220

8 215 200

9 240 250

10 350 330

Com os métodos discutidos anteriormente pode-se facilmente calcular que: a = 3,87;

b = 0,968; r = 0,9945.

Mais cálculos podem mostrar que: sy/x = 10,56; sa = 6,64; sb = 0,0357 e com o uso

do valor apropriado de t para 8 graus de liberdade (t = 2,31), para um limite de confiança de

95%, dá para os valores de intercepto e tangente: a = 3,87 ± 15,34 e b = 0,963 ± 0,083.

Dos valores acima é claro que os valores calculados para o intercepto e a tangente

não diferem significativamente de zero e 1, respectivamente e que, assim, não há evidências

Page 120: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

120

de erros sistemáticos entre os dois conjuntos de resultados. Dois pontos extras devem ser

mencionados, em relação ao exemplo acima.

Em primeiro lugar, consultando a literatura de Química Analítica, observa-se que os

autores freqüentemente dão grande valor ao cálculo do coeficiente de correlação nesses

estudos comparativos. Entretanto, nesse exemplo, o coeficiente de correlação não teve

qualquer papel direto na detecção de possíveis erros sistemáticos.

Mesmo com linhas de regressão ligeiramente curvas, o coeficiente de correlação

poderia ainda estar próximo de um. Assim, é evidente que o cálculo do coeficiente de

correlação é menos importante, do que o estabelecimento dos limites de confiança para D e

E.

Podem-se encontrar valores de r não tão próximos de um, mas que, ainda assim, a

tangente e o intercepto não diferem muito de um e zero.

Esses resultados sugerem uma precisão muito pobre de um ou de ambos os métodos

utilizados.

As precisões dos dois métodos podem ser avaliadas pelas técnicas discutidas nas

aulas iniciais. Na prática é desejável que isso seja feito antes das linhas de regressão

comparando os dois métodos. O segundo ponto a ser notado é que, apesar de ser desejável

comparar os dois métodos em grande intervalo de concentrações, na prática pode ser difícil

encontrar amostras onde as concentrações do analito estejam distribuídas nesse amplo

domínio.

No exemplo analisado, os sucos de frutas examinados tendem a cair em grupos com

concentrações de chumbo bastante similares, assim amostras com níveis de chumbo entre

130 e 200 µg L-1

e entre 260 e 320 µg L-1

não puderam ser analisadas.

Apesar de universalmente adotado em estudos comparativos de métodos

instrumentais, o procedimento descrito também é tema de sérias objeções teóricas em

muitos níveis. Inicialmente, como foi enfatizado, a linha de regressão de y em x é calculada

assumindo que os erros no eixo x são negligenciáveis.

Embora geralmente válido na confecção de uma curva de calibração para um único

método analítico, esta afirmação não pode, evidentemente, ser justificada quando a linha de

Page 121: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

121

regressão é usada para propósitos de comparação. Nessas comparações pode-se ter certeza

de que erros aleatórios irão ocorrer em ambos os métodos analíticos, isso é, em ambas as

direções, x e y. Isto sugere que as equações utilizadas para calcular a linha de regressão

podem não ser válidas. Testes práticos e simulações mostraram, entretanto, que essa

aproximação simples dá resultados surpreendentemente confiáveis, se três condições forem

satisfeitas:

i. O método mais preciso deve ser colocado no eixo x – esta é a razão de se

testar a precisão dos métodos como foi discutido.

ii. Um número razoável (10 no mínimo, como no exemplo anterior) de pontos

são graficados para a comparação. Como o limite de confiança é calculado

com base em (n - 2) graus de liberdade, é importante evitar pequenos valores

de n.

iii. Os pontos experimentais devem cobrir a faixa de concentração de interesse

uniformemente: como foi visto, esse requerimento pode se tornar difícil de

atender num estudo comparativo com amostras reais.

Há uma segunda objeção para utilizar a linha de regressão de y em x na comparação

de métodos analíticos. Essa linha de regressão assume não apenas que os erros na direção x

são zero, mas também que os erros na direção y são constantes, não variam com a

concentração. Assim, todos os pontos têm o mesmo peso no cálculo da tangente e do

intercepto. Esta afirmação parece ser muito improvável na prática. Em muitas análises, o

desvio padrão relativo (coeficiente de variação) é só muito aproximadamente constante no

intervalo de concentrações: o erro absoluto aumenta com a concentração do analito. Segue-

se que linhas de regressão “sem pesos” também são também muito questionáveis em outras

situações, por exemplo, na confecção de curvas de calibração em um único procedimento

analítico. Em princípio, linhas de regressão “com pesos” devem ser usadas.

Page 122: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

122

CAPÍTULO 9

RETAS DE REGRESSÃO PONDERADAS

Os cálculos envolvidos no uso de métodos de regressão ponderados são apenas um

pouco mais complicados do que aqueles discutidos até aqui. Eles podem ser facilmente

feitos com o auxílio de um microcomputador, mas requerem informações adicionais dos

erros que ocorrem em diferentes níveis de concentração, ou pelo menos a formulação de

hipóteses adicionais sobre esses erros. Isso talvez explique porque os cálculos de regressão

ponderados são menos utilizados do que deveriam.

Nesta aula irá se delinear o método de regressão ponderada, aplicado apenas na

determinação de um único analito e não na comparação entre dois métodos analíticos.

Vamos considerar com mais detalhes, a situação simples que surge quando os erros em uma

reta de regressão são proporcionais à concentração do analito.

Quando os erros, em diferentes pontos do gráfico de calibração forem expressos por

“barras de erros” (Figura 28) as barras se tornam maiores conforme a concentração

aumenta.

Concentração

Sin

al

Figura 28. Gráfico de regressão com barra de erros no valor de sinal.

Page 123: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

123

Nesse caso, é evidente que a reta de regressão deve ser calculada de maneira a

considerar um peso maior para aqueles pontos onde as barras de erro são menores.

É mais importante para a linha de regressão passar próximo desses pontos do que

daqueles onde as barras de erro são maiores. Esse resultado é encontrado atribuindo a cada

ponto um peso inversamente proporcional à variância correspondente, s2. Esse

procedimento lógico é de aplicação geral. Assim, se os pontos individuais são denotados

por (x1, y1), (x2, y2), etc., como usual, e os desvios padrões correspondentes por s1, s2, etc.,

então, os pesos individuais, w1, w2, etc. são dados por:

n

s

sw

i

i

i

i 2

2

(68)

A tangente e o intercepto da linha de regressão é então dado por:

i

wii

i

wwiii

xnxw

yxnyxw

b22 (69)

e:

ww xbya (70)

Nessas equações acima, wx e wy , representam as coordenadas do centróide

ponderado, ( wx , wy ) através do qual a linha de regressão ponderada deverá passar. Essas

coordenadas são dadas, como esperado, por:

Page 124: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

124

n

yw

y

n

xw

x

i

ii

w

i

ii

w

Exemplo: calcular as retas de regressão ponderada e não para os seguintes dados de

calibração (Tabela 37). Para cada linha, calcular também as concentrações das amostras de

teste com absorbâncias de 0,100 e 0,600.

Tabela 37. Dados de concentração e absorbância com os respectivos desvios padrões (do

exemplo).

Concentração (μg mL-1

) Absorbância Desvio padrão

0 0,090 0,001

2 0,158 0,004

4 0,301 0,010

6 0,472 0,013

8 0,577 0,017

10 0,739 0,022

A aplicação das equações:

xbya

xx

xx

b

i

i

i

i

2

Mostra que a tangente e o intercepto da reta de regressão não ponderada são

respectivamente, 0,0725 e 0,0133. As concentrações correspondentes às absorbâncias de

0,100 e 0,600 são facilmente calculadas como 1,20 e 8,09 µg mL-1

respectivamente. A reta

de regressão ponderada é um pouco mais difícil de calcular: na falta de um programa

adequado de computador, constrói-se a Tabela 38.

Page 125: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

125

Tabela 38. Cálculo da reta de regressão ponderada.

xi yi si 1/si2

wi wixi wiyi wixiyi wixi2

0 0,009 0,001 1000000 5,535 0,000 0,0498 0,0000 0,000

2 0,158 0,004 62500 0,346 0,692 0,0547 0,1063 1,384

4 0,301 0,010 10000 0,055 0,220 0,0166 0,0662 0,880

6 0,472 0,013 5917 0,033 0,198 0,0156 0,0935 1,188

8 0,577 0,017 3460 0,019 0,152 0,0110 0,0877 1,216

10 0,739 0,022 2066 0,011 0,110 0,0081 0,0813 1,100

1083943 5,999 1,372 0,1158 0,4380 5,768

Desta tabela, é claro que wy = 0,1558/6 = 0,0260 e que wx = 1,372/6 = 0,229. Da

equação anterior, b é calculado como sendo:

0738,0

229,06768,5

026,0229,06438,02

b

E assim, a é dado por:

0091,0229,00738,0

Esses valores de a e b podem, então ser usados para as absorbâncias de 0,100 e

0,600, resultando nos valores de concentrações de 1,23 e 8,01 µg mL-1

, respectivamente.

Uma comparação cuidadosa dos resultados obtidos com os dois métodos é muito

instrutiva. Os efeitos de se ponderar são claros. O centróide ponderado ( ww yx , ) é muito

mais próximo da origem do gráfico do que o não ponderado ( yx, ) e o peso dado aos

pontos próximos da origem – e particularmente ao primeiro ponto (0; 0,009), que tem o

menor erro – assegura que a reta de regressão um intercepto muito próximo desse ponto.

A tangente e o intercepto da reta ponderada é marcantemente similar àqueles da não

ponderada. Assim, os resultados dos dois métodos dão valores muito similares para as

concentrações das amostras que possuem absorbâncias de 0,100 e de 0,600. Dessa forma,

poderíamos ser levados a pensar que a reta de regressão ponderada tem poucas vantagens.

Elas requerem mais informações (na forma de estimativas de desvios padrões em vários

pontos na reta), e são muito mais complexas para se construir, mas resultam em dados

muito similares àqueles não ponderados. Essas considerações podem até explicar a

negligência generalizada dos cálculos de retas de regressão ponderadas na prática.

Page 126: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

126

Mas um químico analítico usando métodos não emprega os cálculos de regressão

apenas para obter a tangente e o intercepto da reta de calibração e as concentrações das

amostras.

Ele também deseja obter estimativas dos erros e dos limites de confiança daquelas

concentrações e, nesse contexto, os métodos de regressões ponderados resultam em valores

muito mais realísticos.

Na aula passada usou-se a equação abaixo:

2

1

22

2

011

0

i

ix

yxxxb

yy

nss

Para estimar o desvio padrão (sxo) e, assim, os limites de confiança de uma

concentração calculada usando um valor único de y e uma reta de regressão não ponderada.

A aplicação desta equação aos dados do exemplo acima mostra que os limites de

confiança para as soluções com absorções 0,100 e 0,600 são 1,20 ± 0,65 e 8,09 ± 0,63 µg

mL-1

.

Como no exemplo dado naquela aula, os intervalos de confiança são bastante

próximos. No exemplo atual, entretanto, esse resultado é inteiramente irrealista. Os dados

experimentais mostram que os erros observados nos valores de y aumentam quando o

próprio y aumenta, uma situação esperada para um método tendo um desvio padrão

relativamente constante. Pode-se esperar que esse aumento em si com o aumento de y deve

se refletir nos limites de confiança das concentrações determinadas. Assim, os limites de

confiança para a solução com uma absorbância de 0,600 deve ser maior (isso é, pior) que

para a absorbância de 0,100.

Nos cálculos de regressão ponderada, o desvio padrão (sxow) de uma concentração

prevista é dado por:

Page 127: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

127

i

wii

ww

xy

x

xnywb

yy

nwb

s

sow

222

2

0

0

11 (71)

Nessa equação s(y/x)w é substituído por:

2

1

22222

2

n

xnywbynyw

si

wii

i

wii

wx

y (72)

A equação acima é claramente similar àquela da reta não ponderada. Ela confirma

que os pontos mais próximos da origem, onde os pesos são maiores, e os pontos próximos

do centróide, onde wyy 0 é pequeno, terão os menores limites de confiança, como

mostrado na Figura 29.

Concentração

Sin

al

ww yx ,

Figura 29. Posição do centróide na reta de regressão.

A maior diferença entre as duas equações (ponderada, não ponderada) é o termo 1 /

wo na equação ponderada. Como wo cai rapidamente quando y aumenta, esse termo

assegura que o limite de confiança aumente com o aumento de yo, conforme se espera.

Page 128: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

128

A aplicação da equação do desvio padrão ponderado no exemplo anterior mostra

que as amostras de teste com absorções 0,100 e 0,600 têm limites de confiança para as

concentrações calculadas de 1,23 e 8,01 µg mL-1

de ± 0,12 e ± 0,72 µg mL-1

respectivamente. Nota-se que esses dois intervalos de confiança são proporcionais às

absorbâncias das duas soluções. Além disso, o intervalo de confiança para a solução menos

concentrada é menor do que na reta de regressão não ponderada, enquanto que para a mais

concentrada a situação é o oposto.

Todos esses resultados são muito mais concordantes com a realidade do

experimento de calibração do que os resultados obtidos de forma não ponderada.

REGRESSÃO CURVILINEAR – INTRODUÇÃO

Até agora, nossa discussão de métodos de calibração tem sido restrita aos

experimentos onde se pode assumir que a resposta do instrumento é proporcional à

concentração do analito. Esta restrição é geralmente válida, pois químicos analíticos têm

sempre – até recentemente – favorecido tais métodos, devido à complexidade dos cálculos

de ajustes de curvas. Exemplos desse cuidado incluem o controle da largura da linha de

emissão da lâmpada na espectroscopia de absorção atômica e o tamanho e posicionamento

da cubeta para minimizar os efeitos de filtros internos na espectroscopia de fluorescência.

Apesar disso, muitas técnicas analíticas geram linhas de calibração curvas em um grande

intervalo de concentrações de interesse. Uma situação particularmente comum é quando o

gráfico de calibração é linear em uma pequena faixa de concentrações, mas se torna curvo

quando a faixa aumenta.

Em outros casos, como nos experimentos de ensaios imunológicos, o gráfico de

calibração é curvo em todo o intervalo de concentrações.

Quando o gráfico de calibração é curvo, nós ainda precisamos responder às questões

levantadas nas aulas anteriores, mas as questões exigirão a solução de problemas

complicados.

Page 129: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

129

A primeira questão a ser examinada é: como se detecta a curvatura num gráfico de

calibração?

Isso porque o grau de curvatura pode ser muito pequeno ou ocorrer apenas em parte

da curva. Além disso, apesar de ser um parâmetro amplamente utilizado para se testar a

linearidade de uma curva, o coeficiente de correlação produto-momento (r) é de pouca valia

para se testar uma curvatura.

Já foi visto anteriormente que linhas com curvatura aparente ainda podem ter

valores de r muito próximos de um.

Um analista deve naturalmente esperar que qualquer teste para curvatura deva ser

aplicado facilmente no trabalho diário sem muitos cálculos extensivos. Muitos desses testes

são disponíveis, baseados no uso dos resíduos de y nos gráficos de calibração.

Como foi visto anteriormente, um resíduo de y, yyiˆ , representa a diferença entre

um valor experimental de y e o valor calculado y a partir da reta de regressão para o

mesmo valor de x. Se um gráfico de calibração linear for apropriado, e se os erros

aleatórios nos valores de y forem normalmente distribuídos, os resíduos devem ser também

normalmente distribuídos em torno de zero. Se esta distribuição dos valores dos resíduos

não for normal, com a garantia de que os erros da medida o são, então se suspeita que a

linha de regressão não é do tipo correto. No exemplo examinado anteriormente, os resíduos

de y foram + 0,58, - 0,38, - 0,24, - 0,50, + 0,34, + 0,18 e + 0,02. É evidente que esses

valores somam zero e que estão distribuídos de maneira razoavelmente simétrica ao redor

de zero, de forma que se pode assegurar um ajuste linear para a linha de calibração.Um

segundo teste sugere a análise dos sinais dos resíduos de y, como aqueles dados acima.

Conforme se desloca na linha de calibração, isso é, conforme x aumenta, resíduos positivos

e negativos devem ocorrer em forma aleatória, se os dados foram ajustados adequadamente

por uma linha reta. Se, ao contrário, se tentar ajustar uma linha reta a uma série de pontos

que estão sobre uma curva aberta, então os sinais dos resíduos não serão mais aleatórios,

porém ocorrerão em seqüências de valores positivos e negativos.

Se examinar novamente os valores dados anteriormente, encontrar-se-á uma ordem

nos sinais, dada por:

Page 130: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

130

Para se testar se as seqüências de resíduos (+) e (-) indicam a necessidade de uma

linha de regressão não linear, deve-se saber a probabilidade de uma tal ordem ocorrer

fortuitamente. Esses cálculos serão vistos na próxima aula. Entretanto, o pequeno número

de pontos experimentais torna possível que tais seqüências surjam por acaso, assim

qualquer conclusão deve ser tirada com muita cautela. Na situação onde um gráfico de

calibração é linear em parte do intervalo de concentrações e curvada além desse intervalo, é

importante para o químico analítico estabelecer esse intervalo de linearidade. O próximo

exemplo mostra algumas aproximações para esse problema. Exemplo: investigue o

intervalo linear de calibração para o experimento de fluorescência seguinte (Tabela 39).

Tabela 39. Dados de um experimento de fluorescência para a construção de uma curva de

calibração (do exemplo).

C (μg mL-1

) IF

0 0,1

2 8,0

4 15,7

6 24,2

8 31,5

10 33,0

Análise dos dados mostra que parte do gráfico, perto da origem, corresponde muito

bem a uma reta com um intercepto próximo de zero e uma tangente de aproximadamente

quatro.

O valor de fluorescência para a concentração de 10 µg mL-1

é muito menor do que o

esperado nessas circunstâncias, e há também indícios de que a fuga da linearidade afetou

também a fluorescência do padrão de 8,0 µg mL-1

. Inicialmente se aplicou os cálculos de

regressão linear não ponderada para todos os dados.

A aplicação dos métodos expostos anteriormente resultam nos valores de a = 1,357,

b = 3,479 e r = 0,9878. Os resíduos de y encontrados foram - 1,257; - 0,314; + 0,429; +

1,971; + 2,314 e - 3,143, com a soma dos quadrados dos resíduos igual a 20,981.

Page 131: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

131

O comportamento dos valores dos resíduos sugere que o último valor tabelado está

fora do intervalo linear. Confirmou-se essa suspeita fazendo a regressão linear com apenas

os cinco primeiros pontos. Isso resulta em a = 0,100, b = 3,950 e r = 0,9998.

A tangente e o intercepto estão muito mais próximos dos valores esperados para a

parte do gráfico próximo da origem, e o valor de r é muito maior do que no primeiro

cálculo.

Os resíduos dos cinco primeiros pontos para essa segunda regressão são 0; 0; -0,2;

+0,4 e -0,2, com uma soma dos quadrados de apenas 0,24. O uso dessa segunda equação de

regressão mostra que o valor esperado para o padrão de 10 µg mL-1

deveria ser 39,6, com

um resíduo de -6,6.

A utilização de um teste t mostrará que esse último resíduo é significantemente

maior do que a média dos outros resíduos.

Alternativamente, pode-se aplicar um outro teste para mostrar que esse é um “ponto

fora da curva” em relação aos resíduos.

Nesse exemplo, tais cálculos não são necessários. O enorme valor do resíduo para o

último ponto, junto com os valores muito baixos para os outros cinco pontos e a soma dos

quadrados enormemente reduzida, confirma que o intervalo linear do método não se

estende até 10 µg mL-1

.

Tendo estabelecido que o último ponto de dados pode ser excluído do intervalo

linear, pode-se repetir o processo para estudar o ponto (8; 31,5). Isto é feito calculando-se a

linha de regressão para apenas os quatro primeiros pontos, com os resultados de a = 0, b =

4,00 e r = 0,9998. O valor do coeficiente de correlação sugere que essa linha se ajusta aos

pontos tão bem quanto a anterior, com os cinco pontos. Os valores dos resíduos para esse

terceiro cálculo foram +0,1; 0; -0,3 e +0,2, com uma soma de quadrados de 0,14. Com essa

curva de calibração, o resíduo de y para a solução 8,0 µg mL-1

é -0,5. Esse valor é maior

que outros resíduos mas provavelmente não por uma quantidade significativa. Pode-se

então concluir que é seguro incluir o ponto (8,0; 31,5) dentro do intervalo linear do método.

Ao se fazer tal decisão, o químico analítico deve levar em consideração a precisão

necessária nos resultados e o valor reduzido de um método para o qual o intervalo de

Page 132: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

132

linearidade da curva de calibração é tão curto. Os cálculos descritos anteriormente estão

resumidos na Figura 30.

0 2 4 6 8 10

-5

0

5

10

15

20

25

30

35fl

uore

scên

cia

C (g mL-1)

Figura 30. Curva de regressão de um experimento de fluorescência (do exemplo).

Uma vez que se decidiu que o conjunto de pontos não pode se ajustar

satisfatoriamente numa linha reta, o analista deve jogar uma última carta antes de se

resignar às complexidades dos cálculos de regressão não linear. Ele pode conseguir

transformar os dados de tal forma que a relação não linear muda para uma linear.

Tais métodos de transformação são aplicados regularmente aos resultados de certos

métodos analíticos Por exemplo, o software para a interpretação de dados de imunoensaios

freqüentemente oferece possibilidade de transformações.

Comumente os métodos usados envolvem graficar log y e / ou log x no lugar de x e

y, ou o uso das funções logit.

x

xitx

1lnlog (73)

Page 133: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

133

É importante notar que esta transformação pode também afetar a natureza dos erros

em diferentes pontos do gráfico de calibração. Suponha, por exemplo, que um conjunto de

medidas da forma:

qpxy (74)

As magnitudes dos erros aleatórios em y são independentes de x. Entretanto, a

transformação dos dados numa forma linear, tomando os logaritmos, produzirá dados nos

quais os erros em log y não são mais independentes de log x. Nesse caso, e em qualquer

outro em que a forma da equação é conhecida de considerações teóricas ou de larga

experiência na prática, é possível aplicar equações de regressão ponderadas aos dados

transformados.

Pode-se mostrar que, se os dados de uma forma geral y = f(x) são transformados na

equação linear:

ABXY (75)

O fator de peso, wi, usado anteriormente, é obtido da relação:

2

1

i

i

i

dydY

w (76)

No presente caso, qpxy , assim yY ln e ii

i

i

i

ydyyd

dydY 1ln

. Assim,

2

ii yw .

Infelizmente, não há muitos casos na Química Analítica onde a equação matemática

exata de uma equação de regressão não linear é conhecida com certeza, assim essa

aproximação tem um valor restrito.

Page 134: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

134

AJUSTE DE CURVAS

Em vista das dificuldades que se obtém com a transformação dos dados, e a

crescente facilidade com que curvas podem ser calculadas para ajustar em um conjunto de

pontos de calibração, métodos de regressão não lineares são agora relativamente comuns

em Química Analítica.

É importante entender que os gráficos de calibração curvos, muito encontrados na

prática, freqüentemente surgem da superposição de dois ou mais fenômenos químicos ou

físicos. Assim, na espectroscopia de fluorescência molecular, os gráficos de sinal versus

concentração serão com freqüência aproximadamente linear em soluções muito diluídas,

mas mostrarão um aumento (negativo) de curvatura em concentrações maiores por causa

de:

a. Artefatos óticos (efeitos de filtros internos);

b. Interações moleculares (extinção, formação de excímeros);

c. A ausência de proposições algébricas com as quais um gráfico linear é

prognosticado.

Os efeitos (a) - (c) são todos eles independentes, assim muitas curvas de diferentes

formatos podem aparecer na prática.

É por razões desse tipo que os gráficos de calibração com curvas de um formato

conhecido e previsível são tão raras na prática do trabalho analítico. Assim, o analista tem

muito pouca assistência, a priori, em qual tipo de muitas equações possíveis que geram

gráficos curvos deve ser utilizada no ajuste dos pontos de calibração.

Na prática, uma estratégia das mais comuns é ajustar uma curva que é polinomial

em x, isso é, ...32 dxcxbxay

Os problemas matemáticos que devem ser resolvidos, para isso, são:

i. Quantos termos devem ser adicionados aos polinômios e

ii. Que valores devem ser atribuídos aos coeficientes a, b, etc?

Page 135: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

135

Os softwares disponíveis para resolver esses problemas costumam ser interativos.

Eles ajustam primeiro uma linha reta, depois uma equação quadrática, depois uma cúbica, e

assim por diante, e apresentam ao usuário as informações necessárias para se decidir qual

dessas equações é a mais adequada.

Antes de se estudar com mais detalhes como essa decisão é tomada, é importante

considerar que, na prática, equações quadráticas ou cúbicas são, freqüentemente, suficientes

para originar um ajuste perfeito aos dados. Polinômios com mais termos são, quase com

certeza, fisicamente sem significado e não melhoram, de forma significativa, os resultados

analíticos.

Em qualquer caso, se os gráficos tiverem n pontos de calibração, o maior polinômio

permitido é de ordem (n - 1). Como então se pode decidir se (por exemplo) uma curva

quadrática ou cúbica é o melhor ajuste para os dados experimentais de calibração?

Da mesma maneira que no caso dos gráficos lineares, parece razoável usar os

“mínimos quadrados” para decidir sobre a qualidade do ajuste, isto é, procurar minimizar a

soma de quadrados dos resíduos de y. Esse procedimento permite utilizar uma simples

análise de variância (ANOVA) para avaliar os sucessivos polinômios.

Os cálculos de ANOVA assumem que apenas erros aleatórios na direção y ocorrem

e são executados como se segue.

Se os pontos individuais de calibração tem valores ni yyyy ,...,..., 21 e valor médio y

como usual, então o termo 2

yyi é conhecido como a “soma dos quadrados (SS)

sobre y ”.

Pode-se demonstrar que ele é igual à soma de dois outros termos, a “soma dos

quadrados devido à regressão”, 2

yyi e a “soma dos quadrados sobre a regressão”,

2

yyi .

A soma dos quadrados devido à regressão é a parte de 2

yyi devida ao ajuste

adequado de uma equação aos pontos de dados – ele deve, assim, ser o maior possível. Por

outro lado, a soma dos quadrados sobre a regressão é igual à soma dos quadrados dos

resíduos de y (a soma de quadrados residuais), que deve ser tão pequena quanto possível.

Page 136: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

136

Pode-se então definir R2, como o coeficiente de determinação, como:

total

resíduos

total

regressão

SS

SS

SS

SSR 12

(77)

R2 (às vezes também chamado de coeficiente de correlação múltipla) claramente

varia entre zero e 1, o último caso representando um ajuste perfeito da curva ao conjunto de

dados experimentais.

Pode-se demonstrar que, em caso de um gráfico linear, R2 = r

2, o quadrado do

coeficiente de correlação produto-momento.

Em resumo, a ANOVA disponível em programas de ajuste de curvas divide a soma

de quadrados total dos valores de yi sobre y (esta soma é, naturalmente, uma constante

para qualquer conjunto de dados) em dois componentes, cujas contribuições ao total varia

de acordo com a qualidade do ajuste, dado por R2.

Ao se decidir qual polinômio resulta no melhor ajuste para um conjunto de pontos

de calibração sobre uma curva, pode parecer que se tenha apenas que calcular R2 para

equações de reta, quadrática, cúbica, etc. e parar a nossa escolha quando R2 parar de

aumentar. Infelizmente observa-se que a adição de um outro termo ao polinômio sempre

aumenta o valor de R2, mesmo por um pequeno aumento. Assim, muitos softwares

fornecem uma estatística adicional ou alternativa, usualmente conhecidos como “com R2

como ajustado” ou ainda R’2, que utiliza a média quadrática (MS) em lugar da soma de

quadrados, e é dada por:

total

residual

MS

MSR 1'2 (78)

O uso de R’2 leva em consideração que o número de graus de liberdades dos

resíduos na regressão polinomial (dado por [n – k – l] onde k é o número de termos na

equação da regressão contendo uma função de x) muda, conforme a ordem do polinômio

Page 137: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

137

muda. Como no exemplo seguinte, R’2 é sempre menor que R

2. Exemplo: em uma análise

instrumental, foram obtidos os dados da Tabela 40 (unidades arbitrárias).

Tabela 40. Relação concentração e sinal em uma análise instrumental (do exemplo).

Concentração Sinal

0 0,2

1 3,6

2 7,5

3 11,5

4 15,0

5 17,0

6 20,4

7 22,7

8 25,9

9 27,6

10 30,2

Ajustar um polinômio adequado a esses resultados e usar para estimar as

concentrações correspondentes a sinais de 5, 16 e 27 unidades.

Mesmo uma mera observação dos dados sugere que o gráfico de calibração deve ser

curvo, mas é instrutivo calcular a reta de mínimos quadrados por esses pontos usando o

método descrito na aula passada.

Esta linha resultará numa equação y = 2,991 x + 1,555.

A tabela de ANOVA para esses dados (retornar à algumas aulas atrás) tem a forma

da Tabela 41.

Tabela 41. ANOVA para o exemplo dado.

Fonte de variação Soma dos quadrados Graus de liberdade Média dos quadrados

Regressão 984,009 1 984,009

Resíduo 9,500 9 1,056

Total 993,509 10 99,351

Pode-se mostrar que, na Tabela 41, o número de graus de liberdade para a variação

devida à regressão é igual a k, o número de termos na equação de regressão contendo x, x2,

etc.

Para uma linha reta, k é igual a um, como só se tem o termo em x. Como só se tem

uma restrição aos graus de liberdade (ou seja, que a soma dos resíduos é zero) o número

Page 138: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

138

total de graus de liberdade dos resíduos é (n - 1). Assim, o número total de graus de

liberdade associados aos resíduos é (nk - 1) = (n - 2). Dos dados de ANOVA é claro que:

%04,9999044,0509,993

009,9842 R

Uma equação que justifica mais de 99% da relação entre x e y é bem satisfatória,

mas, da mesma maneira que com o coeficiente de correlação r, deve-se ter cautela na

interpretação dos valores absolutos de R2. A seguir se tornará evidente que uma curva

quadrática ajustará muito melhor aos dados.

Pode-se calcular o valor ajustado de R’2 como sendo:

%937,9898937,0351,99

056,11'2

R

Foi visto que um exame dos resíduos pode fornecer informações sobre a equação de

calibração. Muitos softwares dedicados a esse fim geram uma tabela do tipo da Tabela 42.

A distribuição dos sinais e das magnitudes dos resíduos é aparente e assegura que

uma linha reta não é o melhor ajuste.

Quando os dados são ajustados para uma forma quadrática, a equação obtida será y

= 0,086 + 3,970x – 0,098x2, e a ANOVA fica (Tabela 43).

Tabela 42. Cálculo de resíduos.

x iy iy residualy

0 0,2 1,6 -1,4

1 3,6 4,5 -0,9

2 7,5 7,5 0

3 11,5 10,5 1,0

4 15,0 13,5 1,5

5 17,0 16,5 0,5

6 20,4 19,5 0,9

7 22,7 22,5 0,2

8 25,9 25,5 0,4

9 27,6 28,5 -0,9

10 30,2 31,5 -1,3

Page 139: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

139

Tabela 43. ANOVA (do exemplo).

Fonte de variação Soma dos quadrados Graus de liberdade Média dos quadrados

Regressão 992,233 2 496,116

Resíduo 1,276 8 0,160

Total 993,509 10 99,351

Note que o número de graus de liberdade das fontes de variação de regressão e

resíduos foi mudado de acordo com as regras acima. Entretanto, a variação total é,

naturalmente, a mesma encontrada na primeira tabela. Pode-se ver que:

%872,9999872,0509,993

233,9922 R

Esse valor é perceptivelmente maior que o primeiro (99,044%), encontrado do

gráfico linear e o valor ajustado de R’2 também é maior:

%839,9999839,0351,99

160,01'2

R

Quando os resíduos de y são calculados, seus sinais são:

Sem qualquer combinação óbvia.

Por todas essas razões é óbvio que a equação quadrática ajusta-se melhor aos dados

do que a linear. Finalmente, serão repetidos os cálculos para um ajuste cúbico. Aqui, o

melhor ajuste será dado por y = -0,040 + 4,170x – 0,150x2 + 0,0035x

3.

O coeficiente cúbico é realmente muito pequeno, impondo a questão se esta equação

fornece um ajuste significativamente melhor do que a quadrática. O valor de R2 é,

inevitavelmente, um pouco maior que o da quadrática, 99,879% comparado com 99,872%.

Entretanto, o valor ajustado de R’2 é ligeiramente menor que o valor quadrático, 99,827%.

A ordem dos sinais dos resíduos é a mesma do ajuste quadrático. Assim, não há

nenhum valor em se agregar termos desnecessários e se pode ficar confiante de que o ajuste

quadrático é satisfatório, nesse caso.

Page 140: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

140

Quando as equações acima são utilizadas para se estimar as concentrações

correspondentes aos sinais do instrumento de 5, 16 e 27 unidades, os resultados (valores de

x em unidades arbitrárias) são:

Tabela 44. Cálculo das concentrações nos diferentes coeficientes (do exemplo).

Linear Quadrático Cúbico

y = 5 1,15 1,28 1,27

y = 16 4,83 4,51 4,50

y =27 8,51 8,61 8,62

Como esperado, as diferenças entre as concentrações calculadas com equações

quadráticas e cúbicas são insignificantes, assim a equação quadrática deve ser usada por

simplicidade.

Foi visto antes que um gráfico de calibração não linear freqüentemente resulta da

ocorrência simultânea de fenômenos físico-químicos e / ou matemáticos. Assim, é possível

assumir que nenhuma função matemática simples pode descrever a curva de calibração

inteira, de maneira satisfatória. Portanto, parece lógico tentar ajustar os pontos a uma curva

que consiste de várias seções ligadas, cujas formas matemáticas podem ser diferentes. Essa

aproximação é agora usada com freqüência cada vez maior pela aplicação das funções

splines.

Splines cúbicas são mais comumente empregadas na prática. A curva final é feita de

uma série de seções ligadas de forma cúbica. Essas seções devem com certeza formar uma

curva contínua nas suas junções (nós), assim a primeira e a segunda derivadas de cada

curva em qualquer nó devem ser idênticas.

Uma variedade de métodos tem sido utilizada para estimar tanto o número de nós

como as equações para cada segmento. Essas técnicas já estão disponíveis em softwares

apropriados.

Essas técnicas foram aplicadas com sucesso em diferentes técnicas analíticas como

a cromatografia gás-líquido, imunoensaios, etc. Assim, é razoável perguntar se, no caso de

um gráfico de calibração cuja curvatura não é muito acentuada, não se poderia simplificar

ao máximo o conceito de spline e construir a curva como uma série de linhas retas

juntando-se em pontos sucessivos. Esse método é completamente não rigoroso e não deve

Page 141: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

141

fornecer informações sobre a precisão com que qualquer valor de x possa ser determinado.

Ele pode, entretanto, ter valor como uma simples análise inicial dos dados (método IDA) e

pode ser testado aplicando-o ao exemplo anterior. Assim, para os valores de y de 5, 16 e 27,

esse método de interpolação linear entre pontos sucessivos fornece valores de x de 1,36;

4,50 e 8,65 unidades, respectivamente. A comparação com os dados da Tabela 44 mostra

que esses resultados, especialmente os dois últimos, podem ser aceitáveis para muitas

finalidades.

Page 142: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

142

CAPÍTULO 10

MÉTODOS NÃO-PARAMÉTRICOS E MÉTODOS

ROBUSTOS

Introdução

Os testes estatísticos discutidos nas aulas anteriores assumiram que todos os dados

sendo examinados seguiam uma distribuição normal (gaussiana). Essa suposição está

apoiada no teorema do limite central, que mostra que a distribuição de amostras da média é

aproximadamente normal, mesmo se a população relacionada tiver uma distribuição bem

diferente. Essa aproximação fica mais precisa quando o número de amostras

aumenta.Assim, o valor do teorema é minimizado em conjuntos de dados muito pequenos

(como por exemplo, três ou quatro dados) freqüentemente utilizados no trabalho analítico.

Nessa aula introduzir-se-á dois grupos de testes estatísticos para o tratamento de

dados que podem não seguir uma distribuição normal.

Esses métodos, que não fazem suposições sobre a forma da distribuição da qual os

dados são tomados, são chamados de métodos não-paramétricos.

Muitos deles têm a vantagem adicional de simplificar sensivelmente os cálculos,

com um pequeno conjunto de dados alguns deles podem até ser feitos sem o auxílio de

calculadoras.

Um outro grupo de métodos, cuja utilização tem crescido rapidamente nos últimos

anos, é baseado na suposição de que a distribuição da população até pode ser normal (ou ter

alguma outra forma bem definida), mas apresentam alguns dados, como os fora da curva,

que podem distorcer esta distribuição.

Essas técnicas robustas serão apropriadas quando a distribuição deixa de ser normal.

Page 143: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

143

A mediana - análise inicial dos dados

Nas aulas anteriores usou-se a média aritmética como uma medida da “tendência

central” de um conjunto de dados. Isto é lógico quando a distribuição normal (simétrica) é

assumida, mas na estatística não-paramétrica, a mediana é empregada em substituição à

média.

Para se calcular a mediana de n observações, estas são arranjadas em ordem

ascendente. Dessa forma, o valor da mediana será o da ½ (n + 1) ésima determinação se n

for impar e a média entre os valores da ½ n ésima e da (½ n + 1) se n for par. Exemplo:

determine a média e a mediana para os seguintes valores de quatro titulações: 25,01; 25,04;

25,06; 25,21 mL.

É fácil calcular que a média dessas quatro observações é 25,08 mL e que a média,

no caso o valor médio entre o 2º e o 3º valor é 25,05 mL.

O valor da média é maior que qualquer um dos três valores mais próximos (25,01;

25,04 e 25,06) e assim talvez seja uma avaliação menos realística da tendência central que a

mediana.

Ao invés de se calcular a mediana, poder-se-ia utilizar os métodos discutidos

anteriormente para caracterizar o ponto 25,21 como fora da reta (outlier) e determinar a

média de acordo com o resultado obtido. Entretanto, esse cálculo envolve um trabalho extra

e assume que a distribuição da população é normal. Esse exemplo simples ilustra uma

propriedade valiosa da mediana, ela não é afetada por valores fora da curva.

Na estatística não paramétrica, a medida usual de dispersão (em substituição ao

desvio padrão) é o intervalo interquartílico.

Como foi visto, a mediana divide a amostra de medidas em duas metades iguais. Se

cada uma dessas metades for posteriormente dividida em dois, esses pontos de divisão são

chamados de quartílicos superior e inferior.

A mediana e o intervalo interquartílico são apenas duas das estatísticas que

compõem a Analise Inicial de Dados (IDA), também chamada de Análise Exploratória de

Dados (EDA).

Page 144: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

144

A maior vantagem dos métodos IDA é a sua habilidade para indicar qual método

estatístico é mais apropriado para um dado conjunto de dados. Várias técnicas simples de

apresentação dos dados fornecem ajuda imediata.

Já foi discutido o uso dos gráficos de pontos na representação de pequenos

conjuntos de dados. Esses gráficos ajudam na identificação visual de pontos fora da curva e

outras características dos dados. O exemplo seguinte ajuda a ilustrar seu valor. Exemplo:

num experimento par se determinar se os íons Pb2+

interferem com a determinação

enzimática de glicose em alimentos, nove amostras foram tratadas com uma solução de Pb

(II) 0,1 mol L-1

, enquanto quatro outras (o grupo de controle) não foi tratado. As

velocidades (em unidades arbitrárias) da reação enzimática foram medidas e corrigidas para

a quantidade de glicose presente. Os resultados encontrados foram:

Alimentos tratados: 21, 1, 4, 26, 2, 27, 11, 24, 21.

Controles: 22, 22, 32, 23.

Comentar esses resultados.

Separados em duas linhas como acima, os resultados não aparentam muito

significado imediato e um analista distraído poderia tentar diretamente um teste t, ou talvez

um dos testes não paramétricos descrito abaixo, para verificar se esses dois conjuntos de

resultados são significantemente diferentes. Entretanto, ao se construir um gráfico de

pontos (com cada conjunto representado por um símbolo diferente) as coisas mudam de

figura.

Torna-se aparente que esses resultados não são conclusivos e não se pode tirar

muitas informações deles, sem outras adições de medidas posteriores.

As medianas dos dois conjuntos são similares: 21 para os alimentos tratados e 22,5

para os controles. Entretanto, as variações das velocidades de reação para os materiais

tratados com Pb (II) são muito grandes. Nesse caso os resultados parecem cair em dois

grupos diferentes.

Cinco dos alimentos parecem não ser afetados pelo chumbo, enquanto três outros

mostram uma grande inibição e um outro fica mais ou menos no meio desses dois efeitos.

Ainda se deve considerar que um dos pontos de controle pode ser um ponto fora da curva, e

Page 145: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

145

para isso deve ser testado. Nessas circunstâncias torna-se evidente que um simples teste de

significância não traria informação útil.

O uso do mais simples método IDA orientou a evitar testes de significância sem

sentido e a realizar mais experimentos.

Uma outra técnica simples de representação dos dados, de grande valor quando

amostras maiores são estudadas é o gráfico da caixa de bigodes.

Na sua forma normal, esse diagrama é composto por um retângulo, a caixa, e duas

linhas (o bigode) que se estendem dos vértices opostos da caixa, e uma outra linha paralela

aos mesmos vértices da caixa. As extremidades dos bigodes indicam o intervalo dos dados,

os vértices da caixa da qual os bigodes saem, representam os quartílios superior e inferior e

a linha que cruza a caixa é a mediana dos dados. Esse gráfico mostra, em um olhar, a

dispersão e a simetria dos dados. Alguns softwares incluem ainda passos que mostram a

existência de pontos fora da curva. Nesses casos, os pontos fora da curva são definidos

como aqueles menores do que o quartílio inferior, ou maior que o quartílio superior, por um

fator maior que 1,5 vez o intervalo do quartílio. Os bigodes então se estendem apenas aos

limites superior e inferior ou cercas e os pontos fora da curva são mostrados como pontos

separados. Exemplo: suponha que você pesque e meça os comprimentos de 13 peixes em

um lago. Os valores obtidos foram: 12, 13, 5, 8, 9, 20, 16, 14, 14, 6, 9, 12, 12 (cm).

Que informação pode-se tirar desse conjunto de dados?

Inicialmente deve-se ordenar esse conjunto em ordem crescente: 5, 6, 8, 9, 9, 12, 12,

12, 13, 14, 14, 16, 20.

Agora se encontra a mediana de todos os números. Como se tem 13 (ímpar)

números, a mediana será o sétimo valor. O próximo passo é determinar o quartílio inferior

(mediana inferior). Esse é o meio dos seis menores números. O centro exato é a média entre

8 e 9, que deve ser, então, 8,5. Agora se encontra o quartílio superior (mediana superior),

que é o meio do intervalo superior. Seu valor está exatamente entre 14 e 14, o que deve ser

igual a 14.

Agora pode-se desenhar o gráfico caixa e bigode (Figura 31). (1), precisa-se

desenhar uma linha de números ordinários que seja longa o suficiente para incluir todos os

Page 146: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

146

números dos dados. (2), localizar a mediana 12, usando uma linha vertical acima da linha

de números. (3) localizar o quartílio inferior 8,5 e o superior 14 com linhas verticais

similares. (4) desenhar a caixa, usando as pontas das linhas. Finalmente, (5) os bigodes são

colocados entre o menor e o maior número dos dados (5 e 20).

4 6 8 10 12 14 16 18 20 22

4 6 8 10 12 14 16 18 20 22

Mediana

4 6 8 10 12 14 16 18 20 22

Mediana

Qu

artí

lio

infe

rio

r

Qu

artí

lio

sup

erio

r

4 6 8 10 12 14 16 18 20 22

4 6 8 10 12 14 16 18 20 22

1

2

3

4

5

Figura 31. Caixa de bigodes.

Mas o que ela significa? Que informação sobre os dados esse gráfico pode fornecer?

Page 147: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

147

Bem, é óbvio do gráfico que os comprimentos dos peixes variam de 5 a 20 cm. Isto

dá o intervalo dos dados, 15 cm. Também se conhece a mediana ou o valor central dos

comprimentos dos peixes, 12 cm. Como as medianas e os quartílios são pontos centrais,

eles dividem os dados em quatro regiões iguais. Assim:

Um quarto dos dados é menor que 8,5;

Um quarto dos dados está entre 8,5 e 12;

Um quarto dos dados está entre 12 e 14;

Um quarto dos dados é maior que 14 cm.

O teste do sinal

O teste do sinal está entre os mais simples de todos os métodos não paramétricos, e

foi o primeiro a ser discutido no começo do Século XVIII.

Sua forma mais simples pode ser ilustrada no exemplo seguinte: um preparado

farmacêutico deve conter um conteúdo mediano de 8% de um componente particular.

Análises sucessivas mostraram, na prática, que ele contém: 7,3; 7,1; 7,9; 9,1; 8,0; 7,1; 6,8 e

7,3% do constituinte. No nível de significância de 5% , esses dados indicam que a

porcentagem indicada é errada?

No teste do sinal, a mediana postulada é subtraída de cada valor dos dados e o sinal

de cada resultado é considerado. Os valores iguais ao postulado são integralmente

ignorados. Nesse caso têm-se efetivamente sete valores experimentais, seis dos quais

menores que a mediana, e assim dando sinal negativo, e um maior que a mediana, portanto

com sinal positivo.

Para testar se a preponderância de sinais negativos é significante usa-se o teorema

binomial. Esse teorema mostra que a probabilidade de r em n sinais ser negativo é dado

por:

)()( rnr

r

n qpCrP (79)

Page 148: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

148

Onde r

nC é o número de combinações de r itens num total de n itens; p é a

probabilidade de se obter um sinal negativo num único resultado e q a probabilidade de não

se obter um sinal negativo em um único experimento, isso é: 1 – p.

Como a mediana é definida de tal forma que metade dos resultados experimentais

fica acima dela e metade abaixo, é claro que a mediana é 8,0 e, nesse caso, tanto p quanto q

deve ser igual a ½ .Assim, usando-se a equação anterior:

128

7

2

1

2

1

)!67(!6

!7)6(

6

P

Da mesma maneira pode-se calcular que a possibilidade de obter sete sinais

negativos, P(7), será de 1 / 128. Assim, a probabilidade total de se obter seis ou mais sinais

negativos no nosso experimento será de 8 / 128. Entretanto, pergunta-se apenas se os dados

diferem significantemente da mediana postulada. Precisa-se, assim, fazer um teste bi-

caudal.

Calcula-se a probabilidade de se obter seis ou mais sinais idênticos (isso é maior ou

igual a seis mais ou maior ou igual a seis menos) quando sete resultados são tomados de

maneira aleatória. Isto é, claramente, 16 / 128 = 0,125. Compara-se, então, esse resultado

com 0,05, isso é, faz-se o teste com um nível de significância de 95%. Como o valor

experimental é maior que 0,05, nossa hipótese nula, que os dados vieram de uma população

com mediana de 8,0, não pode ser rejeitada.

É aparente, desse exemplo, que o teste do sinal envolve o uso freqüente da

distribuição binomial com p = q = ½. Esta aproximação é tão comum que os valores

resultantes são coletados em uma tabela† para facilitar as contas (Tabela 45).

O teste do sinal também pode ser utilizado como uma alternativa não paramétrica

para o teste t pareado, para comparar dois conjuntos de resultados das mesmas amostras.

Assim, se dez amostras forem examinadas com dois métodos, A e B, pode-se testar se os

† A tabela usa a distribuição binomial com P = 0,05 para dar as probabilidades de r ou sucessos

menores para n = 4 a 15. Esses valores correspondem a um teste de sinal mono-caudal e devem ser duplicados

para um teste bi-caudal.

Page 149: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

149

resultados são significantemente diferentes, calculando, para cada amostra, a diferença

entre os resultados dos dois métodos.

Tabela 45. O teste do sinal.

n r = 0 1 2 3 4 5 6 7

4 0,063 0,313 0,688

5 0,031 0,188 0,500

6 0,016 0,109 0,344 0,656

7 0,008 0,063 0,227 0,500

8 0,004 0,035 0,144 0,363 0,637

9 0,002 0,020 0,090 0,254 0,500

10 0,001 0,011 0,055 0,172 0,377 0,623

11 0,001 0,006 0,033 0,113 0,274 0,500

12 0,000 0,003 0,019 0,073 0,194 0,387 0,613

13 0,000 0,002 0,011 0,046 0,133 0,290 0,500

14 0,000 0,001 0,006 0,029 0,090 0,212 0,395 0,605

15 0,000 0,000 0,004 0,018 0,059 0,151 0,304 0,500

A hipótese nula será de que os dois métodos não dão resultados significantemente

diferentes – na prática isso significa, de novo, que a probabilidade de se obter um sinal

positivo (ou negativo) é 0,5. O número de sinais positivos ou negativos obtidos pode ser

comparado com a probabilidade derivada da equação binomial acima.

Um outro uso do teste do sinal é indicar a presença de uma tendência. Essa

aplicação é exemplificada: o nível de um hormônio no plasma sanguíneo de um paciente é

medido na mesma hora por dia durante 10 dias. Os resultados obtidos estão na Tabela 46.

Tabela 46. Nível de um hormônio no plasma sanguíneo de um paciente medido na mesma

hora por dia durante 10 dias (do exemplo).

Dia Nível (ng mL-1

)

1 5,8

2 7,3

3 4,9

4 6,1

5 5,5

6 5,5

7 6,0

8 4,9

9 6,0

10 5,0

Page 150: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

150

Há alguma evidência de tendência na concentração de hormônio?

Usando os métodos paramétricos seria possível fazer um gráfico de regressão linear

desses dados e testar se a tangente difere significantemente de zero. Tal aproximação

assumiria que os erros são distribuídos normalmente, e que qualquer tendência seria linear.

A aproximação não paramétrica é mais simples. Os dados são divididos em dois

conjuntos, com a seqüência mantida: 5,8; 7,3; 4,9; 6,1; 5,5; 5,5; 6,0; 4,9; 6,0; 5,0.

Os resultados para os dias de baixo são subtraídos dos correspondentes da primeira

linha.

Os sinais das diferenças encontradas assim são: (+ + 0 + +). Como usual, o zero é

ignorado, deixando quatro resultados positivos. A probabilidade de se obter quatro sinais

idênticos em quatro tentativas é claramente (novamente um teste bi-caudal):

125,016

12

A hipótese nula, de que não há tendências, não pode ser rejeitada no nível de

significância de 95%. Esse resultado pode parecer insatisfatório, porém é o preço que se

paga pela simplicidade do teste.

O teste não utiliza todas as informações oferecidas pelos dados, assim ele provê

menos informações.

O teste de séries Wald-Wolfowitz

Em alguns casos se está interessado não apenas em quais observações geram sinais

positivos ou negativos, mas também em quais desses sinais estão em uma seqüência

aleatória.

Na aula anterior observou-se que uma linha reta ajusta bem os pontos

experimentais, então resíduos positivos e negativos são observados de maneira aleatória.

Por contraste, tentar ajustar uma reta num conjunto de dados que estão sobre uma curva

produzirá uma seqüência não aleatória de sinais positivos e negativos. Encontra-se, por

Page 151: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

151

exemplo, uma seqüência de (+) seguida por outra seqüência de (-) e então outra de (+).

Essas seqüências são conhecidas tecnicamente como séries (runs). No caso de ajuste de

curvas é claro que uma seqüência não aleatória de (+) ou (-) levará a um número de séries

menor do que uma seqüência aleatória. O método de Wald-Wolfowitz testa se o número de

séries é suficientemente pequeno para que a hipótese nula de uma distribuição aleatória de

sinais possa ser rejeitada. O número de séries em um conjunto de dados é comparado com

os números da Tabela 47 (página 152), que se refere a 5% de nível de confiança. Na Tabela

47 entra-se com os valores apropriados de N (o número de sinais positivos) e M (o número

de sinais negativos). Se o valor obtido de séries for menor do que o valor tabulado, a

hipótese nula deverá ser rejeitada. Exemplo: equações de regressão linear são usadas para

ajustar uma linha reta em um conjunto de 12 pontos de calibração. Os sinais dos resíduos

resultantes na ordem de aumento de x foram:

Comentar se seria melhor ajustar uma curva.

Nesse caso, N = M = 6 e o número de séries é três. Na Tabela 47, observa-se que, a

5% de significância, o número de séries deve ser < 4 se a hipótese nula deve ser rejeitada.

Assim, nesse caso, rejeita-se a hipótese nula e conclui-se que as seqüências de (+) e (-) não

é aleatória.

A tentativa de se ajustar uma linha reta aos dados, assim, não é satisfatória e um

gráfico de regressão curvilinear deveria ser indicado.

O teste de Wilcoxon das séries das ordens assinaladas

Em muitos casos, um analista pode ter razões para supor que suas medidas são

distribuídas de forma simétrica, mas não deseja fazer qualquer suposição que essa

distribuição seja simétrica. Essa suposição de dados simétricos, e a conseqüência de que a

média e a mediana da população serão iguais, permite o desenvolvimento de um dos mais

poderosos testes de significância. Seu mecanismo será ilustrado como um exemplo: os

níveis de chumbo do sangue (em pg mL-1

) de sete crianças foram medidos como: 104, 79,

Page 152: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

152

98, 150, 87, 136 e 101. Esses dados podem ter vindo de uma população assumida como

simétrico com mediana (média) de 95 pg mL-1

?

Tabela 47. O teste de séries de Wald-Wolfowitz.

N M Menor que: Maior que:

2 12-20 3 NA

3 6-14 3 NA

3 15-20 4 NA

4 5-6 3 8

4 7 3 NA

4 8-15 4 NA

4 16-20 5 NA

5 5 3 9

5 6 4 9

5 7-8 4 10

5 9-10 4 NA

5 11-17 5 NA

6 6 4 10

6 7-8 4 11

6 9-12 5 12

6 13-18 6 NA

7 7 4 12

7 8 5 12

7 9 5 13

7 10-12 6 13

8 8 5 13

8 9 6 13

8 10-11 6 14

8 12-15 7 15

Comparados com o valor de referência (95) os dados têm os valores de: 9, -16, 3,

55, -8, 41, 6. Esses valores são inicialmente arranjados em ordem de magnitude,

independente do sinal: 3, 6, -8, 9, -16, 41, 55. Os números são, então, ordenados, mantendo

os sinais, mas ordenando-os com números em ordem crescente: 1, 2, -3, 4, -5, 6, 7. Os

índices positivos somam 20 e os negativos 8. O menor desses números (8) é tomado como

o teste estatístico. O teorema binomial dará a probabilidade de ocorrer esse número. Se os

dados vierem de uma população com mediana 95 as somas dos índices negativos e

positivos devem ser esperadas como aproximadamente e numericamente iguais. Se a

mediana da população for diferente de 95, as somas de índices negativos e positivos são

diferentes. A probabilidade de uma soma particular ocorrer na prática é dada por um

conjunto de tabelas.

Page 153: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

153

Nesse teste a hipótese nula deve ser rejeitada se o valor experimental for menor do

que ou igual ao valor tabulado. Nesse exemplo, o exame do valor tabelado mostra que, para

n = 7, o teste estatístico deve ser menor ou igual a dois para que a hipótese nula - que os

dados vêm de uma população com a mediana de 95 - possa ser rejeitada num nível de

significância de P = 0,05. Assim, a hipótese nula deve ser claramente retida. Como usual, o

teste bi-caudal foi usado, apesar de haver casos em que o teste mono-caudal poder ser

apropriado.

Uma vantagem importante do teste das ordens assinaladas é que ele pode ser usado

em dados pareados, pois esses podem ser transformados no tipo de dados vistos no exemplo

anterior. Exemplo: a Tabela 48 dá a concentração porcentual de zinco, determinada por

dois métodos diferentes, para cada uma das oito amostras de alimentos.

Tabela 48. Concentração porcentual de zinco determinada por dois métodos diferentes para

oito amostras de alimentos (do exemplo).

Amostra Titulação com EDTA Espectrometria Atômica

1 7,2 7,6

2 6,1 6,8

3 5,2 4,6

4 5,9 5,7

5 9,0 9,7

6 8,5 8,7

7 6,6 7,0

8 4,4 4,7

Há alguma evidência para uma diferença sistemática entre os resultados dos dois

métodos?

A aproximação para esse problema é muito simples. Se não houver uma diferença

sistemática entre os dois métodos, então deve-se esperar que as diferenças entre os dois

resultados para cada amostra (isso é, o resultado da titulação – resultado da espectroscopia)

devem estar distribuídas de forma simétrica em torno de zero. As diferenças ordenadas são:

-0,2; 0,2; -0,3; -0,4; -0,4; 0,6; -0,7; -0,7. Esses resultados apresentam uma dificuldade

relacionada com a presença de números repetidos (independente dos sinais). Para resolver

Page 154: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

154

esse problema, dá-se um índice médio para cada um dos números repetidos. Assim, a

relação de números ordenados fica: -1,5; 1,5; -3,0; -4,5; -4,5; 6,0; -7,5; -7,5.

Nesses casos, para se verificar se a ordenação foi feita corretamente, calcula-se a

soma de todos os índices, sem levar em conta os sinais. A soma, nesse caso, é 36, que

corresponde à soma dos oito primeiros números naturais e, assim, correta. A soma dos

índices positivos é 7,5 e a soma dos negativos é 28,5. Assim, o teste estatístico será feito

com o 7,5. Uma análise do valor tabelado mostra que, para n = 8, o teste estatístico tem que

ser menor ou igual a três antes da hipótese nula ser rejeitada, no nível de significância de

0,05.

No caso presente, a hipótese nula deve ser retida – não há evidências que a mediana

da diferença não seja zero e, assim, nenhuma evidência para uma diferença sistemática

entre os dois métodos analíticos.

Os métodos de Wilcoxon de ordem somada e outros relacionados

O método de ordem assinalada anterior é indicado para o estudo de conjuntos

simples de medidas ou de conjuntos pareados que podem ser facilmente reduzidos a um

único conjunto. Em muitos casos, entretanto, é necessário comparar duas amostras

independentes que não podem ser reduzidas a um conjunto simples de dados. Essas

amostras podem conter conjuntos com diferentes números de dados. Para isso se usa o teste

de Wilcoxon de ordem somada, cujo funcionamento é mostrado no exemplo: uma amostra

de resíduos fotográficos foi analisada para prata por espectroscopia de absorção atômica,

sendo que cinco medidas consecutivas deram os seguintes valores: 9,8; 10,2; 10,7; 9,5 e

10,5 µg mL-1

. Após um tratamento químico, o efluente foi analisado novamente pelo

mesmo procedimento dando os valores de 7,7; 9,7; 8,0; 9,9 e 9,0 µg mL-1

. Há alguma

evidência que o tratamento reduz significantemente o nível de prata?

O primeiro passo, nesta análise, é ordenar todos os dados (de ambos os conjuntos).

Para distinguir aqueles obtidos após o tratamento, é necessário grifá-los. 7,7; 8,0; 9,0; 9,5;

9,7; 9,8; 9,9; 10,2; 10,5; 10,7. A ordem, mantendo os grifos correspondentes, fica

assinalada como: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. É aparente que, mesmo quando números

Page 155: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

155

repetidos aparecem (e são tratados como mostrados no item anterior) a soma de todos os

índices é:

2

1

nnsoma (80)

Se as medidas para os dois conjuntos de resultados forem indistinguíveis, deve-se

esperar que os conjuntos ordenados o sejam de maneira aleatória.

A soma dos índices grifados (amostras tratadas) é 18 e a dos não grifados (não

tratadas) é 37. Esta soma dos índices deve agora ser convertida nos testes estatísticos T1 e

T2 pelas equações:

2

1

2

1

2222

1111

nnST

nnST

(81)

Nessa equação, n1 = n2 = 5, assim ni(ni + 1) / 2 = 15, e T1 e T2 são 3 e 22,

respectivamente. O menor desses valores (3) é comparado com o valor apropriado da tabela

adequada (Tabela 49). É importante notar que nesse exemplo foi aplicado o teste mono-

caudal, pois o método de tratamento químico visa reduzir o conteúdo de prata (nunca

aumentá-lo). A Tabela 49 mostra que para P = 0,05 e n1 = n2 = 5, o valor menor de T não

deve exceder quatro para que a hipótese nula seja rejeitada. Como o valor obtido foi três,

pode-se rejeitar a hipótese nula (de que as duas amostras vieram da mesma população) e

concluir que o tratamento químico foi eficiente em reduzir o nível de prata do efluente.

Page 156: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

156

Tabela 49. Teste de soma de Wilcoxon; teste-U de Mann-Whitney. Valores críticos para U ou

o menor de T1 e T2 para P = 0,05.

n1 n2 Teste mono-caudal Teste bi-caudal

3 3 0 NA

3 4 0 NA

3 5 1 0

3 6 2 1

4 4 1 0

4 5 2 1

4 6 3 2

4 7 4 3

5 5 4 2

5 6 5 3

5 7 6 5

6 6 7 5

6 7 8 6

7 7 11 8

Testes não-paramétricos em mais de duas amostras

Foi dito anteriormente que quando resultados pareados são utilizados, um teste

estatístico especial deve ser usado. Esse teste pode ser o teste de Friedman.

O procedimento de utilização desse método é descrito no exemplo: os níveis de

pesticidas em extratos de quatro plantas foram determinados por: (A) cromatografia líquida

de alta eficiência (CLAE), (B) cromatografia gás-líquido, (C) radioimunoensaios. Os

resultados obtidos são dados na Tabela 50.

Tabela 50. Níveis de pesticidas em extratos de quatro plantas medidos com três métodos (do

exemplo).

Amostra Método

A B C

1 4,7 5,8 5,7

2 7,7 7,7 8,5

3 9,0 9,9 9,5

4 2,3 2,0 2,9

Os valores de níveis de pesticidas obtidos pelos três métodos diferem de modo

significativo?

Page 157: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

157

Esse problema é resolvido de maneira simples substituindo os números dos dados

obtidos por índices. Para cada amostra, o método dando o menor valor é indiciado como

um e o que deu maior valor como três. Em caso de repetição, atribui-se, novamente, o valor

médio dos índices para cada um.

Tabela 51. Atribuição de índices para os valores obtidos no exemplo.

Amostra Método

A B C

1 1 3 2

2 1,5 1,5 3

3 1 3 2

4 2 1 3

A soma dos índices dos três métodos são 5,5; 8,5 e 10, para os métodos A, B e C,

respectivamente. Essas somas devem totalizar nk (k + 1) / 2, onde k é o número de métodos

(aqui três) e n o número de amostras (aqui quatro). As somas dos índices são elevadas ao

quadrado, dando 30; 25; 72,25 e 100, respectivamente.

Esses quadrados são somados para dar o parâmetro estatístico R, que nesse caso é

202,5. O valor experimental de χ2 é obtido, utilizando-se o método da estatística do chi

quadrado:

13...12

222

2

2

N

n

R

n

R

n

R

NN C

C

B

B

A

A (82)

Onde as amostras são referidas como 1, 2, 3, 4, etc. (n amostras no total) e o número

de medidas em cada método como nA, nB,, nC, etc. e a soma dos índices como RA, RB, RC,

etc. e, finalmente N = nA + nB + nC + etc. Nesse caso:

625,213

1

122

knknk

R

Num nível de significância de P = 0,05, e com k = 3, os valores críticos de χ2 são

6,0; 6,5; 6,4; 7,0; 7,1 e 6,2 para n = 3, 4, 5, 6, 7 e 8 respectivamente (Dados mais extensivos

são fornecidos em muitas tabelas estatísticas e, quando k > 7, as tabelas usuais de χ2 podem

Page 158: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

158

ser usadas com k - 1 graus de liberdade). Assim, o valor encontrado aqui, 2,625, é muito

menor que o valor para n = 4 e deve-se, com certeza, reter a hipótese nula, significando que

os três métodos não diferem significantemente.

Métodos não-paramétricos de regressão

Dos muitos métodos disponíveis para ajustar uma linha reta em um conjunto de

dados experimentais, talvez um dos mais simples seja o método incompleto de Thail. Esse

método assume que uma série de pontos (x1, y1), (x2, y2), etc. é ajustado por uma linha com

equação y = bx + a. O primeiro passo nos cálculos envolve indiciar os pontos em ordem

crescente de valores de x. Se o número de pontos, x, for impar, o ponto central, a mediana

do valor de x, é desprezado. Os cálculos sempre requerem um número par de pontos. Para

qualquer par de pontos (xi, yi), (xj, yj), onde xj > xi, a tangente, bij, da linha que liga os

pontos é calculada como:

ij

ji

ijxx

yyb

(83)

Tangentes bij são calculadas para cada par de pontos (x1, y1) e o ponto

imediatamente consecutivo ao valor médio de x. Para o segundo ponto (x2, y2) e o segundo

ponto após a mediana de x, e assim adiante. Assim, se os dados originais contiverem 11

pontos, cinco tangentes serão encontradas (o ponto mediano foi desprezado), se houver oito

pontos originais, quatro tangentes serão estimadas e assim por diante. Essas tangentes são

então arranjadas em ordem crescente e seu valor mediano, calculado como descrito

anteriormente, é a tangente estimada da linha reta. Com esse valor final de b, os valores de

ai, para o intercepto, são estimados para cada ponto com a ajuda da equação y = bx + a.

Novamente, os valores estimados de a são arranjados em ordem crescente e o valor

da mediana é escolhido como a melhor estimativa do intercepto da linha. Exemplo: os

resultados da Tabela 52 foram obtidos em um experimento de calibração para uma

determinação da medida de absorção de um complexo metal quelante.

Page 159: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

159

Tabela 52. Dados de experimento de calibração para uma determinação da medida de

absorção de um complexo metal quelante.

C (μg mL-1

) Absorbância

0 0,04

10 0,23

20 0,39

30 0,59

40 0,84

50 0,86

60 1,24

70 1,42

Usar o método de Thail para estimar a tangente e o intercepto da melhor reta que se

ajusta nos pontos. Nesse caso, os cálculos são simplificados pela ocorrência de um número

par de observações e pelo fato de que os valores de x (concentrações) ocorrerem em

intervalos regulares, já em ordem crescente. Assim, tem-se que calcular as tangentes

estimadas para quatro pares de pontos:

0208,0

40

59,042,1

0212,040

39,024,1

0158,040

23,086,0

0200,040

04,084,0

48

37

15

15

b

b

b

b

Agora se coloca essas tangentes em ordem crescente, obtendo: 0,0158; 0,0200;

0,0208; 0,0212. A mediana das tangentes é, assim, a média entre 0,0200 e 0,0208, isso é,

0,0204. Agora se usa esse valor para estimar o intercepto, a, para oito pontos individuais:

Page 160: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

160

008,0700204,042,1

016,0600204,024,1

160,0500204,086,0

024,0400204,084,0

022,0300204,059,0

018,0200204,039,0

026,0100204,023,0

040,000204,004,0

8

7

6

5

4

3

2

1

a

a

a

a

a

a

a

a

Arranjando esses valores de intercepto em ordem, tem-se: -0,160; - 0,022; -0,018; -

0,008; +0,016; +0,024; +0,026; +0,040. A mediana estimada é +0,004. Assim, tem-se uma

linha reta dada por y = 0,0204x + 0,004.

A técnica dos mínimos quadrados vista anteriormente, calcularia, para esses dados,

a equação y = 0,0195x + 0,019. A Figura 32 mostra uma comparação entre os resultados

das duas técnicas.

-10 0 10 20 30 40 50 60 70 80

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6y = 0,0204x + 0,004

y = 0,01949x + 0, 1917

A

C (g mL-1)

Figura 32. Comparação entre o método dos mínimos quadrados (linha vermelha) e o método

de Thail para a obtenção da reta de regressão.

Page 161: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

161

O método de Thail tem três vantagens distintas em relação ao método anterior:

Não assume que todos os erros estão na direção y;

Não assume que os erros em y ou em x estão distribuídos de forma normal;

Não é afetado pela presença de um ponto fora da curva.

Métodos robustos

No começo desse item, postulou-se a crescente evidência de distribuições de erros

bastante assimétricas (chamadas de heavytailed – pesadamente caudal), como variações

causadas por interferências com a distribuição normal.

Nesses casos, parece ser um desperdício de informações utilizar um método não

paramétrico, que não faz qualquer proposição sobre a distribuição de erros. Assim, uma

melhor aproximação seria desenvolver métodos que não excluem totalmente os dados com

suspeita de serem diferentes do resto das medidas, ou do valor médio, mas que reduzem o

peso de tais dados. Esta é a filosofia por trás dos métodos robustos.

Esses métodos podem ser aplicados para medidas repetidas ou para dados de

calibração e ou regressão.

Um problema óbvio ocorre em virtualmente todos esses métodos.

Se vai reduzir o peso de alguns pontos, um ou mais critérios são necessários nos

quais se baseiam as decisões sobre que pontos são esses. Entretanto, não se pode usar esses

critérios a menos que se comece com todo o conjunto de dados. Assim, para resolver esse

dilema, métodos iterativos são necessários.

A um chute inicial sobre o valor a calcular segue-se uma estimativa sobre a qual se

aplicam os critérios convenientes, refazem-se os cálculos e reaplicam-se os critérios

novamente. Uma aproximação bastante útil a esse problema é baseada no conceito de

função distância. Suponha que se tem uma série de n resultados x1, →, xn e se quer estimar

µ, a média de resultados “confiáveis”.

No modo normal, estimativa que se tem de µ, chamado aqui de , é obtida pela

minimização da soma dos quadrados 2

ixSS .

Page 162: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

162

Esta soma de termos quadráticos é a fonte da sensitividade da média para erros

grandes. A expressão (x - µ)2 é referida como uma função distância, pois mede a distância

do ponto x ao valor médio µ. Em um método estabelecido, de qualquer medida pela qual

x excede cσ, onde c normalmente toma o valor de 1,5 e σ2 é uma variância estimada

robusta, é efetivamente tirada peso como descrito a seguir.

A variância robusta é derivada de uma estatística chamada de desvio absoluto da

mediana (MAD – median absolute deviation) que é calculada de:

ii xmedianaxmedianaMAD (84)

Aplicando então esses conceitos no conjunto de dados: 0,380; 0,400; 0,401; 0,403;

0,410; 0,411; 0,413. Primeiro, é necessário calcular a MAD. A mediana desses números é

0,403 e os desvios individuais (sem considerar os sinais) são: 0,023; 0,003; 0,002; 0; 0,007;

0,008 e 0,010, que podem ser ordenados em ordem numérica como: 0; 0,002; 0,003; 0,007;

0,008; 0,010 e 0,023. A MAD é a mediana desses sete números, isso é, 0,007, assim, =

MAD / 0,6745 (que é uma estimativa robusta de σ) = 0,007 / 0,6745 = 0,0104 e 1,5 é

0,0156.

Agora está pronto para começar as estimativas iterativas de . Esse processo

começa com um chute no valor de , e pelo cálculo de x para cada medida. Nesse

exemplo, será suposto que o valor inicial de seja a mediana, 0,403. Como foi visto, os

desvios individuais desse valor são (em ordem numérica e desprezando os sinais): 0; 0,002;

0,003; 0,007; 0,008; 0,010 e 0,023. Na primeira iteração para , as medidas originais são

mantidas se esses desvios da mediana forem maiores ou iguais que 0,0156. Isto se aplica

para todos os desvios listados, menos o último. No caso em que o desvio é > 0,0156, o

valor original em questão é mudado para ˆˆ c ou ˆˆ c em função do dado original

ser maior ou menor que a mediana. No caso presente, o valor 0,380, que deu o maior desvio

0,023, tem que ser mudado para ˆˆ c , isso é, 0,403 – 0,0156 = 0,3874. Agora se tem um

novo conjunto de dados, onde a medida 0,380 do conjunto original foi mudada para 0,3874.

Esse novo conjunto de números é chamado de um conjunto de pseudovalores ( ix~ ), e o

Page 163: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

163

cálculo é repetido usando esse novo conjunto. O primeiro passo é calcular a média desses

novos valores, que dá agora 0,4036. Os desvios individuais desta estimativa de são em

ordem crescente e sem importar o sinal: 0,0006; 0,0026; 0,0036; 0,0064; 0,0074; 0,0094 e

0,0162. Como esperado (desde que apenas uma medida era suspeita no início), apenas o

último desvio excede 0,0156.

Isto significa que a medida em questão é mudada novamente, de 0,3874 para

(0,4036 - 0,0156) = 0,3880. O próximo conjunto de ix~ é o mesmo que o anterior, apenas

com o valor 0,3874 substituído por 0,3880. A nova média (valor de ) é então 0,4037. Isto

é tão perto do valor anterior que é claramente desnecessário continuar fazendo iterações.

Conclui-se que uma estimativa robusta de é 0,4037, diga-se 0,404. Esse exemplo é típico

em que as iterações convergiram rapidamente para os valores de .

Page 164: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

164

ANEXOS

Page 165: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

165

ANEXO A: VALORES CRÍTICOS DE t de Student

Graus de

Liberdade

Nível de Significância

90

0,10

95

0,05

97,5

0,025

99

0,01

99,5

0,005

1 3.078 6.314 12.706 31.851 63.657

2 1.886 2.920 4.303 6.965 9.925

3 1.638 2.353 3.182 4.541 5.841

4 1.553 2.132 2.776 3.747 4.604

5 1.476 2.015 2.571 3.365 4.032

6 1.440 1.943 2.447 3.143 3.707

7 1.415 1.895 2.365 2.998 3.499

8 1.397 1.860 2.306 2.896 3.355

9 1.383 1.833 2.262 2.821 3.250

10 1.372 1.812 2.228 2.764 3.169

11 1.363 1.796 2.201 2.718 3.106

12 1.356 1.782 2.179 2.681 3.055

13 1.350 1.771 2.160 2.650 3.012

14 1.345 1.761 2.145 2.624 2.977

15 1.341 1.753 2.131 2.602 2.947

16 1.337 1.746 2.120 2.583 2.921

17 1.333 1.740 2.110 2.567 2.898

18 1.330 1.734 2.101 2.552 2.878

19 1.328 1.729 2.093 2.539 2.861

20 1.325 1.725 2.086 2.528 2.845

25 1.316 1.708 2.060 2.485 2.787

30 1.310 1.697 2.042 2.457 2.750

40 1.303 1.684 2.021 2.423 2.704

60 1.296 1.671 2.000 2.390 2.660

100 1.282 1.645 1.960 2.326 2.576

Page 166: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

166

ANEXO B: VALORES CRÍTICOS DE F (P = 0,05)

Teste Monocaudal

υ1 1 2 3 4 5 6 7 8 9 10 12 15 20

υ2

1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0

2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45

3 10,13 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786 8,745 8,703 8,660

4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,912 5,858 5,803

5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,678 4,619 4,558

6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,000 3,938 3,874

7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,575 3,511 3,445

8 5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,284 3,218 3,150

9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,073 3,006 2,936

10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,913 2,845 2,774

11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,788 2,719 2,646

12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,687 2,617 2,544

13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,604 2,533 2,459

14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,534 2,463 2,388

15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,475 2,403 2,328

16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,425 2,352 2,276

17 4,451 3,592 3,197 2,965 2,810 2,699 3,614 2,548 2,494 2,450 2,381 2,308 2,230

18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,342 2,269 2,191

19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378 2,308 2,234 2,155

20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,278 2,203 2,124

Teste Bicaudal

υ1 1 2 3 4 5 6 7 8 9 10 12 15 20

υ2

1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6 976,7 984,9 993,1

2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45

3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17

4 12,22 10,65 9,979 9,605 9,364 9,197 9,074 8,980 8,905 8,844 8,751 8,657 8,560

5 10,01 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,525 6,428 6,329

6 8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,366 5,269 5,168

7 8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 4,666 4,568 4,467

8 7,571 6,059 5416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 4,200 4,101 3,999

9 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 3,868 3,769 3,667

10 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,621 3,522 3,419

11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,430 3,330 3,226

12 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,277 3,177 3,073

13 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 3,153 3,053 2,948

14 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 3,050 2,949 2,844

15 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 3,060 2,963 2,862 2,756

16 6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 2,986 2,889 2,788 2,681

17 6,042 4,619 4,011 3,665 3,438 3,277 3,156 3,061 2,985 2,922 2,825 2,723 2,616

18 5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 2,866 2,769 2,667 2,559

19 5,922 4,508 3,903 3,559 3,333 3,172 3,051 2,956 2,880 2,817 2,720 2,617 2,509

20 5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,676 2,573 2,464

Page 167: ÍNDICE INTRODUÇÃO 4 CAPÍTULO 1 6 CAPÍTULO 2 16

MÉTODOS ESTATÍSTICOS PARA QUÍMICA ANALÍTICA

167