1
A Lei dos Erros Rui Santos [email protected], Escola Superior de Tecnologia e Gest˜ ao do Instituto Polit´ ecnico de Leiria, CEAUL — Centro de Estat´ ıstica e Aplica¸ oes da Universidade de Lisboa Trabalho financiado por Fundos Nacionais atrav´ es da Funda¸ ao para a Ciˆ encia e a Tecnologia, no ˆ ambito do projeto PEst-OE/MAT/UI0006/2011. Laplace e Gauss introduzem no in´ ıcio do s´ eculo XIX duas importantes ferramentas na Estat´ ıstica, a utiliza¸ ao da distribui¸ c˜ao normal para caracterizar os erros (e n˜ao apenas como uma aproxima¸ ao da binomial) e a utiliza¸ ao da distribui¸ ao normal como uma distribui¸ ao aproximada da m´ edia em amostras de grande dimens˜ ao (Teorema Limite Central de ˆ ambito geral). Os erros de observa¸ ao Quando se pretende medir o valor de uma grandeza h´ a, regra geral, erros associados a essa medi¸c˜ ao que podem ser sistem´ aticos (atuam sempre no mesmo sentido e, habitualmente, est˜ao associados ao m´ etodo de medi¸c˜ ao utilizado) ou fortuitos (que tˆ em origem em causas aleat´ orias e, como tal, atuam em ambos os sentidos de forma n˜ ao previs´ ıvel). Seja y a quantidade que pretendemos medir (desconhecida) que ´ e uma fun¸c˜ ao de outras quan- tidades (conhecidas) x j (j =1,...,m), na qual h´ a k inc´ ognitas (parˆ ametros) β i (i =1,...,k ). Contudo, n˜ ao observamos o valor exato de y , mas cada uma da n observa¸ oes y i , i =1,...,n desta medida tem um erro fortuito associado que representaremos por ε i = y i - y . Deste modo, considerando que n˜ ao h´ a erros de ordem sistem´ atica, podemos modelar as observa¸ oes atrav´ es de y i = f (x i1 ,x i2 ,...,x im 1 2 , ··· k )+ ε i , i =1,...,n, onde y i representa a iesima observa¸ ao de y que lhe tem associado o erro (fortuito) ε i . Pretende-se analisar qual ´ e a quantidade, definida em fun¸c˜ ao das observa¸ oes, que deve ser utilizada de forma a melhor estimar a quantidade y . A forma mais usual da fun¸c˜ ao f ´ e considerar um modelo linear, y i = β 0 + β 1 x i1 + β 2 x i2 + ··· + β m x im + ε i , i =1,...,n. Este tipo de problema surgia frequentemente no s´ eculo XVII em astronomia. Nestas aplica¸ oes pretendia-se determinar os va- lores dos parˆ ametros (coeficientes) com base num conjunto de observa¸ oes. Deste modo, se tivermos o mesmo numero de ob- serva¸ oes que coeficientes podemos determinar os valores desses coeficientes (teremos o mesmo n´ umero de equa¸ oes e coeficientes e, como tal, supondo independˆ encia entre as diferentes equa¸ oes, teremos um sistema poss´ ıvel e determinado). Todavia, se o n´ umero de observa¸ oes for superior ao n´ umero de coeficientes (mais equa¸ oes que inc´ ognitas) o sistema ser´ a imposs´ ıvel (inconsistente) devido aos erros que as observa¸ oes contˆ em. Muitas vezes escolhia-se apenas algumas observa¸ oes (em igual n´ umero que os coeficientes) e determinava-se os coeficientes resolvendo esse sistema. A distribui¸ ao dos erros fortuitos Thomas Simpson (1710-1761) foi o primeiro, em 1755, a aplicar a teoria da probabilidade na an´ alise dos erros (fortuitos) de observa¸ ao, considerando que os erros deste tipo s˜ao igualmente prov´aveis de serem positivos e negativos, limitados e cont´ ınuos, tendo utilizado uma distribui¸ ao triangular para os caracterizar (conclu´ ıdo a forma da distribui¸ ao da m´ edia de erros com esta distribui¸ ao). Deduziu igualmente que a m´ edia de um conjunto de observa¸ oes de determinada quantidade muito provavelmente ter´ a um erro associado menor do que o erro de cada observa¸ ao individual, uma vez que os erros compensam-se, contrariando uma ideia usual na ´ epoca de que a m´ edia, por resultar da soma de muitas observa¸ oes (e consequentemente de muitos erros) teria necessariamente associado um erro maior do que cada observa¸ ao. Pierre Laplace (1749-1827) utilizou diversas distribui¸ oes para caracterizar os erros, tais como a uniforme, a quadr´ atica, a cosseno, a semi-circular ou a exponencial dupla (atualmente de- nominada por distribui¸ ao de Laplace), na procura de obter a distribui¸ ao da m´ edia dos erros. Para aobten¸c˜ ao de uma estimativa y de y ,fun¸c˜ ao das observa¸ oes y i (i =1, ··· ,n), eram utilizados o m´ etodo da m´ edias (utilizar a m´ edia ponderada como estimador — y = ω i y i com ω i = 1, sem haver qualquer justifica¸ ao para tal procedimento), o m´ etodo dos m´ ınimos desvios absolutos (minimiza¸ ao de ω i |ε i |) e o m´ etodo de minimizar o maior desvio absoluto (min β 1 ,...,β m max i |ε i |), que corresponde a uma solu¸ ao do tipo minimax (minimizar o pior cen´ ario poss´ ıvel). O m´ etodo dos m´ ınimos quadrados Gauss O m´ etodo dos m´ ınimos quadrados foi pu- blicado independentemente por Adrien-Marie Legendre (1752-1833), em 1805, e por Carl Friedrich Gauss (1777-1855), em 1809, na obra que inclui a sua c´ elebre previs˜ao da localiza¸ ao do planeta an˜ ao (atualmente asteroide) Ceres. A pri- mazia deste resultado foi disputada por estes dois matem´aticos, pois apesar de Legendre o publicar primeiro, Gauss ter´a apresentado o resultado antes (em 1795), sendo atualmente este resultado atribu´ ıdo usualmente a Gauss. Legendre O m´ etodo dos m´ ınimos quadrados tornou-se um sucesso imediato, n˜ ao s´ o pela sua simplici- dade, quer conceptual quer computacional (bem mais acess´ ıvel que minimizar a soma dos desvios absolutos), bem como pela sua generalidade e rela¸ ao com outros m´ etodos que j´ a seriam aplicados. A distribui¸ ao normal e o Teorema Limite Central Gauss, em 1809, justifica a utiliza¸ ao do m´ etodo dos m´ ınimos quadrados em termos proba- bil´ ısticos, demonstrando que a estimativa obtida por este m´ etodo corresponde ao valor com maior probabilidade a posteriori (moda) se os erros forem caracterizados pela distribui¸ ao normal (Lei de Gauss). Contudo, Gauss ao conseguiu justificar a utiliza¸ ao da distribui¸ ao normal para os erros, referindo que ´ ea´ unica distribui¸ ao para o erro que faz com que a m´ edia aritm´ etica se torne no valor mais prov´avel quando temos observa¸ oes de uma ´ unica quantidade desconhecida. Laplace desenvolveu metodologias, utilizando fun¸c˜ oes geradoras (transformadas de Laplace) e an´ alise assint´otica de integrais, para deduzir as probabilidades aproximadas para m´ edias de muitas observa¸ oes e, deste modo, concluindo que independentemente da distribui¸ ao que caracteriza os erros, as probabilidades para a sua m´ edia podem ser determinadas uti- lizando a Lei de Gauss, resultado que corresponde ` a primeira vers˜ ao geral do Teorema Limite Central (resultado que s´o foi rigorosamente demonstra- do em 1901 por Aleksandr Lyapounov (1857-1918)). P ´ olya Adenomina¸c˜ ao Teorema Limite Central s´ o surgiu em 1920 atrav´ es de George P ´ olya (1887-1985), por considerar que este teorema assume um papel central entre os resultados sobre convergˆ encia, sendo por isso fundamental na Teoria da Probabilidade e na Estat´ ıstica. Todavia, esta denomina¸c˜ ao ´ e, por vezes, interpretada de forma err´ onea, ao ser conside- rado que o nome deriva de o resultado apresentar a convergˆ encia do centro (m´ edia) dos dados. Este resultado tamb´ em permitiu que Laplace justificasse a utiliza¸ ao da Lei de Gauss para caracterizar os erros, pois cada erro pode ser visto como a m´ edia de muitas influˆ encias indepen- dentes e, como tal, ser caracterizado por esta Lei, raz˜ ao pela qual esta distribui¸ ao foi, durante muito tempo, denominada por lei dos erros ou lei dos desvios. Por outro lado, uma vez que as estimativas habituais correspondiam a m´ edias ponderadas das observa¸ oes, Laplace conclui que o estimador ser´ a igualmente caracterizado aproximadamente pela lei de Gauss se houver um grande n´ umero de observa¸ oes (independentemente das distribui¸ oes que caracterizam os erros individuais). Por fim, demonstra igualmente que estas estimativas tˆ em o menor erro esperado comparativamente com quaisquer estimativas que correspondam a m´ edias ponderada das observa¸ oes (entre as estimativas lineares). 5/13

A Lei dos Erros - dfnae.fis.uerj.brdfnae.fis.uerj.br/twiki/pub/DFNAE/FisicaGeralClemencia/05_LeiErros.pdf · dentes e, como tal, ser caracterizado por esta Lei, raza˜o pela qual

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: A Lei dos Erros - dfnae.fis.uerj.brdfnae.fis.uerj.br/twiki/pub/DFNAE/FisicaGeralClemencia/05_LeiErros.pdf · dentes e, como tal, ser caracterizado por esta Lei, raza˜o pela qual

A Lei dos ErrosRui Santos [email protected], Escola Superior de Tecnologia e Gestao do Instituto Politecnico de Leiria, CEAUL — Centro de Estatıstica e Aplicacoes da Universidade de Lisboa

Trabalho financiado por Fundos Nacionais atraves da Fundacao para a Ciencia e a Tecnologia, no ambito do projeto PEst-OE/MAT/UI0006/2011.

Laplace e Gauss introduzem no inıcio do seculo XIX duas importantes ferramentas na Estatıstica, a utilizacao da distribuicao normal para caracterizar os erros

(e nao apenas como uma aproximacao da binomial) e a utilizacao da distribuicao normal como uma distribuicao aproximada da media em amostras de grande dimensao

(Teorema Limite Central de ambito geral).

Os erros de observacao

Quando se pretende medir o valor de uma grandeza ha, regra geral, erros associados a essa

medicao que podem ser sistematicos (atuam sempre no mesmo sentido e, habitualmente, estao

associados ao metodo de medicao utilizado) ou fortuitos (que tem origem em causas aleatorias e,

como tal, atuam em ambos os sentidos de forma nao previsıvel).

Seja y a quantidade que pretendemos medir (desconhecida) que e uma funcao de outras quan-

tidades (conhecidas) xj (j = 1, . . . ,m), na qual ha k incognitas (parametros) βi (i = 1, . . . , k).

Contudo, nao observamos o valor exato de y, mas cada uma da n observacoes yi, i = 1, . . . , n

desta medida tem um erro fortuito associado que representaremos por εi = yi− y. Deste modo,

considerando que nao ha erros de ordem sistematica, podemos modelar as observacoes atraves de

yi= f (xi1, xi2, . . . , xim, β1, β2, · · · , βk) + εi, i = 1, . . . , n,

onde yirepresenta a i-esima observacao de y que lhe tem associado o erro (fortuito) εi. Pretende-se

analisar qual e a quantidade, definida em funcao das observacoes, que deve ser utilizada de forma a

melhor estimar a quantidade y. A forma mais usual da funcao f e considerar um modelo linear,

yi= β0 + β1xi1 + β2xi2 + · · · + βmxim + εi, i = 1, . . . , n.

Este tipo de problema surgia frequentemente no seculo XVII

em astronomia. Nestas aplicacoes pretendia-se determinar os va-

lores dos parametros (coeficientes) com base num conjunto de

observacoes. Deste modo, se tivermos o mesmo numero de ob-

servacoes que coeficientes podemos determinar os valores desses

coeficientes (teremos o mesmo numero de equacoes e coeficientes

e, como tal, supondo independencia entre as diferentes equacoes,

teremos um sistema possıvel e determinado).

Todavia, se o numero de observacoes for superior ao numero de coeficientes (mais equacoes que

incognitas) o sistema sera impossıvel (inconsistente) devido aos erros que as observacoes contem.

Muitas vezes escolhia-se apenas algumas observacoes (em igual numero que os coeficientes) e

determinava-se os coeficientes resolvendo esse sistema.

A distribuicao dos erros fortuitos

Thomas Simpson (1710−1761) foi o primeiro, em 1755, a aplicar a teoria da probabilidade

na analise dos erros (fortuitos) de observacao, considerando que os erros deste tipo sao igualmente

provaveis de serem positivos e negativos, limitados e contınuos, tendo utilizado uma distribuicao

triangular para os caracterizar (concluıdo a forma da distribuicao da media de erros com esta

distribuicao). Deduziu igualmente que a media de um conjunto de observacoes de determinada

quantidade muito provavelmente tera um erro associado menor do que o erro de cada observacao

individual, uma vez que os erros compensam-se, contrariando uma ideia usual na epoca de que

a media, por resultar da soma de muitas observacoes (e consequentemente de muitos erros) teria

necessariamente associado um erro maior do que cada observacao.

Pierre Laplace (1749−1827) utilizou diversas distribuicoes para caracterizar os erros, tais

como a uniforme, a quadratica, a cosseno, a semi-circular ou a exponencial dupla (atualmente de-

nominada por distribuicao de Laplace), na procura de obter a distribuicao da media dos erros. Para

a obtencao de uma estimativa y de y, funcao das observacoes yi(i = 1, · · · , n), eram utilizados

o metodo da medias (utilizar a media ponderada como estimador — y =∑

ωiyi com∑

ωi = 1,

sem haver qualquer justificacao para tal procedimento), o metodo dos mınimos desvios absolutos

(minimizacao de∑

ωi|εi|) e o metodo de minimizar o maior desvio absoluto (minβ1,...,βm maxi |εi|),

que corresponde a uma solucao do tipo minimax (minimizar o pior cenario possıvel).

O metodo dos mınimos quadrados

Gauss

O metodo dos mınimos quadrados foi pu-

blicado independentemente por Adrien-Marie

Legendre (1752−1833), em 1805, e por Carl

Friedrich Gauss (1777−1855), em 1809, na obra

que inclui a sua celebre previsao da localizacao do

planeta anao (atualmente asteroide) Ceres. A pri-

mazia deste resultado foi disputada por estes dois

matematicos, pois apesar de Legendre o publicar

primeiro, Gauss tera apresentado o resultado antes

(em 1795), sendo atualmente este resultado atribuıdo

usualmente a Gauss.

Legendre

O metodo dos mınimos quadrados tornou-se um sucesso imediato, nao so pela sua simplici-

dade, quer conceptual quer computacional (bem mais acessıvel que minimizar a soma dos desvios

absolutos), bem como pela sua generalidade e relacao com outros metodos que ja seriam aplicados.

A distribuicao normal e o Teorema Limite Central

Gauss, em 1809, justifica a utilizacao do metodo dos mınimos quadrados em termos proba-

bilısticos, demonstrando que a estimativa obtida por este metodo corresponde ao valor com maior

probabilidade a posteriori (moda) se os erros forem caracterizados pela distribuicao normal (Lei

de Gauss). Contudo, Gauss nao conseguiu justificar a utilizacao da distribuicao normal para os

erros, referindo que e a unica distribuicao para o erro que faz com que a media aritmetica se torne

no valor mais provavel quando temos observacoes de uma unica quantidade desconhecida.

Laplace desenvolveu metodologias, utilizando funcoes geradoras

(transformadas de Laplace) e analise assintotica de integrais, para deduzir

as probabilidades aproximadas para medias de muitas observacoes e, deste

modo, concluindo que independentemente da distribuicao que caracteriza

os erros, as probabilidades para a sua media podem ser determinadas uti-

lizando a Lei de Gauss, resultado que corresponde a primeira versao geral

do Teorema Limite Central (resultado que so foi rigorosamente demonstra-

do em 1901 por Aleksandr Lyapounov (1857−1918)).

Polya

A denominacao Teorema Limite Central so surgiu em 1920 atraves de

George Polya (1887−1985), por considerar que este teorema assume

um papel central entre os resultados sobre convergencia, sendo por isso

fundamental na Teoria da Probabilidade e na Estatıstica. Todavia, esta

denominacao e, por vezes, interpretada de forma erronea, ao ser conside-

rado que o nome deriva de o resultado apresentar a convergencia do centro

(media) dos dados.

Este resultado tambem permitiu que Laplace justificasse a utilizacao da Lei de Gauss para

caracterizar os erros, pois cada erro pode ser visto como a media de muitas influencias indepen-

dentes e, como tal, ser caracterizado por esta Lei, razao pela qual esta distribuicao foi, durante

muito tempo, denominada por lei dos erros ou lei dos desvios.

Por outro lado, uma vez que as estimativas habituais correspondiam a medias ponderadas das

observacoes, Laplace conclui que o estimador sera igualmente caracterizado aproximadamente

pela lei de Gauss se houver um grande numero de observacoes (independentemente das distribuicoes

que caracterizam os erros individuais). Por fim, demonstra igualmente que estas estimativas tem

o menor erro esperado comparativamente com quaisquer estimativas que correspondam a medias

ponderada das observacoes (entre as estimativas lineares). 5/13