1
A Edificac ¸ ˜ ao dos Alicerces da Estat ´ ıstica Matem ´ atica Rui Santos [email protected], Escola Superior de Tecnologia e Gest˜ ao do Instituto Polit´ ecnico de Leiria, CEAUL — Centro de Estat´ ıstica e Aplica¸ oes da Universidade de Lisboa Trabalho financiado por Fundos Nacionais atrav´ es da Funda¸ ao para a Ciˆ encia e a Tecnologia, no ˆ ambito do projeto PEst-OE/MAT/UI0006/2011. Os alicerces da Estat´ ıstica Matem´ atica e suas aplica¸c˜ oes, bem como a introdu¸c˜ ao sistem´ atica de metodologias estat´ ısticas na investiga¸c˜ ao experimental, foram arquitetados, essencialmente, por K. Pearson e R. Fisher no final do s´ eculo XIX e in´ ıcio do s´ eculo XX. As bases da moderna Estat´ ıstica Matem´ atica As base s´olidas da Estat´ ıstica s´o come¸ caram a ser definitivamente constru´ ıdas no final do s´ eculo XIX com Karl Pearson (18571936), seguidor de Galton e influenciado pelos trabalho de Edgeworth, que procurou desenvolver m´ etodos matem´aticos que explicassem a here- ditariedade e a evolu¸ ao humana. Foi fundador da prestigiada revista Biometrika dedicada ` apublica¸c˜ ao de estudos estat´ ısticos na resolu¸ ao de problemas biol´ ogicos, onde publicou muitos dos seus trabalhos, nomeada- mente no desenvolvimento da an´ alise de regress˜ ao e do coeficiente de correla¸ ao, sendo considerado o criador da Estat´ ıstica Aplicada. K. Pearson K. Pearson salientou as limita¸ oes da distribui¸ ao normal na descri¸ ao dos fen´omenos aleat´ orios, incentivando a utiliza¸ ao de outras distribui¸ oes. Motivado pela mecˆanica, criou uma fam´ ılia de distribui¸ oes deduzida atrav´ es da resolu¸ ao de uma equa¸ ao diferencial, a partir da qual cada distribui¸ ao ´ e caracterizada pelos seus primeiros quatro momentos: valor esperado, variˆancia, assimetria e achatamento. Deste modo, K. Pearson considera que estes quatro momentos (parˆ ametros) descrevem as caracter´ ısticas essenciais de qualquer distribui¸ ao, podendo assim mo- delar qualquer fen´omeno, o que ´ e imposs´ ıvel se nos restringirmos ` a distribui¸ ao normal uma vez que esta tem os ´ ultimos dois parˆ ametros fixos (´ e sim´ etrica e tem achatamento constante). Por conseguinte, a an´ alise estat´ ıstica pode ser realizada sem depender da normalidade dos dados (como era pr´ atica ao logo do s´ eculo XIX). Para estimar estes parˆ ametros, com base na observa¸ ao do fen´omeno, desenvolveu o m´ etodo dos momentos. Com este m´ etodo podemos estimar os primeiros quatro momentos da distribui¸ ao utilizando os quatro momentos emp´ ıricos (amostrais) que, por sua vez, determinar˜ ao a distribui¸ ao que caracteriza os dados. Criou ainda o teste de ajustamento da qui-quadrado, realizado atrav´ es do valor-p (p-value ), para avaliar a adequa¸c˜ ao de uma distribui¸ ao a um conjunto de dados, isto ´ e, determinar se as observa¸ oes de uma amostra se harmonizam com uma determinada distribui¸ ao. Desta forma, este teste mede o afastamento entre as frequˆ encias ob- servadas e as as frequˆ encias esperadas (sob a distribui¸ c˜ao considerada e estimando, se desconhecidos, os parˆ ametros dessa distribui¸ ao), χ 2 Observado = n i=1 (Frequˆ encia observada i Frequˆ encia esperada i ) 2 Frequˆ encia esperada i . Deste modo, a sua investiga¸ ao introduziu diversas ideias inovadoras na Estat´ ıstica, quer na es- tima¸c˜ ao param´ etrica e n˜ ao param´ etrica quer em testes de hip´ oteses. Gosset Outra personalidade importante no nascimento da Estat´ ıstica Matem´ atica foi William Gosset (18761937), que, trabalhando com amostras pequenas no controlo de qualidade da cerveja Guiness, publi- cou em 1908 na Biometrika, sob o pseud´onimo de Student, um artigo onde apresenta a estat´ ıstica que est´a na origem da atualmente denomi- nada por t de Student (reduzida), depois de investigar o comportamento da m´ edia de gaussianas em amostras pequenas (pela necessidade de me- lhorar a qualidade da cerveja com base em pequenas amostras), sendo o objetivo do artigo a dedu¸c˜ ao da distribui¸ ao da vari´avel T definida por T = X μ S , onde X representa a m´ edia das vari´ aveis aleat´ orias X 1 , ··· ,X n que s˜ao independentes e carac- terizadas pela distribui¸ ao gaussiana com m´ edia μ e variˆ ancia σ 2 e S 2 = 1 n n i=1 ( X i X ) 2 (a forma atual da estat´ ıstica t de Student obt´ em-se aplicando T = T n 1, tendo sido deduzida por Fisher em 1925). Al´ em da dedu¸c˜ ao desta distribui¸ ao (apesar de a sua prova n˜ ao ser rigorosa), o grande contributo para a Estat´ ıstica deste artigo de Gosset ´ e a sua ideia de obter distribui¸ oes exatas para pequenas amostras atrav´ es da imposi¸c˜ ao de condi¸c˜ oes iniciais, tal como a distribui¸ ao ser conhecida (neste caso a gaussiana). Esta vis˜ ao ´ e bem distinta da usual na ´ epoca, na qual a ´ unica forma de efetuar uma an´ alise de um fen´omeno aleat´ orio era atrav´ es dos resultados assint´oticos, nomeadamente as Leis dos Grandes N´ umeros e o Teorema Limite Central. A revolu¸ ao de Fisher Ronald Fisher (18901962), com principal relevo a partir de 1920, revoluciona a Estat´ ıstica introduzindo diversos conceitos, tais como m´aximaverosimilhan¸ca,suficiˆ encia, ancilaridade, consistˆ encia, eficiˆ encia, quantidade de informa¸ ao, testes de significˆancia, distribui¸ oes amostrais, entre muitos outros exemplos, que se tornaram fundamentais na Es- tat´ ıstica. Fisher, em 1922, considera que existem trˆ es tipos distintos de problemas em Estat´ ıstica: Fisher 1. Problemas de especifica¸ ao — a escolha do modelo estat´ ıstico apropriado; 2.Problemas de estima¸c˜ ao — a escolha das estat´ ısticas para analisar os parˆ ametros desconhecidos; 3. Problemas de distribui¸ oes — a dedu¸c˜ ao das distribui¸ oes amostrais das estat´ ısticas adotadas. O seu livro Statistical Methods for Research Workers, publicado em 1925, ´ e um marco na hist´ oria da Estat´ ıstica e contribuiu decisivamente para uma nova mentalidade dos novos cientistas face ` a Estat´ ıstica e ` as suas aplica¸ oes. Enquanto K. Pearson trabalha num modelo mais geral, de- terminando a distribui¸ ao que caracteriza o fen´omeno, Fisher emprega essencialmente um modelo param´ etrico, supondo conhecido o tipo de dis- tribui¸ ao e determinando o(s) parˆ ametro(s) desconhecido(s). A rivalidade entre este dois fundadores da Estat´ ıstica Matem´ atica tornou-se c´ elebre. Fisher, apesar de encarar a Estat´ ıstica com o objetivo de aplica¸ ao, arquitetou os fundamentos para uma teoria unificada de inferˆ encia estat´ ıstica, apresentando os princ´ ıpios gerais de planeamento experimental, introduzindo os conceitos de aleatoriza¸ c˜ao e da an´ alise da variˆ ancia, deduzindo diver- sas distribui¸ oes amostrais (incluindo a dedu¸c˜ ao rigorosa da distribui¸ ao t de Student), desenvol- vendo o m´ etodo da m´axima verosimilhan¸ca para a estima¸c˜ ao de parˆ ametros para obter melhores estimadores que o m´ etodo dos momentos e o m´ etodo dos m´ ınimos quadrados (Laplace, Gauss e Edgeworth a tinham utilizado o mesmo m´ etodo mas com fundamenta¸ ao distinta, baseada na probabilidade inversa a que Fisher era adverso), formalizando o problema da an´ alise discriminante em termos estat´ ısticos e deduzindo a fun¸c˜ ao discriminante linear para classifica¸c˜ ao de um indiv´ ıduo, entre muitos outros contributos. ´ E, reconhecidamente, o Estat´ ıstico mais influente do s´ eculo XX. Neyman Jerzy Neyman (18941981) e Egon Pear- son (18851980) desenvolvem, a partir de 1928, uma nova metodologia para a realiza¸ ao de testes de hip´ oteses, que se destaca da proposta por Fisher por incluir uma hip´ otese alternativa, e, consequente- mente, recorrer a um tamanho do teste α (probabili- dade de erro do tipo I, isto ´ e, rejeitar indevidamente a hip´ otese nula) e potˆ encia do teste 1 β (onde β corresponde `a probabilidade de um erro do tipo II, isto ´ e, aceitar indevidamente a hip´ otese nula). E. Pearson De forma distinta, os testes de significˆancia de Fisher, baseados no valor-p, que mede a probabilidade de encontrarmos amostras da mesma dimens˜ ao mais desfavor´ aveis para a hip´ otese testada que a observada considerando (condicionada a) que a hip´ otese nula ´ e verdadeira (como tal, quanto menor for o seu valor maior ´ e a evidˆ encia que a amostra apresenta contra a hip´ otese nula), ao apresentam qualquer hip´ otese alternativa, pois pretendem unicamente validar um modelo. As diferen¸cas entre estas duas filosofias de testes geraram diversas discuss˜ oes entre os seus autores. A partir desta ´ epoca, sobretudo dos trabalhos de K. Pearson e Fisher, as bases para o desenvolvimento da Estat´ ıstica Matem´ atica estavam edificadas, tendo o desenvolvimento e diversi- fica¸ ao das suas aplica¸ oes adquirido uma enorme dinˆ amica. 7/13

A Edificac¸ao dos Alicerces da˜ Estat´ıstica Matematica´ceaul.org/wp-content/uploads/2019/09/Poster7_Fundamentos.pdf · 2019. 9. 23. · fam´ılia de distribuico˜es deduzida

  • Upload
    others

  • View
    40

  • Download
    0

Embed Size (px)

Citation preview

Page 1: A Edificac¸ao dos Alicerces da˜ Estat´ıstica Matematica´ceaul.org/wp-content/uploads/2019/09/Poster7_Fundamentos.pdf · 2019. 9. 23. · fam´ılia de distribuico˜es deduzida

A Edificacao dos Alicerces daEstatıstica Matematica

Rui Santos [email protected], Escola Superior de Tecnologia e Gestao do Instituto Politecnico de Leiria, CEAUL — Centro de Estatıstica e Aplicacoes da Universidade de Lisboa

Trabalho financiado por Fundos Nacionais atraves da Fundacao para a Ciencia e a Tecnologia, no ambito do projeto PEst-OE/MAT/UI0006/2011.

Os alicerces da Estatıstica Matematica e suas aplicacoes, bem como a introducao sistematica de metodologias estatısticas na investigacao experimental, foram

arquitetados, essencialmente, por K. Pearson e R. Fisher no final do seculo XIX e inıcio do seculo XX.

As bases da moderna Estatıstica Matematica

As base solidas da Estatıstica so comecaram a ser definitivamente

construıdas no final do seculo XIX com Karl Pearson (1857−1936),

seguidor de Galton e influenciado pelos trabalho de Edgeworth,

que procurou desenvolver metodos matematicos que explicassem a here-

ditariedade e a evolucao humana. Foi fundador da prestigiada revista

Biometrika dedicada a publicacao de estudos estatısticos na resolucao de

problemas biologicos, onde publicou muitos dos seus trabalhos, nomeada-

mente no desenvolvimento da analise de regressao e do coeficiente de

correlacao, sendo considerado o criador da Estatıstica Aplicada. K. Pearson

K. Pearson salientou as limitacoes da distribuicao normal na descricao dos fenomenos

aleatorios, incentivando a utilizacao de outras distribuicoes. Motivado pela mecanica, criou uma

famılia de distribuicoes deduzida atraves da resolucao de uma equacao diferencial, a partir da qual

cada distribuicao e caracterizada pelos seus primeiros quatro momentos: valor esperado, variancia,

assimetria e achatamento. Deste modo, K. Pearson considera que estes quatro momentos

(parametros) descrevem as caracterısticas essenciais de qualquer distribuicao, podendo assim mo-

delar qualquer fenomeno, o que e impossıvel se nos restringirmos a distribuicao normal uma vez

que esta tem os ultimos dois parametros fixos (e simetrica e tem achatamento constante). Por

conseguinte, a analise estatıstica pode ser realizada sem depender da normalidade dos dados (como

era pratica ao logo do seculo XIX). Para estimar estes parametros, com base na observacao do

fenomeno, desenvolveu o metodo dos momentos. Com este metodo podemos estimar os primeiros

quatro momentos da distribuicao utilizando os quatro momentos empıricos (amostrais) que, por sua

vez, determinarao a distribuicao que caracteriza os dados. Criou ainda o teste de ajustamento da

qui-quadrado, realizado atraves do valor-p (p-value), para avaliar a adequacao de uma distribuicao

a um conjunto de dados, isto e, determinar se as observacoes de uma amostra se harmonizam com

uma determinada distribuicao. Desta forma, este teste mede o afastamento entre as frequencias ob-

servadas e as as frequencias esperadas (sob a distribuicao considerada e estimando, se desconhecidos,

os parametros dessa distribuicao),

χ2Observado

=

n∑

i=1

(Frequencia observadai − Frequencia esperadai)2

Frequencia esperadai.

Deste modo, a sua investigacao introduziu diversas ideias inovadoras na Estatıstica, quer na es-

timacao parametrica e nao parametrica quer em testes de hipoteses.

Gosset

Outra personalidade importante no nascimento da Estatıstica

Matematica foi William Gosset (1876−1937), que, trabalhando com

amostras pequenas no controlo de qualidade da cerveja Guiness, publi-

cou em 1908 na Biometrika, sob o pseudonimo de Student, um artigo

onde apresenta a estatıstica que esta na origem da atualmente denomi-

nada por t de Student (reduzida), depois de investigar o comportamento

da media de gaussianas em amostras pequenas (pela necessidade de me-

lhorar a qualidade da cerveja com base em pequenas amostras), sendo o

objetivo do artigo a deducao da distribuicao da variavel T ′ definida por

T ′ =X − µ

S,

onde X representa a media das variaveis aleatorias X1, · · · , Xn que sao independentes e carac-

terizadas pela distribuicao gaussiana com media µ e variancia σ2 e S2 = 1n

∑ni=1

(

Xi −X)2

(a

forma atual da estatıstica t de Student obtem-se aplicando T = T ′√n− 1, tendo sido deduzida por

Fisher em 1925). Alem da deducao desta distribuicao (apesar de a sua prova nao ser rigorosa),

o grande contributo para a Estatıstica deste artigo de Gosset e a sua ideia de obter distribuicoes

exatas para pequenas amostras atraves da imposicao de condicoes iniciais, tal como a distribuicao ser

conhecida (neste caso a gaussiana). Esta visao e bem distinta da usual na epoca, na qual a unica

forma de efetuar uma analise de um fenomeno aleatorio era atraves dos resultados assintoticos,

nomeadamente as Leis dos Grandes Numeros e o Teorema Limite Central.

A revolucao de Fisher

Ronald Fisher (1890−1962), com principal relevo a partir de

1920, revoluciona a Estatıstica introduzindo diversos conceitos, tais como

maxima verosimilhanca, suficiencia, ancilaridade, consistencia, eficiencia,

quantidade de informacao, testes de significancia, distribuicoes amostrais,

entre muitos outros exemplos, que se tornaram fundamentais na Es-

tatıstica. Fisher, em 1922, considera que existem tres tipos distintos

de problemas em Estatıstica:Fisher

1. Problemas de especificacao — a escolha do modelo estatıstico apropriado;

2. Problemas de estimacao — a escolha das estatısticas para analisar os parametros desconhecidos;

3. Problemas de distribuicoes — a deducao das distribuicoes amostrais das estatısticas adotadas.

O seu livro Statistical Methods for Research Workers, publicado

em 1925, e um marco na historia da Estatıstica e contribuiu decisivamente

para uma nova mentalidade dos novos cientistas face a Estatıstica e as suas

aplicacoes. EnquantoK. Pearson trabalha num modelo mais geral, de-

terminando a distribuicao que caracteriza o fenomeno, Fisher emprega

essencialmente um modelo parametrico, supondo conhecido o tipo de dis-

tribuicao e determinando o(s) parametro(s) desconhecido(s). A rivalidade

entre este dois fundadores da Estatıstica Matematica tornou-se celebre.

Fisher, apesar de encarar a Estatıstica com o objetivo de aplicacao, arquitetou os fundamentos

para uma teoria unificada de inferencia estatıstica, apresentando os princıpios gerais de planeamento

experimental, introduzindo os conceitos de aleatorizacao e da analise da variancia, deduzindo diver-

sas distribuicoes amostrais (incluindo a deducao rigorosa da distribuicao t de Student), desenvol-

vendo o metodo da maxima verosimilhanca para a estimacao de parametros para obter melhores

estimadores que o metodo dos momentos e o metodo dos mınimos quadrados (Laplace, Gauss e

Edgeworth ja tinham utilizado o mesmo metodo mas com fundamentacao distinta, baseada na

probabilidade inversa a que Fisher era adverso), formalizando o problema da analise discriminante

em termos estatısticos e deduzindo a funcao discriminante linear para classificacao de um indivıduo,

entre muitos outros contributos. E, reconhecidamente, o Estatıstico mais influente do seculo XX.

Neyman

Jerzy Neyman (1894−1981) eEgon Pear-

son (1885−1980) desenvolvem, a partir de 1928,

uma nova metodologia para a realizacao de testes de

hipoteses, que se destaca da proposta por Fisher

por incluir uma hipotese alternativa, e, consequente-

mente, recorrer a um tamanho do teste α (probabili-

dade de erro do tipo I, isto e, rejeitar indevidamente

a hipotese nula) e potencia do teste 1 − β (onde β

corresponde a probabilidade de um erro do tipo II,

isto e, aceitar indevidamente a hipotese nula).

E. Pearson

De forma distinta, os testes de significancia de Fisher, baseados no valor-p, que mede a

probabilidade de encontrarmos amostras da mesma dimensao mais desfavoraveis para a hipotese

testada que a observada considerando (condicionada a) que a hipotese nula e verdadeira (como tal,

quanto menor for o seu valor maior e a evidencia que a amostra apresenta contra a hipotese nula),

nao apresentam qualquer hipotese alternativa, pois pretendem unicamente validar um modelo. As

diferencas entre estas duas filosofias de testes geraram diversas discussoes entre os seus autores.

A partir desta epoca, sobretudo dos trabalhos de K. Pearson e Fisher, as bases para o

desenvolvimento da Estatıstica Matematica estavam edificadas, tendo o desenvolvimento e diversi-

ficacao das suas aplicacoes adquirido uma enorme dinamica. 7/13