93
Material de Apoio para Autor: Professor Filipe Barros Departamento de Matemática Faculdade de Ciências e Tecnologia Universidade do Algarve 2008

Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

  • Upload
    trannga

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Material de Apoio

para

Autor: Professor Filipe Barros

Departamento de Matemática Faculdade de Ciências e Tecnologia

Universidade do Algarve

2008

Page 2: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 2

Conteúdo

Capítulo I. ......................................................................................................................... 5 Estatística Descritiva. ....................................................................................................... 5 Introdução......................................................................................................................... 5 Variáveis........................................................................................................................... 6 Tabulação dos dados......................................................................................................... 7 Representações Gráficas................................................................................................... 9

Polígonos de frequência. Histogramas. ........................................................................ 9 Medidas de Localização e Dispersão.............................................................................. 11

Média Aritmética........................................................................................................ 11 Média Geométrica ...................................................................................................... 11 Média Harmónica ....................................................................................................... 11 Mediana. ..................................................................................................................... 12 Moda........................................................................................................................... 12 Quartis, decis, percentis.............................................................................................. 12

Medidas de dispersão ..................................................................................................... 13 Variância e desvio padrão............................................................................................... 13 Coeficiente de variação .................................................................................................. 14 Momentos ....................................................................................................................... 14 Representações semi gráficas. ........................................................................................ 16

Gráficos de Caule-e-Folhas ou “Stem and Leaf” ....................................................... 16 Gráficos Caixa-de-Bigodes (Box-and-Whiskers)....................................................... 21

Medidas de Assimetria ................................................................................................... 24 Assimetria................................................................................................................... 24 Curtose........................................................................................................................ 25

Regressão e correlação ................................................................................................... 25 Diagrama de Dispersão............................................................................................... 26 Rectas de Regressão Mínimos Quadrados ................................................................. 27 Método dos mínimos quadrados................................................................................. 27

Qualidade do Ajustamento. Correlação.......................................................................... 29 Capítulo II....................................................................................................................... 32 Teoria das Probabilidades............................................................................................... 32 Introdução....................................................................................................................... 32 Espaço Amostra e Acontecimentos. .............................................................................. 33

Álgebra de Acontecimentos. ...................................................................................... 34 Leis de De Morgan ..................................................................................................... 34

Axiomas da Probabilidade ( Axiomática de Kolmogorov). Espaços de Probabilidade. 35 Princípio de simetria. Espaços Amostra com elementos equiprováveis. ................... 36

Técnicas de Contagem.................................................................................................... 37 Probabilidade Condicional ............................................................................................. 40

Probabilidades Totais ................................................................................................. 41 Fórmula de Bayes ....................................................................................................... 42 Acontecimentos independentes .................................................................................. 43

Variáveis Aleatórias e Distribuições de Probabilidade ................................................. 45 Funções de Distribuição ............................................................................................. 47

Vectores Aleatórios. Distribuições conjuntas................................................................. 51 Variáveis Bidimensionais Discretas. .............................................................................. 53

Distribuição Condicional............................................................................................ 54

Page 3: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 3

Variáveis Bidimensionais Contínuas.............................................................................. 56 Funções de uma variável aleatória.................................................................................. 57

Caso Discreto.............................................................................................................. 57 Caso Contínuo ............................................................................................................ 58

Funções de Vectores Aleatórios ..................................................................................... 60 Valor Esperado ou Esperança Matemática. ................................................................... 61

Propriedades ............................................................................................................... 61 Momentos ....................................................................................................................... 62

Variância..................................................................................................................... 63 Propriedades da variância....................................................................................... 64

Covariância. ................................................................................................................ 64 Propriedades da covariância ................................................................................... 64

Coeficiente de Correlação .......................................................................................... 64 Funções Geradoras de Momentos .................................................................................. 65 Desigualdades de Markov e de Chebyshev ................................................................... 66

Desigualdade de Markov ............................................................................................ 66 Desigualdade de Chebyshev....................................................................................... 66

Capítulo III ..................................................................................................................... 68 Distribuições Teóricas de Probabilidade ........................................................................ 68

Distribuições Discretas ............................................................................................... 68 Distribuição Uniforme............................................................................................ 68 Distribuição de Bernoulli ....................................................................................... 68 Distribuição Binomial ............................................................................................ 69 Distribuição Multinomial ....................................................................................... 70 Distribuição Hipergeométrica ................................................................................ 71 Distribuição Binomial Negativa ............................................................................. 72 Distribuição Geométrica......................................................................................... 73 Distribuição de Poisson .......................................................................................... 73

Distribuições Contínuas.............................................................................................. 75 Distribuição uniforme contínua .............................................................................. 75 Distribuição Normal ............................................................................................... 75 Teorema de Limite Central..................................................................................... 78 Distribuição Exponencial ....................................................................................... 78 Distribuição Gama.................................................................................................. 78 Distribuição χ2 (Qui – quadrado) ........................................................................... 79 Distribuição t. ......................................................................................................... 79 Distribuição F ......................................................................................................... 79

Capítulo IV ..................................................................................................................... 80 Inferência Estatística....................................................................................................... 80 Teoria da amostragem .................................................................................................... 80

Amostra aleatória........................................................................................................ 80 Amostras com e sem reposição .................................................................................. 81 Distribuições amostrais .............................................................................................. 81 Distribuição amostral das médias ............................................................................... 81 Distribuição amostral das proporções......................................................................... 83 Distribuição amostral das diferenças e das somas...................................................... 83

Teoria Estatística de Estimação...................................................................................... 84 Estimação de Parâmetros............................................................................................ 84 Estimadores não tendenciosos .................................................................................... 84 Estimadores eficientes ................................................................................................ 85

Page 4: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 4

Intervalos e regiões de Confiança................................................................................... 85 Estimativas do intervalo de confiança dos parâmetros populacionais ....................... 86 Intervalo de confiança para médias ............................................................................ 86

Teoria da decisão estatística ........................................................................................... 87 Teste de hipóteses e significância............................................................................... 87 Erros ........................................................................................................................... 87

Testes com a distribuição Normal .................................................................................. 88 Testes bilaterais. Região crítica. ................................................................................. 88 Teste unilateral ........................................................................................................... 89

Testes não paramétricos.................................................................................................. 91 Teste do Qui-quadrado .................................................................................................. 91

Frequências observadas e teóricas. ............................................................................. 91 Testes de significância.................................................................................................... 92

Page 5: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 5

Capítulo I.

Estatística Descritiva.

Introdução A palavra estatística deriva do termo latino “status” (estado)e parece ter sido

introduzida no século XVIII. A estatística conheceu várias fases ao longo do seu desenvolvimento.

Inicialmente a estatística baseava-se na análise dos registos de nascimentos e mortes, passando depois a ser puramente descritiva, confundindo-se praticamente com a demografia. A necessidade sentida em todas as épocas de conhecer numérica e quantitativamente, a realidade político – social tornou a análise demográfica uma preocupação constante.

A estatística para adquirir o estatuto de disciplina científica e não puramente ideográfica ou descritiva teve que esperar pelo desenvolvimento do cálculo das probabilidades, que lhe viria a fornecer a linguagem e o aparelho conceptual permitindo a formulação de conclusões com base em regras indutivas.

Pode datar-se dos fins do século XIX o desenvolvimento da estatística e suas aplicações, sendo lícito afirmar-se que a introdução sistemática dos métodos estatísticos na investigação experimental se fica a dever, fundamentalmente aos trabalhos de K. Pearson e R. A. Fisher.

Assim inicialmente ligada a demografia, economia e epidemiologia, a estatística aparece actualmente, como indispensável em áreas científicas tão diversificadas como a psicologia, a sociologia, a gestão, a linguística, a biologia, etc.

O termo estatística pode ser entendido em dois sentidos: 1. a estatística descritiva ou dedutiva, que diz respeito a técnicas

sistemáticas de organização, classificação, sumarização, redução e interpretação dos dados;

2. a estatística indutiva ou inferência estatística, que consiste no método científico de tirar conclusões para uma população ou universo, com base na análise de uma parte ou amostra deste conjunto.

Podemos dizer que a estatística é um conjunto de instrumentos adequados para: recolher; explorar e descrever; interpretar conjuntos de dados. Na prática, o estudo estatístico fica muitas vezes pela exploração e descrição.

Quando vai até ao fim, a última fase aparece associada com a realização de inferências indutivas ou com problemas de decisão.

Importa assinalar que a estatística é um método quantitativo, i. e., utiliza a linguagem dos números em oposição à linguagem das palavras.

A estatística é um ramo da matemática aplicada, e como tal, está dotada de rigor e opera num quadro de noções, princípios e premissas bem definidas.

Note-se que quando um procedimento é empregue, numa situação real e concreta, as

premissas e hipóteses podem ou não verificar-se;

Page 6: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 6

nos problemas de decisão estatística não se podem tirar conclusões exactas, com base em observações, quer por estas serem apenas uma parte de um conjunto ou universo em estudo, quer por estarem sujeitas a variações devidas ao acaso e não controláveis pelo investigador.

Toda a decisão estatística comporta um risco de erro, implicando a possibilidade de conclusões incorrectas ou enviesadas.

Variáveis De um modo geral, os conjuntos de dados estatísticos, com os quais se trabalha são obtidos registando os resultados de n observações ou de n repetições de uma dada experiência. Os registos feitos interpretam-se como valores observados ou medidos de variáveis. Distinguem-se variáveis numéricas (quantitativas) e variáveis qualitativas (não numéricas). Variável numérica é toda a variável (X, Y, Z,...) que numa dada questão pode tomar como valor qualquer número pertencente a um conjunto numérico. São variáveis numéricas a velocidade de um automóvel, a temperatura de um corpo, a frequência cardíaca de um indivíduo. Variável qualitativa, nominal ou categorial é uma variável cujos valores admissíveis são modalidades de certas qualidades. O estado civil, a profissão, grau de parentesco são exemplos de variáveis qualitativas. Uma variável X diz-se discreta se pode tomar um número finito ou uma infinidade numerável de valores. X diz-se variável contínua se pode tomar qualquer valor dentro de um intervalo de números reais.

Vamos tratar, fundamentalmente, métodos para explorar e descrever colecções de dados resultantes da observação de caracteres quantitativos, i. e. de variáveis numéricas.

Se a colecção observada tem N elementos, vem x1, x2, ..., xN,

onde xi é o i-ésimo elemento, i=1,2, ..., N. A colecção pode constituir um conjunto de pares

(x1,y1), (x2,y2),..., (xN,yN), assumir a forma de um quadro ou de matriz

xij, i=1, 2, ..., m, j=1, 2, ..., n, ou de K matrizes, xijk, i=1, 2, ..., m, j=1, 2, ..., n, k=1, 2,....K. A forma rectangular xij é a mais corrente. Cada linha do quadro representa um caso e cada coluna representa uma variável. Exemplo. O quadro seguinte representa um extracto de informação 1, no caso concreto – temperatura media do ar no ano de 1990 em Portugal.

Estações meteorológicas

Temperatura média (oC)

Estações meteorológicas

Temperatura média (oC)

Bragança 13,2 Portalegre 15,8 Viana 15,6 Santarém 16,7 Braga 15,3 Lisboa 17,5

1 Fonte: Bento J. F. Murteira.Análise Exploratória dos dados - Estatística Descritiva. McGraw-Hil 1993,pag. 15.

Page 7: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 7

Vila Real 14,1 Évora 16,2 Miranda 13,0 Setúbal 16,7 Porto 15,5 Beja 17,1 Viseu 14,4 P. da Rocha 17,6 Guarda 11,4 Faro 17,7 Coimbra 16,6 Ponta Delgada 17,4 C. Branco 16,0 Funchal 19,4

Tabulação dos dados Para explicitar uma certa “quantidade de informação” contida num conjunto de observações usam-se técnicas que implicam que os dados sejam organizados e sumarizados de acordo com determinadas regras. Numa primeira fase a sumarização faz-se através de agrupamento. As técnicas de agrupamento a usar dependem do tipo de variável em estudo.

No caso discreto para o agrupamento é conveniente usar tabelas de frequências simples, ou seja tabelas do tipo

Valores da variável

Frequências absolutas

Frequências relativas

Percentagens Frequências cumuladas

x1 n1 f1 100*f1 f1

x2 n2 f2 100*f2 f1 + f2 ... ... ... ... ... xk nk fk 100*fk f1 + f2 +...+ fk

Total n 1 100 A frequência absoluta (ni) de um valor i é o número de vezes que este valor se

verifica, enquanto que a frequência relativa (fi) é a proporção que este valor representa em relação ao total de observações e obtém-se dividindo o ni pelo total de observações n,

fi=ni/n.

Note-se que nn

i

i =∑ e 1=∑i

if .

As frequências relativas podem também vir expressas em percentagens, pelo que se pode criar mais uma coluna onde vêm expressas as percentagens correspondentes e outra com as frequências cumuladas ou acumuladas (absolutas ou relativas). Se as observações são em grande número (n>20) uma tabela de frequências simples corre o risco de, pela sua extensão, dar uma ideia difusa sobre a distribuição em estudo.

É então conveniente associar valores da variável dividindo o campo de variação desta num certo número de classes. Agrupam-se todas as observações pertencentes à mesma classe.

Exemplo. 30 alunos de uma escola obtiveram as seguintes classificações numa dada disciplina.

12 13 8 11 10 19 9 7 11 12 14 11 10 10 11 7 9 9 13 11 12 8 7 12 10 11 11 8 10 12

numa tabela de frequências teremos X ni

Page 8: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 8

7 3 8 3 9 3

10 5 11 8 12 5 13 2 14 1

Esta tabela torna-se mais curta e compacta agrupando as notas, por exemplo, duas a duas:

Classes ni

(7,8) 6 (9,10) 8

(11,12) 13 (13,14) 3

Para uma variável contínua o processo de agrupamento consiste na divisão de

um intervalo contendo todas as observações em vários subintervalos ou classes. Uma classe Cj fica determinada pelos seus limites. As classes Cj satisfazem as

seguintes condições Ci∩Cj= ∅,

ICj

j =U ,

onde I=[min(x1, x2, ..., xk), Max(x1, x2, ..., xk)] é o intervalo de variação das observações. A H = Max(x1, x2, ..., xk) - min(x1, x2, ..., xk) dá-se o nome de amplitue do intervalo de variação. Designando por lj e Lj os limites inferior e superior da classe Cj temos

Cj= [lj, Lj[ =[lj, Lj) ou

Cj= ]lj, Lj] =(lj, Lj], sendo Lj=lj+1. Em qualquer caso hj = Lj -lj dá-se o nome de amplitude da classe Cj.

Sempre que possível é conveniente considerar classes de igual amplitude, excepto eventualmente, para classes extremas, pouco frequentadas.

O número de observações de uma classe diz-se frequência da classe. Exemplo. Considera-se a seguinte tabela dando a distribuição de alturas de 180

indivíduos X ni

1,70 30 1,71 50 1,72 60 1,73 25 1,74 10 1,75 5

Embora esta última tabela se pareça com uma tabela de frequência simples ela é,

pela natureza contínua da variável uma tabela de dados agrupados em classes. Pois, com medições feitas com aproximação ao centímetro cada valor da tabela representa

Page 9: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 9

uma classe de amplitude igual a 1 cm. I. e. entenda-se a tabela acima como uma representação abreviada da tabela

X ni [1,695 –1,705[ 30 1,705 – 1,715 50 1,715 – 1,725 60 1,725 – 1,735 25 1,735 –1,745 10 1,745 – 1,755 5

Os limites indicados satisfazendo a condição Lj= lj+1 são os limites reais das classes.

É habitual as classes serem representadas por limites aparentes economizando-se, na escrita, uma casa decimal.

Assim agrupando os dados da tabela anterior em classes de amplitude h=0,03 teremos

Classes (limites reais)

Classes (limites aparentes)

X (pontos médios)

n

1,695 –1,725 1,70 – 1,72 1,71 140 1,725 – 1,755 1,73 – 1,75 1,74 40

A amplitude de uma classes é calculada a partir dos limites reais. A tabulação de uma variável contínua, considerando as classes representadas

pelos valores centrais, corresponde a um processo de discretização da variável. O erro de tabulação introduzido pelo agrupamento pode tornar-se tão pequeno

quanto se queira, escolhendo intervalos de classe de amplitude tendendo para zero e, reduzindo assim a perda de informação.

Não existem regras gerais que permitem definir o agrupamento mais conveniente. Em cada caso concreto tudo depende essencialmente das conclusões que se pretende tirar e do bom senso do investigador.

Como regra prática em muitas situações o número de classes conveniente oscila entre 5 e 15.

Alguns autores propõem para o cálculo do número k de classes a regra de Sturges

1log 2 += nk = 3.32*log10n +1.

Representações Gráficas Polígonos de frequência. Histogramas. Um modo conveniente de pôr em evidência a informação contida numa tabela de frequências é traduzi-la graficamente. No caso discreto a representação gráfica obtém-se fazendo corresponder a cada valor xi a sua frequência (absoluta ni ou relativa fi). Unindo os pontos (xi,fi) obtém-se o polígono de frequências das observações. (f2) n2 (f3) n3 (f1) n1 (fk) nk

Page 10: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 10

x1 x2 x3 ... xk Quando se comparam conjuntos de grandeza diferentes é conveniente usar frequências relativas. No caso contínuo cada classe Cj de amplitude hj é representada por um rectângulo de base hj e altura nj/hj ou fj/hj. Um gráfico construído desta maneira denomina-se histograma. (f3/h3) n3/h3 (f1/h1) n1/h1 (fk/hk) nk/hk l1 l2 l3 ... lk lk+1

Note-se que a área de cada rectângulo j é j

j

jh

nh ou

j

j

jh

fh e é sempre

proporcional à frequência. Se as classes forem de amplitude constante as alturas dos rectângulos resultam proporcionais às frequências das classes, pelo que neste caso tomam-se as alturas iguais às frequências.

Unindo os pontos médios das bases superiores dos rectângulos obtém-se o polígono de frequências da tabela discretizada, correspondente à representação de classes através dos respectivos valores centrais.

Usando as frequências cumuladas obtém-se os polígonos de frequências ou

histogramas cumulados. Quando o n→ ∞ e max(hj)→0 o perfil superior do histograma tende para uma

curva contínua que se chama curva de frequência.

Page 11: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 11

Medidas de Localização e Dispersão Média Aritmética

A média aritmética dos números x1, x2, ..., xn é

)...(1

21 nxxxn

x +++=

= ∑=

n

i

ixn 1

1.

Se forem conhecidas as frequências (absolutas ou relativas) das observações xi, então a média aritmética dá lugar da média ponderada

∑=

=n

i

ii xnn

x1

1

=∑=

n

i

iixf1

,

onde ∑=

=n

i

i nn1

e ∑=

=n

i

if1

1.

Média Geométrica A média geométrica dos números positivos x1, x2, ..., xn é dada por

mg= nnxxxG ...21= .

Se forem conhecidas as frequências absolutas de xi, (i=1, 2, ..., n ), então para k<n valores distintos a média geométrica é calculada como

mg= n n

k

nn kxxxG ...2121= ,

sendo nnn

k

k =∑=1

.

Média Harmónica A média harmónica dos números x1, x2, ..., xn é dada por

mh=

∑=

=n

i ixn

H

1

111

=

∑=

n

i ix

n

1

1,

ou

mh=

∑=

=n

i i

i

x

f

nH

1

.

A média harmónica é apropriada quando se lida com preços. De todas estas médias a mais usada em estatística é média aritmética.

Page 12: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 12

Mediana. Mediana ( x~ ou Md) de um conjunto de números dispostos por ordem de

grandeza crescente é O valor central se o número de observações for impar ; A semi-soma dos valores centrais se o número de observações for par.

Exemplo. Dados os conjuntos de dados numéricos a) 2, 3, 4, 5, 6, 8, 9 b) 4,5, 8, 12

as medianas são respectivamente 5 e 6.5=(5+8)/2. Relativamente à média, uma das vantagens da mediana é a sua simplicidade de cálculo. A mediana é também mais estável em relação a valores anormalmente alto e anormalmente baixos.

Exemplo. Os dois conjuntos 2, 3, 4, 5, 8 e 2, 3, 4, 5, 24 têm a mesma mediana mas têm médias diferentes. No caso contínuo para dados agrupados em classes dá-se o nome de classe mediana à classe que contém a mediana. A determinação da classe mediana faz-se facilmente através da frequência cumulada. Moda Moda (Mo) de um conjunto de observações é o valor mais frequente i. e. o valor que ocorreu um maior número de vezes. A moda pode não existir e quando exista pode não ser única. Exemplo. Sejam as colecções de dados a) 2,2,5,7,9,9,9,10,10,11,12,16 b) 3,5,8,10,12,14,17 c) 2,3,4,4,4,5,5,7,7,7,9

A colecção a) é unimodal com Mo=9. A b) não tem moda e a c) é bimodal sendo 4 e 7 as modas. No caso de dados agrupados, à classe de maior frequência dá-se o nome de classe modal. Quartis, decis, percentis Para um conjunto de valores ordenado por ordem de grandeza crescente, o valor

central (ou a média dos valores centrais) que divide o conjunto em duas partes com o mesmo número de observações. De modo análogo os valores Q1, Q2 e Q3 que dividem o conjunto de dados em quatro partes iguais, são respectivamente 1º, 2º e 3º quartis. O 2º quartil coincide com a mediana. Os valores que dividem a colecção dos dados em 10 partes chamam-se decis (D1, D2, ...,D9) e os dividem em cem partes chamam-se percentis ou centis (P1, P2, ...,

P99). Note-se que Q2 ≡ D5 ≡ P50 ≡ x~ , P25 ≡ Q1 e P75 ≡ Q3. De um modo geral quartis, decis, centis e outros valores que dividem um conjunto de dados em partes iguais chamam-se quantis, fractis, medidas de ordem ou

valores separadores.

Cálculo de Quartis (dados não classificados):

Medidas de localização

n ímpar n par

Page 13: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 13

mediana Ordem ( x~ ) =

2

1+n

Ordem ( x~ ) = 2

1+n

quartis Ordem de Qp=p(n+1) Ordem de Qp=

2

1+np

Medidas de dispersão Uma média ou qualquer outro parâmetro de tendência central, não é suficiente para dar uma ideia completa do padrão de variabilidade de uma distribuição. Distribuições distintas podem ter a mesma media. Exemplo. Os dois conjuntos

1. 60, 68, 70, 72, 74; 2. 44, 60, 72, 80, 94;

têm a mesma média, mas são sensivelmente diferentes. Uma medida que ajude a esclarecer a forma de uma distribuição dando uma ideia da maneira como as observações se distribuem em torno do parâmetro de tendência central diz-se medida de dispersão (ou de concentração). Tal medida, quantificando o grau de dispersão, deve tomar um valor pequeno quando as observações têm tendência a se concentrarem no centro da distribuição e um valor grande, quando o contrário. As medidas de dispersão vulgarmente utilizadas são:

Amplitude do intervalo de variação: H=M-m; Amplitude interquartil: Q3 –Q1;

Semiamplitude interquartil: 2

13 QQ −;

Amplitude percentil: P90 –P10. Estas medidas acima referidas são pouco sensíveis às alterações no interior do intervalo. Como medidas de dispersão mais sensíveis e mais importantes, em estatística, merecem destaque

Variância e desvio padrão. Seja X uma variável em observação que toma os valores xi, i=1,2,...,n . A expressão

d= ∑=

−n

i

i xxn 1

1

define-se como desvio médio absoluto. Substituindo os módulos pelos respectivos quadrados teremos

∑=

−=n

i

i xxn

s1

22 )(1

que a variância da variável X. Se forem conhecidas as frequências de xi, então a variância é achada como

∑=

−=n

i

ii xxnn

s1

22 )(1

ou

∑=

−=n

i

ii xxfs1

22 )( ,

Page 14: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 14

sendo ni e fi respectivamente as frequências absolutas e relativas de xi. Na prática os dados têm dimensões físicas e s2 não vem expresso nas mesmas

unidades que os xi ou a média x . Para repor a homogeneidade dimensional extrai-se a raiz quadrada à variância obtendo-se assim o chamado desvio padrão. Portanto o desvio padrão das observações x1, x2,..., xn é

( )∑=

−==n

i

i xxn

ss1

22 1.

O cálculo das estatísticas x e s2 é válido quando se trata de variáveis numéricas. Para variáveis referidas a escalas ordinais o parâmetro de tendência central que melhor representa a distribuição dos dados é a mediana. Para variáveis nominais a moda é o único parâmetro de tendência central que se pode definir.

Coeficiente de variação O desvio padrão, o desvio médio, a dispersão quartal são exemplos de medidas que se exprimem na mesma unidade da variável a que se referem. Estas medidas dizem-se medidas de dispersão absoluta. Para além de medidas de dispersão é conveniente ter medidas independentes da unidade da variável, por exemplo, para efeitos de comparação da dispersão de dois conjuntos de dados. Estas medidas são chamadas medidas de dispersão relativa. A medida dispersão relativa mais usada é o coeficiente de dispersão,

V=x

s,

que muitas vezes aparece multiplicado por 100 (em percentagem) com a designação de coeficiente de variação,

C.V.= %100*x

s.

Os coeficientes de dispersão e de variação somente se empregam quando a variável toma valores de um só sinal (xi<0 ou xi>0). Exemplo. Comparem-se os resultados seguintes relativos a dois grupos de indivíduos

Grupo 1 Grupo2 Peso médio 70 kg 85 kg

Desvio padrão 4.8 kg 5.2 kg Como s2>s1 podia-se concluir que o segundo grupo é mais disperso. No entanto, o cálculo dos coeficientes de variação dá respectivamente

CV1=100*70

8.4 = 6.86 e CV2=100*

85

2.5 = 6.11

verificando-se que o grupo 2 tem menor variabilidade relativa. O coeficiente de variação permite também comparar os resultados obtidos por duas pessoas diferentes trabalhando com a mesma variável.

Momentos Outras estatísticas importantes para estudo das distribuições são os momentos. Define-se como momento (empírico) de ordem k das observações x1, x2,..., xn em relação à origem, à expressão

Page 15: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 15

mk’= ∑=

n

i

k

ixn 1

1.

Por momento de ordem k em relação à média entende-se a expressão

mk= ( )∑=

−n

i

k

i xxn 1

1.

A média é portanto, o primeiro momento em relação à origem ( x =m1’), enquanto que a variância é o momento de segunda ordem em relação à média (s2=m2). Os momentos são medidas pouco resistentes – quanto maior for a potência k mais peso têm os “outliers”. Por esse facto o seu emprego deve fazer-se apenas nos casos em que é improvável a presença de observações extravagantes.

Quando se substitui os xi por |xi| e xi- x por |xi- x |, obtêm-se os momentos

absolutos em relação à origem e em relação à média. O desvio médio é primeiro momento absoluto em relação à média.

Page 16: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 16

Representações semi gráficas. Gráficos de Caule-e-Folhas ou “Stem and Leaf” O principal objectivo da estatística descritiva é a redução de dados. Todo o investigador que tenha procedido à recolha de observações em grande número defronta-se com a necessidade de sintetizar ou condensar os resultados obtidos. Daí a importância de que se revestem os métodos que visam exprimir a informação através de um número menor de valores ou através de gráficos simples. Um destes gráficos é o conhecido gráfico de caule-e-folhas.

Um conjunto de observações contém uma “quantidade de informação” que é necessário explicitar. Esta explicitação implica que os dados sejam organizados e sumarizados de acordo com determinadas regras.

Quando os dados são numerosos (N>30) torna-se incómodo considerar individualmente todas as observações. Quando os dados não são numerosos (N≤30) a análise e descrição dos dados é feita com métodos semi-gráficos.

Um destes métodos é o chamado gráfico de Caule-e-Folhas ou “Stem and Leaf”. Este gráfico permite que o observador se torne mais sensível ao aspecto global

dos dados e é uma técnica flexível e eficiente para iniciar o estudo de uma colecção ou amostra.

O gráfico de Caule-e-Folhas é constituído por um tronco (formado por dígitos dominantes) e vários ramos. Em cada um dos ramos existem folhas que representam os dígitos dominados.

Cada observação é uma folha de determinado caule. A unidade é determinada pelo primeiro dígito dominado (no caso presente só há um).

A qualquer das observações pode associar-se uma ordem contando a sua posição a partir do menor ou do maior valor. A profundidade de uma observação é a menor das ordens.

Utilizando o quadro do exemplo acima com as temperaturas médias do ar em Portugal teremos como dígitos dominantes a parte inteira das temperaturas e como dígitos dominados a parte decimal.

Assim, por exemplo, para a observação 11,4 teremos o caule 11 com a folha 4. 17,7 terá o caule 17 e folha 7, ...

No global teremos o gráfico de Caule-e-Folhas

Profundidade N=20 Unidade=0,1o 1 11 4 (Guarda) 12

3 13 02 5 14 14 9 15 3568

(5) 16 02677 6 17 14567 18

1 19 4 (Funchal) A figura acima permite identificar a “fria” Guarda e o “quente” Funchal como

situações extremas e agrupar os restantes locais em dois grupos relativamente uniformes: Bragança, Miranda, Vila Real e Viseu (médias de 13-15) e os restantes catorze (médias de 15-18).

Page 17: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 17

Na figura indica-se a profundidade máxima das observações em cada caule. A profundidade abaixo da mediana lê-se de cima para baixo e a profundidade das observações acima da mediana lê-se de baixo para cima.

A excepção encontra-se na linha central em que se encontra a observação mediana. Em vez da profundidade se reproduz o número de observações no respectivo caule.

Esta representação permite uma rápida conferência do número de observações, 9+(5)+6 =20.

A escolha do número de linhas L de um gráfico de caule-e-folhas, além de se basear na experiência e nos objectivos do investigador, depende de dois factores: a dimensão (N) e a amplitude da colecção.

Existem várias propostas nesse sentido. Podemos distinguir as seguintes L=[10log10N]; (Dixon e Kronmall)

L=[2 N ]; (Velleman) L=[1+log2N]; (Sturges) Para cada uma das três fórmulas indicadas, os valores de L correspondentes a

alguns valores de N vêm indicados na tabela seguinte N [10log10N] [ ]N2 [1+log2N]

10 10 6 4 20 13 8 5 30 14 10 5 40 16 12 6 50 20 14 6

100 21 20 7 200 23 28 8 300 24 34 9

Usando o valor de N proposto por qualquer das fórmulas como indicação de

linhas deve-se definir depois o intervalo correspondente a cada linha. Para tal calcula-se a amplitude da colecção dos dados

R= max(xi) –min(xi). O intervalo, então será

R/L. De notar que quando uma pequena fracção da colecção assume valores

invulgares (grandes ou pequenos) não é prudente que tanto o intervalo como a escala de representação do gráfico estejam dependentes do maior e do menor valor da colecção. Para evitar este problema põe-se de parte os valores invulgares e baseia-se a escolha do intervalo e da escala nos dados restantes. Os valores anormalmente grandes ou pequenos são incluídos no gráfico, em linhas rotuladas de "pe" ou "gr" , convenientemente separados por vírgulas.

Exemplo. Sejam os dados do quadro abaixo que representam as taxas aparentes

das 51 acções mais transaccionadas em 1990 na Bolsa de Valores de Lisboa.2

2 Fonte: Bento J. F. Murteira. Análise Exploratória de Dados – Estatística Descritiva.McGraw-Hill,1993, pág. 20.

Page 18: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 18

Taxas de juro aparentes 3(%). Lisboa,1990. 15,26 15,81 15,90 15,35 15,32 15,59 15,44 14,79 16,64 15,23 15,56 15,53 15,46 16,59 14,94 15,54 15,48 15,67 15,94 15,67 15,37 16,93 15,90 15,37 15,56 15,40 15,98 15,50 15,46 15,62 16,64 15,62 15,62 15,51 15,51 15,36 16,08 15,60 14,82 15,08 15,65 15,50 15,39 17,08 15,56 15,84 14,07 19,04 12,24 15,59 15,16

Uma primeira versão do gráfico de caule-e-folhas para os dados acima

apresentados é Taxas de juro. Gráfico de caule-e-folhas (1ª versão).

Profundidade N=51 Unidade=0.1% 1 12 2 13

5 14 0789

(39) 15 012233333344444555555555556666667889999 7 16 056 2 17 0 18

1 19 0 Em resultado de inclusão de valores invulgares como 12,2 e 19,0 as regras

empíricas conduziram a um intervalo de 1% e uma acumulação massiva de folhas no caule 15.

Reduzindo o intervalo para 0.5

3 Taxa aparente=(juro líquido)/(última cotação efectuada).

Page 19: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 19

Taxas de juro. Gráfico de caule-e-folhas (2ª versão).

Profundidade N=51 Unidade=0.1% 1 12* 2 12. 13* 13.

2 14* 0 5 14. 789

20 15* 012233333344444

(24) 15. 555555555556666667889999 7 16* 0 6 16. 5669 2 17* 0 17. 18* 18.

1 19* 0 pode melhorar-se a situação mas não em muito. Continua a ser pouco satisfatória a representação. A solução seguinte parece melhor.

Taxas de juro. Gráfico de caule-e-folhas (3ª versão). Profundidade N=51 Unidade=0.1%

3 Pe (12.24, 14.07, 14.79)

4 148 2

5 150 8

6 151 6 9 152 36

15 153 256779 20 154 04668

(11) 155 00113466699 20 156 0222577

157 13 158 14 11 159 0048 7 160 8

6 Gr (16.59, 16.64, 16.64, 16.93, 17.08, 19.04) Baseia-se na retirada de três observações "pequenas" e de seis observações

"grandes" e passa a ter-se uma unidade 0.01%.

Page 20: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 20

No quadro que se segue encontram-se as altitudes das quarentas e três principais serras de Portugal 4

Serra Alt(m) Serra Alt(m) Serra Alt(m) Peneda 1416 Montezinho 1438 Estrela 1991 Soajo 1415 Nogueira 1318 Alvelos 1084 Gerês 1507 Bornes 1200 Gardunha 1227 Barroso 1208 Mogadouro 993 Leomil 1008 Larouco 1525 Montemuro 1382 Lapa 953 Cabreira 1261 Arada 1116 Marofa 973 Alvão 1283 Caramulo 1071 Malcata 1075 Marão 1415 Buçaco 549 Grândola 325 Padrela 1146 Lousã 1204 Cercal 372 Coroa 1273 Açor 1340 Espinh de Cão 297 Monchique 902 Caldeirão 577 Mendro 412 Ossa 653 S. Mamede 1025 Adiça 522 Sicó 553 Aire 679 Candeeiros 613 Montejunto 664 Sintra 528 Arrábida 501 Monte Figo 411

Como gráficos de caule-e-folhas temos as seguintes versões. 1ª versão:

Profundidade N=43 Unidade=100 metros 3 0 233

11 0 44555555 15 0 6666 19 0 9999 (7) 1 0000011 17 1 22222333

7 1 444455

1 1 1 9 (Estrela)

2ª versão:

Profundidade N=43 Unidade=100 metros

3 0* t 233 11 f 44555555 15 s 6666 19 0. 9999 (7) 1* 0000011 17 t 22222333

7 f 444455

s 1 1. 9 (Estrela)

4 Fonte: Bento J. F. Murteira. Análise Exploratória de Dados – Estatística Descritiva.McGraw-Hill,1993, pág. 23.

Page 21: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 21

Nesta variante. o caule correspondente a cada valor tem cinco linhas. Na linha "*" estão representados as folhas cujos dígitos dominados são 0 ou 1, na linha t (two, three) –as observações cujos dígitos dominados são 2 ou 3, na linha f (four, five) as observ. cujos dígitos dominados são 4 ou 5, na linha s (six, seven) as observ. cujos dígitos dominados são 6 ou 7 e finalmente na linha "." as observações cujos dígitos dominados são 8 ou 9.

Através destes últimos gráficos pode vre-se que as altitudes (com excepção da serra da Estrela) estão repartidas entre 200 e 1500 metros, parecendo que o fenómeno tenha duas concentrações: uma em torno dos 400/500 metros e outra em torno dos 1200/1300 metros.

Em resumo, com a construção dos gráficos de caule-e-folhas procura dar-se uma visão global de conjunto da colecção de dados através do destaque ou identificação de propriedades tais como:

a) separação em subgrupos ou heterogeneidade; b) simetrias ou assimetrias; c) presença de outliers, i. e. valores anormalmente altos ou baixos; d) existência de valores em torno dos quais se concentram os restantes; e) maior ou menor dispersão dos valores.

Gráficos Caixa-de-Bigodes (Box-and-Whiskers). A disposição dos valores de uma colecção de dados por ordem crescente mostra bem a capacidade descritiva dos extremos. Utilizando os valores extremos, os quartos e a mediana podemos construir um esquema extremos-quartos-mediana , (min xi) (mediana) (max xi)

Q1 Q3 cuja imagem se assemelha a uma caixa com bigodes conhecida por caixa-de-bigodes ou "Box-and-whiskers". Vejamos o Exemplo. Consideremos o quadro seguinte que representa as taxas de arborização no distrito de Coimbra5

Concelhos T. arbor. Arganil 44.8

Catanhede 53.5 Coimbra 32.8

Condeixa-a-Nova 34.3 Figueira da Foz 46.8

Góis 49.2 Lousã 53.8 Mira 66.5

5 Fontes: -Bento J. F. Murteira. Análise Exploratória dos dados- Estatística Descritiva, 1993. McGraw Hil, pag. 89. - Estatísticas Agrícolas, INE, 1979.

Page 22: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 22

Miranda do Corvo 56.8 Montemor-o Velho 32.7 Oliv. do Hospital 54.2

Pampilhosa 49.4 Penacova 62.4

Penela 38.8 Poiares 54.7 Soure 40.7 Tábua 51.0

Dispondo por ordem crescente teremos o seguinte quadro para os mesmos dados

1 Montemor-o Velho 32.7

2 Coimbra 32.8

3 Condeixa-a-Nova 34.3

4 Penela 38.8

5 Soure 40.7

6 Arganil 44.8

7 Figueira da Foz 46.8

8 Góis 49.2

9 Pampilhosa 49.4

10 Tábua 51.0

11 Catanhede 53.5

12 Lousã 53.8

13 Oliv. do Hospital 54.2

14 Poiares 54.7

15 Miranda do Corvo 56.8

16 Penacova 62.4

17 Mira 66.5

Ao todo são 17 observações, portanto min(xi)=32.7, max(xi)=66.5 , x~=49.4 , Q1=40.7 e Q3=54.2. Note-se que para encontrar a profundidade dos quartos fazemos profundidade(quarto)= ([profundidade(Md)] + 1) /2 onde [a] representa a parte inteira de a. A caixa-de-bigodes correspondente será 32.7 49.4 66.5

32.8 49.2 51.0 62.4

34.3 46.8 53.5 56.8

38.8 44.8 53.8 54.7

40.7 54.2

Para apreciar melhor a capacidade descritiva dos dados construi-se um esquema extremos-quartos-mediana de 5 números

Page 23: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 23

# 17 Taxa de Arborização (%)

M 9 49.4

F 5 40.7 54.2

1 32.7 66.5

Na primeira coluna escreve-se # - para simbolizar a dimensão da amostra ou colecção, M – para designar a mediana e F – para designar os quartos. Na segunda coluna, a dimensão da colecção e as profundidades da mediana, dos quartos e dos extremos. Na coluna central, o nome da variável e os valores da mediana, dos quartos e dos extremos. A imagem gráfica do esquema conduz ao diagrama conhecido como caixa-de-bigodes ou "box-and-whiskers". 32 42 52 62 72

Page 24: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 24

Medidas de Assimetria De um modo geral, pode afirmar-se que a quase totalidade da informação

pertinente contida num conjunto de dados está resumida nas estatísticas x e s. No entanto, em certas situações, é conveniente completar esta informação com

outras medidas caracterizando aspectos específicos de padrão de variabilidade das observações. Assimetria Assimetria é o grau de desvio ou afastamento da simetria de uma distribuição. Se a curva de frequência de uma distribuição tem uma “cauda” mais longa à direita da ordenada máxima do que à esquerda diz-se que ela é assimétrica para a

direita, ou tem assimetria positiva ou ainda é enviesada à esquerda. Neste caso média > mediana > moda.

x Md Mo

Se é o inverso que ocorre diz-se que ela é assimétrica para esquerda ou tem assimetria negativa ou é enviesada à direita.

Neste caso média < mediana < moda.

Mo Md x

Quando o valor médio, a mediana e moda coincidem diz-se que a distribuição é simétrica. Para distribuições assimétricas a média e a moda tende a estar do mesmo lado que a cauda mais longa. Por isso uma medida de assimetria é proporcionada pela diferença entre a média e a moda.

Assim temos

Assimetria = )(

mod

padrãodesvio

amédia − =

s

ax mod−.

Para evitar o emprego da moda pode adoptar-se a fórmula empírica média – moda = 3(média – mediana)

e então

Assimetria = s

medianax )(3 −.

As duas medidas utilizadas são denominadas respectivamente primeiro e

segundo coeficientes de Pearson.

Outras medidas de assimetria em quartis e percentis são

Page 25: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 25

Coeficiente quartílico de assimetria = 13

123

13

1223 2)()(

QQ

QQQ

QQ

QQQQ

+−=

−−−.

Coeficiente de assimetria entre os percentis 10 –90 = 1090

10505090 )()(

PP

PPPP

−−− =

1090

105090 2

PP

PPP

+−.

Uma medida importante da assimetria utiliza o chamado parâmetro de forma que é o terceiro momento em relação à média e é definida por

c1= ∑=

=−n

i

is

msxx

n 13333 /)(

1.

Quando c1>0 a distribuição é assimétrica positiva, c1<0 – assimétrica negativa e c1=0 simétrica. Curtose Curtose é o grau de achatamento de uma distribuição, considerado usualmente em relação à distribuição normal.

A distribuição que tem um pico relativamente alto é denominada leptocúrtica, a que tiver um achatamento no topo é denominada platicúrtica e a que tiver um achatamento entre as duas é denominada mesocúrtica

Regressão e correlação Quando se consideram, com o mesmo objectivo, colecções de pares de variáveis,

(xi,yi) i=1,2,...,n surge um problema novo: o estudo das relações porventura existentes entre os fenómenos observados. Se a relação é de natureza quantitativa, regressão e correlação são os instrumentos estatísticos apropriados para a pesquisar e a caracterizar.

Page 26: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 26

Ao se dizer duas variáveis estão relacionadas pode querer significar-se que a conexão é bem definida e invariável ou pode ter-se em mente uma relação mais indefinida e mais vaga.

Por exemplo, o perímetro de uma circunferência e o raio do círculo correspondente estão relacionados pela expressão matemática P=2πr.

Ao se referir a relação entre o preço do vinho e o montante da colheita em cada ano, ou entre as idades dos cônjuges na data do casamento, ou entre o peso e a altura de um homem adulto, tem-se em mente um tipo de relações mais imprecisas e mais vagas.

Conhecendo o raio da circunferência pode-se univocamente encontrar o perímetro do círculo e vice-versa. No caso preço-colheita pode muito bem suceder que a colheitas iguais correspondem preços diferentes e a preços iguais correspondem colheitas diferentes, em média, quanto maior é a colheita - menor é o preço, analogamente em média, quanto mais idoso for o marido mais idosa é a mulher, quanto mais alto for o indivíduo mais alto ele é.

As relações do tipo que se verificam entre o preço e a colheita, entre as idades do cônjuges ou entre o peso e a altura são relações estatísticas.

Duas variáveis ligadas por uma relação estatística diz-se que estão

correlacionadas ou em correlação. Isto quer dizer que os fenómenos correspondentes não estão indissoluvelmente

ligados, mas que a intensidade de um é acompanhada tendencialmente pela intensidade do outro no mesmo sentido ou em sentido inverso.

Assim a altura varia, em média, directamente com o peso por isso existe uma correlação positiva entre a altura e o peso. De igual modo entre o preço e a colheita existe uma correlação negativa.

Quando se levantam questões de análise das relações estatísticas entre duas ou mais variáveis diz-se que se tem uma regressão e correlação.

Temos uma regressão simples quando a relação é só entre duas variáveis e regressão múltipla se for entre mais do que duas variáveis.

Diagrama de Dispersão Para qualquer estudo de regressão simples é necessário possuir uma colecção de observações de duas variáveis

(x1,y1), (x2,y2),..., (xn,yn)

emparelhadas. Através da análise gráfica pode ter-se uma grosseira da regressão e da correlação. Representando graficamente os pontos (xi,yi) i=1,2,...,n num sistema de eixos cartesianos (coordenadas rectangulares) obtém-se o chamado diagrama de dispersão. (Ver gráficos em anexo). Ao analisar os diagramas de dispersão facilmente se conclui se a correlação é positiva ou negativa. A distinção grosseira entre os diversos graus de correlação atende ao modo como se situam os pontos em redor de uma recta imaginária que passa através do enxame de pontos como se ilustra na fig. 6.2 em anexo. A correlação é tanto maior quanto mais os pontos se concentram, com pequenos desvios, em relação à essa recta.

Page 27: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 27

Rectas de Regressão Mínimos Quadrados A posição dos pontos (xi,yi), i=1,2, ..., n no plano XOY sugere em muitos casos, regressão linear. I. e. a tendência da relação entre as duas variáveis é aproximadamente representada por uma linha recta. Noutros casos a posição dos pontos sugere uma regressão curvilínea ou não linear. Quando o diagrama de dispersão sugere a existência de uma linha recta em torno da qual se concentram os pontos (xi,yi), i=1,2,...,n, considera-se a equação geral da recta

bxay +=ˆ . O valor

ii bxay +=ˆ , i=1,2,...,n

será o valor previsto de y quando x=xi . Este valor nem sempre coincide com o valor real (ou observado)

iii ebxay ++= , i=1,2,...,n

onde

iii yye ˆ−= , i=1,2,...,n

são os erros ou resíduos do ajustamento. Em termos gerais Resíduos = dados observados –ajustamento (previsão)

yi ei bxay +=ˆ

iy

xi Para obter a recta que tem a equação bxay +=ˆ é necessário obter as estimativas dos parâmetros a e b. Conhecem-se vários métodos para calcular essas estimativas. A recta deve, em princípio, ser localizada de forma a que os resíduos sejam globalmente tão pequenos quanto possível. Método dos mínimos quadrados Segundo o método dos mínimos quadrados (MLS) , o método clássico mais empregado, as estimativas dos parâmetros determinam-se minimizando a soma dos quadrados dos erros ou resíduos ei. I. e.

∑=

n

i

ie1

2 = ∑=

−n

i

ii yy1

2)ˆ( =mínimo.

Substituindo na soma iy pela expressão ii bxay +=ˆ , vem

Page 28: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 28

∑=

+−n

i

ii bxay1

2)( = Q(a,b).

Para a obtenção do mínimo exigimos que

0=∂

a

Q e .0=

b

Q

Da derivação sai o sistema

=−−−

=−−−

=

=n

i

iii

n

i

ii

xbxay

bxay

1

1

0))((2

0)1)((2, (*)

ou

=+

=+

∑ ∑∑

∑ ∑

= ==

= =n

i

n

i

ii

n

i

ii

n

i

n

i

ii

yxbxax

ybxna

1 11

2

1

)()(

)( , (**)

de equações normais. Note-se que a primeira equação em (*) pode escrever-se como

∑ ∑= =

==−n

i

n

i

iii eyy1 1

0)ˆ( ou ∑ ∑= =

=n

i

n

i

ii yy1 1

ˆ ,

o que mostra que os resíduos têm a média igual a zero ou que a média das observações yi é igual à média das observações da recta ajustada iy .

Dividindo por n a primeira equação do sistema (**) vem

yxba =+ ; (1)

o que significa que a recta ajustada passa pelo ponto ),( yx cujas as coordenadas são os centros de gravidade das duas variáveis da colecção (xi,yi), i=1,2,...,n.

Tem então lugar a expressão )(ˆ xxbyy ii −=− .

Por outro lado somando e subtraindo y na Segunda equação do sistema (*) temos

[ ] 0)(1

=−−−∑=

i

n

i

ii xxxbyy ,

donde se obtém

=

=

−−

=n

i

i

n

i

ii

xx

xxyy

b

1

2

1

)(

))(( , (2)

visto que

∑ ∑= =

−−=−n

i

n

i

iiii xxyyxyy1 1

))(()( e ∑∑==

−=−n

i

i

n

i

ii xxxxx1

2

1

)()( .

A recta fica determinada por um ponto ),( yx e pelo declive b, dados através das expressões (1) e (2), pois

xbya −= .

Page 29: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 29

O declive b aparece na literatura matemática escrito sob diversas formas equivalentes a (2). Uma delas é

2

1

2

1

1

1

xxn

yxyxn

bn

i

i

n

i

ii

=

=

= .

ou =b2x

xy

S

S, sendo xyS a covariância entre X e Y e 2

xS a variância de X.

Exemplo. Para traçar a recta de regressão da relação colheita e o preço do vinho conforme os quadros em anexo, foram feitos os seguintes cálculos:

Colheita média x = 145315/20 =7265.75103 hl;

Preço médio y =49.69/20 = 2.4845 esc/litro; Estimativa do parâmetro b,

b=-18294,5/61858039 = - 0.000296 esc/litro*10-4; Estimativa do parâmetro a,

xbya −= =2.4845 –(-0.000296)(7265.75) =4.6352 esc/litro. A recta ajustada terá a equação

xy 000296.06352.4ˆ −= . É de notar em situações reais de grande volume de dados estes cálculos são efectuados utilizando pacotes informáticos de análise de dados. O EXCEL pode ser neste aspecto bastante prestativo.

Qualidade do Ajustamento. Correlação A aplicação de qualquer instrumento preditivo é sempre acompanhada pela

preocupação de avaliar o respectivo grau de precisão. Representando as estimativas ou predições por kny +

ˆ , k=1,2,...,m e por kny + ,os

valores efectivamente observados, a precisão pode medir-se , por exemplo, pela média do quadrado dos erros,

m

yym

k

knkn∑=

++ −1

2)ˆ(.

As dificuldades com este critério são: 1. os valores exactos de yn+k podem nunca vir a ser conhecidos e as estimativas

kny +ˆ podem até destinar-se a substituí-los;

2. os valores exactos só são conhecidos mais tarde e há toda a vantagem em ter uma medida dos erros de predição no próprio momento em que esta se faz;

3. m, pode ser muito pequeno e não convém basear a avaliação num número restrito de predições que podem, por acaso, ser particularmente felizes ou infelizes.

Estas razões levam a adoptar a variância dos erros ou resíduos

n

yy

s

n

i

ii

e

∑=

= 1

2

2

)ˆ(,

Page 30: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 30

como medida de precisão do ajustamento, partindo do princípio de que, no seu conjunto, os erros a cometer não diferem significativamente dos erros cometidos. A variância dos erros (resíduos) é tanto mais elevada quanto mais afastados estiverem os pontos (xi,yi), i=1,2,...,n da recta de regressão.

Considere-se a seguinte decomposição

2

1 1

2 )ˆˆ()( yyyyyy iii

n

i

n

i

i −+−=−∑ ∑= =

=∑ ∑= =

−+−n

i

n

i

iii yyyy1 1

22 )ˆ()ˆ( .6 (3)

Dividindo (3) por n tem-se a relação

22ˆ

2eyy sss += , (4)

que pode enunciar-se variância de y= “variância” explicada + variância residual

o que corresponde a

dados =ajustamento + resíduos

A fórmula (4) significa que uma parte da variabilidade de y é “explicada” por y - pelo ajustamento , e a outra parte fica “inexplicada” – é residual- e considera-se resultante de factores não incluídos na regressão e que actuam sobre y e não sobre x. Quanto menor for a variância residual em comparação com a variância do y melhor é a qualidade do ajustamento. Assim tem-se três situações possíveis:

1. o ajustamento é perfeito i. e. 0ˆ =−= iii yye - existe uma relação linear

exacta entre y e x. Neste caso

02

2

=y

e

s

s;

2. não existe qualquer relação estatística entre y e x, i. e. o ajustamento não serve para nada . Neste caso

12

2

=y

e

s

s;

3. existe uma relação estatística entre x e y. O conhecimento de x ajuda a predizer y. Neste caso

102

2

<<y

e

s

s.

Em resumo 02

2

=y

e

s

s ⇒ correlação máxima ≡ relação linear exacta;

102

2

<<y

e

s

s ⇒ correlação intermédia ≡ relação estatística linea; 1

2

2

=y

e

s

s⇒ correlação

mínima ≡ inexistência de qualquer relação linear;

6 Substituindo )(ˆ xxbyy ii −+= obtém-se 0)ˆ)(ˆ(1

=−−∑=

n

i

iii yyyy .

Page 31: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 31

Atendendo ao que acaba de expor-se justifica-se o emprego da relação 2

2

y

e

s

s ,

como medida da correlação existente entre as variáveis. Porém, como é costume convencionar-se o valor 1 corresponde à correlação máxima e ao valor 0 a correlação mínima define-se o coeficiente de correlação –r- pela expressão,

2

22 1

y

e

s

sr −= . (5)

O sinal de r é positivo ou negativo conforme as variáveis no mesmo sentido ou em sentido contrário. O coeficiente de correlação é um número que elevado ao quadrado fornece uma medida relativa da precisão da equação de regressão linear para predizer y. A partir das relações (4) e (5) podemos concluir que

2

2ˆ2

y

y

s

sr = ⇒

y

y

s

sr

ˆ= .

É usual utilizar para o cálculo do r a expressão 22

22

yx

xy

ss

sr = ou

2

2

=

yx

xy

ss

sr que fornece

uma forma alternativa de interpretar o valor de r. Os valores de r situam-se no intervalo [-1,1],

0 ≤ r2 ≤ 1 ⇒ -1 ≤ r ≤ 1 ou 0 ≤ |r| ≤ 1 podendo esquematizar-se da seguinte maneira.

r=-1 r=0 r=1 Correlação mínima Independência ou ausência

de correlação Correlação máxima.

Page 32: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 32

Capítulo II

Teoria das Probabilidades

Introdução No estudo de estatísticas lidamos basicamente com a representação e interpretação de "possibilidades de ocorrência" que aparecem no estudo planeado ou investigação científica. Por exemplo podemos registar o número de acidentes que ocorrem mensalmente num cruzamento para ver se se justifica a colocação de um semáforo; podemos classificar os artigos que saem de uma linha de fabrico em série como "defeituoso" ou "não defeituoso" para controlar a produção; ou podemos estar interessados a conhecer o volume de gás tóxico libertado numa reacção química quando a concentração do ácido é variado.

Aqui o estaticista lida com dados experimentais ou talvez dados categoriais que podem ser classificados de acordo com algum critério.

Os estaticistas utilizam a palavra experiência para descrever qualquer processo que gera um conjunto de dados. Quando não é possível prever com certeza o resultado da experiência antes da sua realização, ela diz-se experiência aleatória.

Um exemplo simples de experiência aleatória é o arremesso de uma moeda ao ar. Antes do lançamento realizado é impossível dizer com certeza se sai cara ou coroa.

O conceito da probabilidade de uma experiência é assunto para vários significados ou interpretações. se um geólogo disser "há 60 porcento de chance de existência de petróleo numa certa região" provavelmente teremos uma ideia intuitiva daquilo que foi dito.

A maioria das pessoas interpretam esta frase numa das duas maneiras possíveis: 1. O geólogo sente que, numa grande lista de regiões, em 60% delas com as

mesmas condições que a região considerada, existirá petróleo; ou

2. O geólogo acredita que é mais provável que a região tenha petróleo do que não e 0,6 é a medida da crença do geólogo na hipótese de haver petróleo naquela região.

As duas interpretações da probabilidade referidas são conhecidas como interpretação frequencista e subjectiva (ou pessoal) da probabilidade.

Na interpretação frequencista, a probabilidade de um desfecho (resultado) de uma experiência é considerada como sendo "a propriedade" daquele desfecho. Imagina-se que esta propriedade pode ser operacionalmente determinada através de uma repetição contínua da experiência – a probabilidade do desfecho será então a proporção das experiências que resultam nesse desfecho.

Esta é a interpretação da probabilidade mais usual entre os cientistas. Segundo a interpretação subjectiva, a probabilidade de um desfecho não é

tomada como uma propriedade do desfecho, mas sim como expressão da crença da pessoa que calcula a probabilidade respeitante à chance de ocorrência do desfecho. Por isso nesse sentido a probabilidade torna-se um conceito subjectivo ou pessoal e não tem qualquer outro significado para além de exprimir o grau da crença de cada um.

Esta interpretação da probabilidade é mais usual entre os filósofos e certos decisores económicos.

Page 33: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 33

Mas seja qual for a interpretação que se der à probabilidade, existe algo de comum entre elas – a sua matemática.

Se, por exemplo se pensar que a probabilidade de vir a chover amanhã for de 0,5 e que a probabilidade de vir a fazer nevoeiro é 0,2, então necessariamente a probabilidade de vir a chover ou fazer nevoeiro amanhã é 0,7 e a probabilidade de não vir a chover nem fazer nevoeiro é 0,3, independentemente da interpretação que se der à probabilidade.

Espaço Amostra e Acontecimentos. Considere uma experiência, cujo desfecho não é previsível com antecedência. Embora o desfecho da experiência não será conhecido em avanço, contudo pode ser conhecido o conjunto de todos os desfechos possíveis. Este conjunto é chamado espaço amostra da experiência aleatória e é representado por ΩΩΩΩ (lê-se ômega). Costuma chamar-se também a este conjunto, espaço de resultados, espaço empírico,

espaço das observações ou das descrições.

Abstractamente Ω=ω1,ω2,...,ωN, onde ωi (i=1,2,...,N) é acontecimento elementar. Exemplos: 1. A experiência aleatória – nascimento de uma criança – tem dois desfechos, rapaz(r)

e rapariga ou menina(m). Assim Ω=r,m. 2. Se a experiência consiste numa corrida entre 7 cavalos enumerados de 1 a 7, então o

espaço amostra ligado à experiência pode ser Ω=todas as ordenações possíveis de (1,2,3,4,5,6,7).

Note-se que o desfecho (3,6,5,4,1,2,7) significa que o cavalo com o nº3 chegou em 1º lugar, seguido do nº6,5,...

3. Suponhamos que estamos interessados em determinar a dosagem de um medicamento que é necessária a um paciente até que ele comece a reagir positivamente ao tratamento. Aqui o espaço amostra pode ser o conjunto de todos os números positivos

Ω=(0,∞), onde o desfecho é x se o paciente reagiu positivamente à dosagem de valor x e não à menos. Um espaço amostra diz-se discreto se contém um número finito ou infinito

numerável de pontos. Se contiver um número infinito e inumerável de pontos diz-se contínuo.

Exemplos: 4. Os espaços Ω=1, 2, 3, Ω=m,f, ou Ω=1,2,,3,... são discretos. O 1º e o 2º são

finitos, enquanto que o 3º é infinito. 5. O espaço Ω=[0,1] é contínuo pois é impossível enumerar os pontos do intervalo

(0,1). Qualquer subconjunto E do espaço amostra Ω, é conhecido como acontecimento. Exemplos: 6. Do exemplo 1. o subconjunto E=r é um acontecimento. Podemos dizer que E

representa o acontecimento de ter nascido um rapaz. 7. Analogamente F=m também representa um acontecimento – nascimento de uma

rapariga. 8. Em particular o Ω é também um acontecimento, pois é um subconjunto de si

próprio. O acontecimento Ω é conhecido como acontecimento certo.

Acontecimento elementar é cada resultado possível da experiência.

Page 34: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 34

Álgebra de Acontecimentos. Embora a teoria dos conjuntos não faça necessariamente parte da teoria da probabilidade, o seu uso permite grande simplicidade e rigor, fornecendo a linguagem ideal para o estudo da probabilidade.

Assim, para quaisquer dois acontecimentos A e B do espaço amostra Ω, • A∪∪∪∪B – (lê-se união de A e B), representa um novo acontecimento formado por

todos os desfechos de A, de B ou de ambos. A∪B consiste na realização de A ou B (ou de ambos). Por outras palavras a ocorrência de A∪B é equivalente à ocorrência de pelo menos um dos acontecimentos A ou B. Por exemplo, se A=r, B=m, então A∪B=r,m.

• A∩∩∩∩B ou AB – (intersecção de A e B) – representa um outro acontecimento que ocorre se ambos A e B ocorrerem simultaneamente. Por exemplo, se A=(0,5), B=(2,10), então AB=(2,5).

Se AB=∅∅∅∅ implica que A e B não podem ocorrer em simultâneo. Diz-se que A e B são mutuamente exclusivos. Para qualquer acontecimento A define-se Ac ou A ao complementar de A, i. e.

aos elementos do espaço amostra Ω que não pertencem ao A, AA −Ω= . Assim

Ac ocorrerá sse A não ocorrer. A é o acontecimento contrário ao A. O complementar do acontecimento certo designa-se por acontecimento impossível e representa-se por ∅. Para quaisquer dois acontecimentos A e B, se todos os desfechos em A são elementos de B, então diz-se que A está contido em B e escreve-se A⊂B (ou B⊃A). Isto significa que a ocorrência de A implica a ocorrência B. Podemos também definir a união e intersecção de mais do que dois acontecimentos. Em particular, a união de acontecimentos A1, A2, ..., An representado por A1∪A2∪...∪An ou ∪Ai, i=1, 2, ..., n é definido como o acontecimento formado pelos desfechos pertencentes a pelo menos um dos acontecimentos Ai, i=1,2,...,n. Analogamente a intersecção dos acontecimentos Ai, i=1,2,...,n representado por

A1A2...An ou por In

iiA

1=

, é definido como acontecimento cujos desfechos são

simultaneamente de todos os acontecimentos Ai. Assim a união ocorre se pelo menos um acontecimento ocorre, enquanto que a intersecção ocorre se todos os acontecimentos ocorrerem. Uma família de acontecimentos de um espaço Ω fechada em relação às

operações de ∪, ∩ e negação diz-se uma álgebra de acontecimentos ou um corpo de conjuntos. Isto quer dizer que F é uma álgebra de acontecimentos se:

1. ;FAFA ∈⇒∈∀

2. FABFBAFBA ∈∧∈∪⇒∈∀ , ;

3. ∅ F∈ , Ω .F∈

O par (Ω,F) toma o nome de espaço de acontecimentos ou espaço mensurável.

Leis de De Morgan Se A e B forem dois conjuntos quaisquer, então

1. (A∪B)c= AcBc ; 2. (A∩B)c= Ac∪Bc

ou

Page 35: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 35

1. BABA ∩=∪ )(

2. BABA ∪=∩ )( .

Estas leis podem ser facilmente verificadas com a ajuda de diagramas de Venn.

Axiomas da Probabilidade ( Axiomática de Kolmogorov). Espaços de Probabilidade.

Parece ser empírico que se uma experiência é repetida inúmeras vezes sob as mesmas condições, então a proporção de vezes em que o desfecho está contido em A, aproxima-se a um valor constante a medida que o número de repetições aumenta. Normalmente é este valor constante que temos em mente quando se fala de probabilidade.

Assim, por exemplo, na experiência com a moeda a probabilidade de sair cara é ½. De um ponto de vista puramente matemático supõe-se que para cada evento A de uma experiência tendo Ω como espaço amostra, existe um número representado por P(A), que satisfaz os seguintes axiomas: Axioma 1. 0≤P(A)≤1. Axioma 2. P(Ω)=1. Axioma 3. Para qualquer sequência de eventos A1, A2, ..., An, mutuamente exclusivos (i. e. AiAj=∅, para i≠j)

.)()(1 1

Un

i

n

iii APAP

= =∑=

O número P(A) assim definido chama-se probabilidade do acontecimento A. Assim

o axioma 1 diz que a probabilidade da ocorrência de um acontecimento é sempre um número não negativo e não superior a uma unidade;

o axioma 2 diz que a probabilidade de um acontecimento certo é 1; o axioma 3 diz que para acontecimentos mutuamente exclusivos, a probabilidade

de que pelo menos um deles ocorra é igual à soma das respectivas probabilidades. Note-se que interpretamos P(A) como frequência relativa do acontecimento A quando um grande número de repetições tiver lugar. Utilizando estes axiomas podemos provar que

1. )(1)( APAP −=

ou )(1)( APAP c −= ;

2. P(A∪B)=P(A)+P(B)-P(A∩B) ou P(A∪B)=P(A)+P(B)-P(AB);

3. P(∅)=0. Demonstração. 1.P(Ω)=1, por outro lado ),()()()( APAPAAPP +=∪=Ω

sendo =∩ AA ∅.

Assim 1)()( =+ APAP , o que demonstra a igualdade 1.

2. Com a ajuda do diagrama de Venn

Page 36: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 36

Ω A B I II III podemos ver que I∩II=∅ e II∩III=∅. Daí que pelo Axioma 3 teremos

• P(A∪B)=P(I)+P(II)+P(III), • P(A)=P(I)+P(II), • P(B)=P(II)+P(III). Substituindo teremos

P(III)=P(B)-P(II) e

P(A∪B)=P(A)+P(B)–P(II). Mas, P(II)=P(AB). Portanto fica demonstrada a igualdade 2. 3. Dado que ∅=Ω , então P(∅)=1-P(Ω)=0. Porquê?

Se num espaço amostra Ω estiverem definidos a álgebra F de acontecimentos de Ω e a função de probabilidade P sob os elementos de F, então diz-se que está definido o espaço de probabilidade e representa-se por (Ω,F,P).

Princípio de simetria. Espaços Amostra com elementos equiprováveis.

Para um grande número de experiências é natural que cada ponto no espaço amostra tenha a mesma possibilidade de ocorrência. – hipótese de casos igualmente possíveis ou o princípio de simetria.

Assim se o espaço amostra Ω for finito, seja Ω=1,2,...,N assumindo que P(1)=P(2)=...=P(N)=p

e partindo dos axiomas 2 e 3 que P(Ω)=P(1)+P(2)+...+P(N)=Np,

concluímos que p=1/N, i. e. P(i)=1/N. Portanto para um acontecimento A=i1,i2,...iN⊂Ω,

P(A)=(Número de elementos em A)/N=||

||

Ω

A,

onde |A| (lê-se módulo de A) representa o número de elementos em A. Analogamente com |Ω|.

Em conclusão temos as seguintes definições da probabilidade: 1. definição clássica de Laplace.

A probabilidade de realização de um acontecimento A é igual ao quociente entre o número de casos favoráveis à sua realização e o número total de casos igualmente possíveis,

,||

||)(

Ω=

AAP

onde Ω representa o espaço amostra. Esta definição constitui a base da teoria clássica das probabilidades. 2. definição frequencista

Page 37: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 37

Seja f o número de vezes que o acontecimento A se realiza em n provas de uma experiência aleatória. A probabilidade teórica ou matemática de A é dado como

,)( limn

f

n

AP

∞→

=

onde o inteiro f é chamado frequência absoluta e a razão f/n é chamada

frequência relativa. A definição frequencista aplica-se quando o princípio de simetria não é

observado. Exemplos. 1. No lançamento de um dado A=1,3,5, pode representar um acontecimento

– "saída da face impar". Igualmente B=2,4,6 pode representar o acontecimento "saída da face par". Assim

2

1

6

3A)A(P ==

Ω= ;

2

1)B(P = .

2. No nascimento de uma criança A=r, B=m representam respectivamente os acontecimentos "nascimento de um rapaz" e "nascimento de uma menina". Neste caso

2

1A)A(P =

Ω= ;

2

1)B(P = .

Técnicas de Contagem Em muitos casos para resolver problemas de probabilidade deveremos ser

capazes de contar os elementos do espaço amostra sem ter que listar todos os seus elementos.

O princípio fundamental de contagem é muitas vezes conhecido como

Regra da multiplicação. Se uma operação pode ser executada de n1 maneiras e se para cada uma destas maneiras uma segunda operação pode ser executada de n2 maneiras, então as operações podem ser executadas juntas de n1n2 maneiras. Exemplo 1. Quantos pontos tem o espaço amostra ligado à experiência do arremesso de dois dados em simultâneo ? Solução. No primeiro dado pode calhar qualquer uma das n1=6 faces. Para cada uma destas faces no segundo dado pode também cair n2=6 faces. Por isso o par de dados pode calhar em n1n2 =6*6=36 maneiras possíveis. Exemplo 2. Um agente do mercado imobiliário oferece aos seus clientes uma gama de casas escolhidas entre quatro estilos exteriores e três estilos interiores. De quantas maneiras poderá o comprador escolher uma casa que pretende?

Solução. Desde que n1=4 e n2=3, então o comprador pode escolher uma casa de n1n2 = 4*3 = 12 maneiras.

A regra da multiplicação pode ser estendida a qualquer número de operações, obtendo assim a

Page 38: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 38

Regra generalizada da multiplicação. Se uma operação pode ser executada de n1 maneiras, e se para cada uma destas maneiras uma Segunda operação pode ser executada de n2 maneiras e para cada uma das primeiras duas operações uma terceira operação pode ser executada de n3 maneiras, e assim por diante, então a sequência de k operações pode ser executada de n1n2...nk Exemplo3. Quantos almoços consistindo em sopa, sandwich, sobremesa e bebida são possíveis se podemos seleccionar de 4 sopas, 3 tipos de sandwiches, 5 sobremesas e 4 bebidas?

Solução. Sabendo que n1=4, n2=3, n3=5 e n4=4, então existem n1*n2*n3*n4 =4*3*5*4= 240 maneiras de escolher o almoço. Frequentemente estamos interessados em espaços amostras que contém como elemento todas as ordenações ou arranjos possíveis de um grupo de objectos. Os diferentes arranjos são chamados Permutações. Arranjos de todo ou parte de um conjunto de elementos. O número de distintas permutações representa-se por

n! =n(n-1)(n-2)... (2)(1) e lê-se n factorial. Exemplo 4. De quantas se podem sentar 6 pessoas á volta de uma mesa? Solução. São possíveis 6!= 6*5*4*3*2*1= 720

O número de permutações de n objectos distintos tomados de r em r é n

rA = )!(

!

rn

n

−.

Exemplo 5. Dois bilhetes de lotaria são extraídos de um lote 20 bilhetes para o 1º e o 2º prémios. Ache o número de elementos do espaço amostra. Solução. O número total de pontos amostrais é

As permutações que ocorrem por arranjos de objectos em círculo são chamados permutações circulares. Duas permutações circulares só são consideradas diferentes se os objectos correspondentes nos dois arranjos estão precedidos ou sucedidos de elementos diferentes. O número de permutações de n objectos distintos ordenados num círculo é (n-1)!. O número de permutações distintas de n objectos dos quais n1 é de um tipo, n2 de segundo tipo, ..., nk do tipo k é

38019*20!18

!20202 ===A

!!...!

!

21 knnn

n

Page 39: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 39

Exemplo 6. De quantas maneiras podem 3 lâmpadas vermelhas, 4 amarelas, e 2 azuis ser dispostas num cabo eléctrico para a árvore de Natal com 9 dispositivos de encaixe?

Solução. O número de arranjos é

Muitas vezes estamos interessados em conhecer o número de maneiras possíveis de seleccionar r objectos a partir de um conjunto de n objectos sem ter em conta a ordenação dos elementos. Estas selecções são chamadas combinações. Uma combinação é uma partição em duas células – uma que contém r objectos e a outra que contém (n - r) objectos. O número de combinações de n objectos distintos tomados r de cada vez

n

rC =

r

n =

)!(!

!

rnn

n

Exemplo 7. De 4 gestores e 3 informáticos achar o número de comités que podem ser formados por 2 gestores e 1 informático. Solução. O número de maneiras para seleccionar 2 gestores é 1n =

O número de maneiras a seleccionar o informático é

Assim o número de comités possíveis a formar é n1n2= 6*3= 18

1260!2!4!3

!9=

.6!2!2

!4)( 4

2421 ==== Cn

.3!2!1

!3)( 3

13

12 ==== Cn

Page 40: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 40

Probabilidade Condicional Em muitas situações, informação adicional sobre um dado fenómeno pode implicar alterações nas probabilidades de certos acontecimentos. É-se assim conduzido ao conceito de probabilidade condicional. Sendo A e B dois acontecimentos de um espaço Ω com P(B)>0, a probabilidade

condicional de A dado B (escreve-se P(A|B) ou PB(A)) é definida por

,)(

)()|()(

BP

ABPBAPAPB == ou .

)(

)()|(

BP

BAPBAP

∩=

P(A|B) representa uma reavaliação de P(A) utilizando informação adicional de que B ocorreu. Condicionar pelo acontecimento B equivale a atribuir a B um “novo” papel de espaço amostra. Exemplo. Consideremos a experiência aleatória com o lançamento simultâneo de dois dados perfeitos e dois acontecimentos

A ≡ “saída da face com o nº5”, B ≡ “a soma dos pontos saídos é igual a 7”.

Em termos de conjunto teremos as seguintes representações: Ω =(1,1), (1,2), ..., (6,1), (6,2), ..., (6,6); A=(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(1,5),(2,5),(3,5), (4,5),(6,5); B=(1,6), (6,1), (2,5), (5,2), (3,4), (4,3); AB=(2,5), (5,2).

Assim P(B)=36

6, P(AB)=

36

2 e P(A|B)=

)(

)(

BP

ABP=

36/6

36/2=

6

2=

3

1.

Esta probabilidade condicional pode ser calculada directamente sobre o novo espaço amostra Ω’ = B = (1,6), (6,1), (2,5), (5,2), (3,4), (4,3).

Neste espaço com 6 elementos há dois casos favoráveis a A (os pontos (2,5)

(5,2)) e daí que P(A|B)=6

2.

Repare-se que P(A|B)>P(A). Diz-se que a informação adicional da ocorrência de B aumenta a verosimilhança7 de A. A definição da probabilidade condicional permite-nos definir também a chamada regra de factorização. Se P(A)>0 e P(B)>0, então

P(AB)=P(A)P(B|A)=P(B)P(A|B).

A definição da probabilidade condicional pode ser generalizada para mais do que dois acontecimentos.

Sejam por exemplo A, B e C três acontecimentos. A probabilidade condicional de A dado D=BC (escreve-se P(A|BC)) pode ser calculada como

7 Da palavra verosímil, que significa semelhante à verdade.

Page 41: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 41

P(A|BC)=P(A|D)=)(

)(

DP

ADP=

)(

)(

BCP

ABCP , com P(BC)>0.

Desta fórmula podemos deduzir que

P(ABC)=P(BC)P(A|BC)=P(C)P(B|C)P(A|BC) ou

P(ABC)=P(A)P(B|A)P(C|AB).

Generalizando ainda mais podemos dizer que se A1, A2, ..., An forem acontecimentos definidos em Ω, tais que P(A1A2...An)>0, então

P(A1A2...An)= P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1). Esta última fórmula pode-se obter por recorrência fazendo

P(An|A1A2...An-1)=)...(

)...(

121

21

−n

n

AAAP

AAAP,

por isso P(A1A2...An)=P(A1A2...An-1)P(An|A1A2...An-1).

Substituindo sucessivamente as probabilidades de intersecção P(A1A2...An-1) chegamos à regra de factorização generalizada .

Exemplo. O Sr. Alfredo acha que existe 30% de chance para que a sua companhia crie uma filial em Faro. Se isso acontecer ele tem 60% de chance de ser colocado gerente da filial. Qual é a probabilidade do Sr. Alfredo ser colocado gerente da filial em Faro?

Solução. Temos 2 acontecimentos. A ≡ “a empresa cria uma filial em Faro”, B ≡ “o Sr. Alfredo é colocado gerente da filial”.

Procura-se P(AB). Neste caso teremos P(A)=0,3 ; P(B|A)=0,6 ;

P(AB)=P(A)P(B|A) =0,18. Probabilidades Totais

Teorema 1. Teorema das probabilidades totais. Seja B1, B2, ...8 uma partição

finita ou infinita numerável de Ω, tal que P(Bi)>0, ∀ i. Então para qualquer acontecimento A

P(A)=∑i

ii BPBAP )()|( .

Demonstração. Repare-se que ∪Bi=Ω e que A∩(∪Bi)=A=∪(ABi), com (ABi)∩(ABj)=∅, para i ≠ j. Então,

P(A)=P(∪ABi)=∑i

iABP )( =∑i

ii BPBAP )()|( .

A fórmula da probabilidade total mostra que dados os acontecimentos B1, B2, ...,Bn mutuamente exclusivos (só um pode ocorrer) podemos calcular P(A) condicionando-nos ao facto de qual dos acontecimentos Bi ocorre.

8 Um sistema de conjuntos B1, B2, ... diz-se partição de Ω se BiBj=∅, ∀ i ≠ j e ∪Bi=Ω, i=1,2,...

Page 42: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 42

Exemplo. Uma companhia seguradora acredita que as pessoas podem ser divididas em duas classes – aqueles que são “propensos a acidentes” e os que não. As suas estatísticas mostram que uma pessoa propensa a acidente terá um acidente em algum momento num período fixo de um ano com probabilidade 0,4, enquanto que esta probabilidade é de 0,2 para os não “propensos a acidentes”. Se assumirmos que 30% da população é propensa a acidente, qual é a probabilidade de que um novo utente terá um acidente num espaço de um ano da compra da apólice de seguro?

Solução. A probabilidade de um novo cliente ter acidente num espaço de um ano fica condicionado ao facto de ela ser ou não propensa a acidentes.

Temos dois acontecimentos. A1 ≡ “o cliente é uma pessoa propensa a acidentes”, A ≡ “ o cliente terá acidente num espaço de um ano”.

Procuramos P(A). Conhecemos

P(A1)=0,3 ; P( 1A )=0,7 ; P(A|A1)=0,4 ; P(A| 1A )=0,2. Assim

P(A)=P(A|A1)P(A1) + P(A| 1A )P( 1A ) = 0,3*0,4 + 0,7*0,2 =0,12 + 0,14 =0,26.

Fórmula de Bayes Teorema 2. Nas condições do teorema 1 se A for um acontecimento com

P(A)>0, então para cada j, com j=1, 2,... tem lugar a fórmula

P(Bj|A)= ∑j

jj

jj

BPBAP

BPBAP

)()|(

)()|(

,

Conhecida como a fórmula de Bayes.

Esta fórmula é sequência imediata da definição da probabilidade condicional e do teorema das probabilidades totais.

A fórmula de Bayes tem a seguinte interpretação. Seja A um acontecimento que se realiza só se um dos acontecimentos Bi

(i=1,2,...) mutuamente exclusivos se realiza. A fórmula de Bayes dá a probabilidade da causa Bi se realizar sob a condição de que o acontecimento A se realizou.

Por outras palavras dá-nos a probabilidade de que o acontecimento A se realizou como o resultado da causa Bj.

Ou se pensarmos que Bj é uma hipótese possível sobre algum assunto, então a fórmula de Bayes mostra-nos como é que as hipóteses antes da ocorrência da experiência devem ser modificadas depois da evidência da experiência.

Exemplo. Reconsideremos o exemplo anterior e suponhamos que o novo cliente tem um acidente dentro de um ano depois da compra da apólice. Qual é a probabilidade de ele ser pessoa propensa a acidentes? Solução. Inicialmente no momento da assinatura da apólice foi assumido que ele tinha 30% de chance de ser pessoa propensa a acidentes, i. e. P(A1)=0,3. Contudo baseado no facto de que ele teve um acidente no espaço de um ano, reavaliamos a sua possibilidade de ser pessoa propensa a acidentes, fazendo

P(A1|A)=)(

)(

1

1

AP

AAP =6/13=0,46.

Page 43: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 43

Acontecimentos independentes Dois acontecimentos dizem-se independentes se a realização de qualquer um

deles não influencia nem é influenciada pela realização do outro. Assim os acontecimentos A e B são independentes se P(A|B)=P(A) e P(B|A)=P(B).

Como consequência da independência teremos

P(AB)=P(A|B)P(B)=P(B|A)P(A)=P(A)P(B).

Qualquer duas destas definições pode ser tomada como consequência uma da outra.

Exemplo. Uma carta é seleccionada de um baralho ordinário com 52 cartas. Se

A é o acontecimento de que a carta seleccionada é um “az” e H o acontecimento “é uma copa” então A e H são independentes, visto que P(A)=4/52, P(H)=13/52 e P(AH)=1/52=P(A)P(H).

Generalizando para mais do que dois acontecimentos dizemos que três

acontecimentos A, B e C são independentes sse P(ABC)=P(A)P(B)P(C).

De um modo geral os acontecimentos A1, A2, ..., An dizem-se independentes se para todo o conjunto de k inteiros i1, i2, ..., ik tais que 1 ≤ i1≤ i2 ≤...≤ ik ≤ n se tem

P(Ai1Ai2...Aik)=P(Ai1)P(Ai2)...P(Aik).

Se dois acontecimentos E e F são independentes, então E e Fc também o serão.

Demonstração. Se E e F são independentes, então P(EF)=P(E)P(F). Por outro lado E=EF∪EFc , donde P(E)=P(EF)+P(EFc), ou seja

P(E)=P(E)P(F)+P(EFc). Portanto

P(EFc) = P(E)(1-P(F)) = P(E)P(Fc)

Analogamente se dois acontecimentos E e F são independentes, então Ec e F

c

também o serão. (Demonstre).

Exemplo. Um sistema composto por n componentes separados sistema paralelo se ele funciona quando pelo menos um dos componentes funciona.

Para tal sistema, se o componente i, independente de outros componentes, funciona com probabilidade pi, (i=1,2,...,n), qual é a probabilidade de que o sistema funciona?

Solução. Imaginemos o sistema I O Seja Ai o acontecimento “o componente i funciona” e A “o sistema funciona”. Procura-se P(A). Como tal

P(A)=P )(1

Un

i

iA=

=1-P(∩ iA )

Page 44: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 44

=1-∏=

n

i

iAP1

)(

=1-∏=

−n

i

ip1

)1( .

Page 45: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 45

Variáveis Aleatórias e Distribuições de Probabilidade Como já se viu atrás experiência aleatória é um processo que gera resultados

dependentes da sorte. Numa linha de produção de componentes electrónicos o teste de componentes

defeituosos pode ser um exemplo de experiência aleatória ou estatística. Nesta experiência, quando três peças são inspeccionadas, o espaço dos possíveis resultados pode ser escrito como

Ω=NNN, NND, NDN, DNN, NDD, DND, DDN, DDD, onde N representa "não defeituoso" e D representa "defeituoso".

Interessa-nos naturalmente o número de peças defeituosas que ocorre. Por isso cada ponto do espaço amostra associamos a um valor 0, 1, 2 ou 3, conforme a quantidade de peças defeituosas existentes.

Estes valores são aleatórios e dependentes do resultado da experiência aleatória. Eles podem ser vistos como valores assumidos por uma variável aleatória X.

Uma variável aleatória (v. a.) é uma função que associa um valor real a cada

elemento do espaço amostra. Assim, para cada ω∈Ω, X(ω)= x ∈ℜ. Escreve-se também X: Ω → ℜ. Usaremos a letra maiúscula (X) para representar a v. a. e a letra minúscula (x)

para representar o valor dessa variável. Para o caso da experiência com componentes electrónicos diremos que a v. a. X

toma o valor 2 para todos os elementos do subconjunto E=DDN, DND, NDD

do espaço amostra Ω. Diz-se que uma v.a. X é discreta quando ela toma valores finitos ou infinitos

numeráveis (ou enumeráveis). Quando a v. a. X toma valores infinitos inumeráveis (incontáveis) diz-se que ela é uma variável contínua. Exemplo 1. Duas bolas são extraídas sem reposição de uma urna contendo 4 bolas vermelhas e três pretas. Sendo Y a variável que representa o número de bolas vermelhas extraídas os possíveis valores para y são 0,1,2.

Y é uma variável discreta finita. Exemplo 2. Consideremos uma experiência que consiste em arremessar um dado ao ar até que ocorre 5. Obtemos um espaço amostra

Ω=S,NS,NNS, NNNS, NNNNS, ... com um número infinito enumerável de elementos. Exemplo 3. Seja X a variável que mede o tempo entre dois telefonemas numa cabine telefónica. Aqui os valores possíveis para X pode variar entre 0 e ∞ e é impossível contá-los. X é uma variável contínua. Exemplo 4. Seja Ω, o espaço de resultados do lançamento de um dado perfeito. Considere-se uma v. a. que toma valor 0, quando sai um número par e 1 quando sai um número ímpar.

Isto é, se A for o acontecimento “saída de face par” e B o acontecimento “saída de uma face ímpar”, então

X(A)=0 e X(B)=1, onde A=2,4,6 e B=1,3,5.

As imagens inversas dos pontos 0 e 1 são respectivamente X-1(0)=A e X-1(1)=B.

Page 46: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 46

Do conceito que se tem da imagem inversa resulta claramente que X(ω) assume valores de um subconjunto B⊂ℜ quando e só quando ω pertence à imagem inversa de B,

X(ω)∈B ⇔ ω∈X-1(B). Nestas condições justifica-se definir a probabilidade de a v. a. X(ω) assumir um valor do conjunto B⊂ℜ pela probabilidade do acontecimento X-1(B),

P(X(ω)∈B)=P(X-1(B)), ou simplesmente P(B)=P(X-1(B)). Deste modo a v. a. X toma os valores 0 e 1 com as probabilidades

P(X=0) =P(X-1(0)) = P(A) =1/2 P(X=1) =P(X-1(1)) = P(B) =1/2.

Exemplo 5. No universo das famílias com três filhos, representemos por H criança do sexo masculino, M - sexo feminino.

Seja Ω o espaço das sequências ordenadas de nascimentos Ω=HHH,HHM,HMH,HMM,MMM,MMH,MHM,MHH.

Admitindo que os oito elementos do espaço Ω são equiprováveis defina-se uma v. a.

X= número de rapazes na família. Os valores admissíveis de X são 0,1,2,3, sendo X-1(0)=MMM, X-1(1)=MMH, MHM, HMM, X-1(2)=HHM,HMH,MHH, ...

P(X=0)= P(ω|X(ω)=0)= P(X-1(0))=1/8, P(X=1)= P(ω|X(ω)=1)= P(X-1(1))=3/8,

de igual modo obtemos P(X=2)= 3/8 e P(X=3)=1/8. Estes exemplos mostram que a distribuição de probabilidades da v. a. X fica

completamente determinada desde que os conjuntos X-1(x)=ω|X(ω)=x sejam

acontecimentos. Formalmente podemos definir uma v. a. como uma aplicação ou uma função mensurável cuja imagem inversa é um acontecimento.

Variáveis identicamente distribuídas dizem-se semelhantes. Variáveis X e Y, definidas sobre um mesmo espaço Ω, dizem-se iguais se

X(ω)=Y(ω), ∀ω. Se P(X=Y)=1, então as variáveis dizem-se equivalentes. Seja X uma v. a. discreta tomando um número finito de valores x1, x2, ..., xN com

as probabilidades p1,p2, ...,pN, onde

pi= P(X=xi)=p(xi)≥0, e ∑i

ip =1.

O conjunto de pares (xi,pi)| i=1,2,...,N caracterizam completamente a v. a. e definem uma lei ou distribuição de probabilidade.

No caso numerável a distribuição de X fica determinada a partir do

conhecimento dos valores xi, i=1,2,... e de uma função de probabilidade

p(xi)=P(X=xi), p(xi)≥0, ∑∞

=1

)(i

ixp =1.

A função de probabilidade é ainda conhecida como função massa da

probabilidade.

Page 47: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 47

O gráfico de uma distribuição de probabilidade discreta pode ser representada pela gravura abaixo,

p1

p2 pi ...

0 x1 x2 ... xi ... x

como sendo distribuição de uma quantidade de massa igual a 1, por vários pontos numeráveis ao longo de um eixo (neste caso dos x). Funções de Distribuição Dada uma v. a. X a função F(x)=P(X≤≤≤≤x)=P(]-∞,x]) diz-se função de distribuição (f.d.) de X. A função F(x) • sendo probabilidade, nunca é inferior a 0 nem superior a 1, (0 ≤≤≤≤ F(x) ≤≤≤≤ 1 ou F(x)∈∈∈∈

[0,1]). • É ainda uma função não decrescente i. e. F(xi)≥F(xj), ∀ xi ≥ xj, • é contínua à direita (

+→ axlim F(x)=F(a))

• e por último

−∞→

=x

xF 0)(lim e 1)(lim =+∞→x

xF .

Note-se que sendo F(x)=P(X∈]-∞,x])=P(]-∞,x]), então P(]x,y])=P(]-∞,y] - ]-∞,x])= F(y)-F(x).

Daí que P(]a,a+1/n])=F(a+1/n) – F(a).

Quando o n ∞→ , P(]a,a+1/n]) → P(]a,a])=F(a)- F(a) =0.

Por isso F(a+1/n) – F(a) → 0, i. e.

∞→nlim F(a+1/n)=

+→axlim F(x)= F(a).

O conhecimento da função de distribuição permite calcular a probabilidade de qualquer acontecimento. Exemplo. Se a v. a. X tem função de distribuição,

F(x)=

<≤

<

,2,1

,20,2/

,0,0

x

xx

x

Vem P(X ≤ -1)=F(-1)=0, P(X ≤ 1)=F(1)=1/2, P(X ≤ 1,5)=F(1,5)=0,75, P(X ≤ 2,4)=F(2,4)=1.

Todas as questões de probabilidade sobre a v. a. X podem ser respondidas em termos da sua f. d. . Assim • P(X≤≤≤≤x)= F(x); • P(x<X≤≤≤≤y)= F(y)-F(x);

Page 48: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 48

• P(X<x)= P(]-∞,x[)=P(]-∞,x]-[x,x]) = P(X≤x)-P(X=x) = F(x)- P(X=x) = F(x-0) = F(x-); • P(X>x)= 1- P(X≤x)= 1-F(x); • P(x≤≤≤≤X≤≤≤≤y)= P(]-∞,y]-]-∞,x[)= F(y)-F(x-0)= F(y)-F(x-); • P(x<X<y)= P(]x,y]-[y,y]) = P(]x,y])-P([y,y]) = F(y-0)-F(x)= F(y-) - F(x); onde F(x-0) representa o valor da função F tomado num ponto da vizinhança esquerda de x, (x-0 ≅ x-ε ). Para uma variável aleatória discreta a f. d. F(x) pode exprimir-se facilmente em

termos da respectiva função de probabilidade

F(x)=P(X≤x)=∑≤ xx

i

i

xf )( .

Se xi pertence a um subconjunto D⊂ℜ, então a f. d. F(x) apresenta tantos saltos quantos os elementos do D.

Exemplo. Seja X v. a. dada segundo o esquema abaixo

x 1 2 3 4 pi 1/8 1/4 1/4 3/8

Determinar a sua f.d, sabendo que pi=f(xi). Solução. O nosso conjunto D=1,2,3,4. Para os pontos do D é conhecida a distribuição das probabilidades. Segundo o quadro p1= f(1)=1/8, p2=f(2)=1/4, p3=f(3)=1/4, p4= f(4)=3/8.

Por definição F(x)=P(X≤x)=∑≤ xx

i

i

xf )( .

Por isso teremos para • x < 1, F(x)=P(X≤x)=0. • 1 ≤ x < 2, F(x)=f(1)=1/8, • 2 ≤ x < 3, F(x)= f (1) + f (2)=1/8+1/4=3/8, • 3 ≤ x < 4, F(x)= f (1) + f (2) + f (3)=1/8+1/4+1/4=5/8, • x≥4, F(x)= f (1) + f (2) + f (3) + f (4)=5/8+3/8=1.

Graficamente teremos 1 1 5/8 5/8 3/8 3/8 1/8 1/8 1 2 3 4

Page 49: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 49

Se a f. d. não apresenta saltos então a variável aleatória diz-se contínua.

Neste caso a lei da probabilidade de X pode em geral definir-se a partir do conhecimento da sua função de frequência f(x), mais propriamente função de densidade

de probabilidade ou simplesmente função de densidade. Função de densidade é uma função f(x), não negativa e tal que ∀x∈ℜ,

∫∞−

=x

duufxF )()( .

Note-se que sendo X uma v. a. com f. d. F(x) tem lugar a expressão

f(x)=F´(x)=dx

xdF )(,

i. e. a função de densidade é a derivada da função de distribuição. Por definição da f. d. F(x), F(+∞)=1, por isso, se f(x) for função de densidade então

∫+∞

∞−

dxxf )( = 1.

Usando as propriedades da função de distribuição e dos integrais as probabilidades de acontecimentos podem ser calculados da seguinte maneira

- P(a < X ≤ b)= F(b) – F(a)= ∫∞−

b

dxxf )( - ∫∞−

a

dxxf )( = ∫b

a

dxxf )( .

Sendo F(x) uma função contínua teremos F(x-)=F(x+)=F(x), pelo que

P(X=x)=0, ∀x∈ℜ.

Exemplo. Suponha que o erro na temperatura (em ºC) de uma reacção numa experiência

laboratorial controlada é uma variável aleatória contínua tendo função de densidade de probabilidade

f(x)=

<<−

xoutrospara

xx

,0

21 ,3 .

a)Prove que ∫+∞

∞−

dxxf )( =1;

b)Calcule P(0 < X ≤ 1); c) Determine a f. d. F(x).

Solução.

a) ∫+∞

∞−

dxxf )( = ∫−

∞−

1

)( dxxf + ∫−

2

1

)( dxxf + ∫+∞

2

)( dxxf

= 0 + ∫−

2

1

2

3dx

x + 0 =

1

2

33

1 3

x = ))1(8(

9

1−− = 1.

Page 50: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 50

b)P(0<X≤1) = ∫1

0

2

3dx

x =

0

1

9

1 3x = 1/9.

c)Para cálculo da f. d. devemos considerar os intervalos em que são dados os valores de f(x). Assim F(x)=0, se x≤-1;

F(x)= ∫−

∞−

1

)( dxxf + ∫−

x

dxu

1

2

3, se –1<x≤2;

F(x)=0 + ∫−

2

1

2

3dx

x + ∫

xu

2

2

3, se x>2.

Portanto,

F(x)=

>

≤<−+

−≤

21

2119

110

3

xse

xse)x(

xse

,

,

,

.

Assim uma função é função de densidade se

1. f(x)≥0. ∀x∈ℜ;

2. ∫∞−

x

dxxf )( = 1.

Em paralelismo temos para um distribuição discreta 1. ip = f(xi) ≥ 0, i=1,2,...

2. ∑i

ip = 1.

Comparando temos para variáveis discretas ou contínuas funções de distribuição de probabilidade que se definem conforme o quadro que se segue

Caso discreto Caso contínuo f(xi)= P(X=xi) f(x)dx= P(x < X ≤ x+dx)

f(xi)= F(xi)-F(x −i

) f(x)= F'(x)

F(x)=∑≤ xx

i

i

xf )( F(x)= ∫

∞−

x

duuf )(

P(A)= ∑∈Ax

i

i

xf )( P(A)= ∫A

dxxf )(

1)( =∑ix

ixf ∫

+∞

∞−

= 1)( dxxf

O conhecimento de F(x) determina univocamente a distribuição de probabilidade de X. No caso discreto a partir de F(x) calculam-se as probabilidades pi = f(xi) , no caso contínuo a partir de F(x) obtém-se a função de densidade f(x).

Page 51: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 51

Vectores Aleatórios. Distribuições conjuntas. Em inúmeras situações o estudo estatístico ou probabilístico envolve k

propriedades ou características quantitativas dos elementos ω∈Ω. Em tais casos estabelece-se uma correspondência

Ω→ kℜ , i. e. a cada elemento ω de Ω corresponde um vector

X(ω)=(X1(ω), X2(ω), ...,XK(ω))∈ kℜ . O vector X(ω) assim definido denomina-se vector aleatório ou variável aleatória

k-dimensional. Se o k=2 dizemos vector bidimensional, se K=3 dizemos tridimensional , etc.

Assim à semelhança do caso de uma única variável aqui para este caso podemos definir a probabilidade de X(ω) tomar valores de um determinado subconjunto ΒΒΒΒ de kℜ como

P(ΒΒΒΒ)=P(X(ω)∈ΒΒΒΒ))=P(ω|X(ω)∈ΒΒΒΒ)=P(ω∈X-1(ΒΒΒΒ))=P(X-1(ΒΒΒΒ)), onde X-1(ΒΒΒΒ) é a imagem inversa de ΒΒΒΒ por X(ω). As variáveis aleatórias bidimensionais são suficientemente importantes para justificar um estudo mais alargado em relação ao caso geral k>2.

Seja portanto o vector aleatório bidimensional X(ω)=(X1(ω),X2(ω)). Este vector põe cada elemento ω∈Ω em correspondência com um ponto (x,y)∈ 2ℜ , i. e.

X:Ω→ 2ℜ . Em vez de (X1,X2) emprega-se (X,Y). Dada uma variável bidimensional ou vector aleatório (X,Y), a probabilidade de obter um ponto na região do plano 2ℜ , definida pelas igualdades X≤x, Y≤y, i. e.

P(X≤x, Y≤y)=P(ω: X(ω)≤x, Y(ω)≤y)

existe sempre por definição e permite introduzir a função real de duas variáveis

F(x,y)=P(X≤≤≤≤x,Y≤≤≤≤y),

conhecida como função de distribuição conjunta das variáveis aleatórias X e Y ou função de distribuição da variável bidimensional (X,Y). A região X≤x,Y≤y, pode ser representada como se segue na gravura abaixo.

y (x,y x

Page 52: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 52

Teorema. Se F(x,y) for função de distribuição conjunta das variáveis X e Y, então

P(xa<X≤xb, ya<Y≤yb)=F(xb,yb)-F(xa,yb)-F(xb,ya)+F(xa,ya) Demonstração:

Seja I o rectângulo de 2ℜ , definido como I=(x,y):xa<X≤xb,ya<Y≤yb, xa<xb, ya<yb.

Graficamente teremos yb A I ya B C xa xb Da definição da função de distribuição conjunta segue que

F(xb,yb)=P(X≤xb, Y≤yb)=P(I∪A∪B∪C); F(xa,yb)=P(X≤xa, Y≤yb)=P(A∪B); F(xb,ya)=P(X≤xb, Y≤ya)=P(B∪C); F(xa,ya)=P(X≤xa, Y≤ya)=P(B). Visto que os rectângulos não se intersectam entre si então os acontecimentos

representados por eles são incompatíveis ou mutuamente exclusivos. Daí que P(B∪C)=P(B)+P(C) ⇒ P(C)=P(B∪C)-P(B)=F(xb,ya)-F(xa,ya); P(A∪B)=P(A)+P(B)⇒ P(A)=P(A∪B)-P(B)=F(xa,yb)-F(xa,ya); P(I∪A∪B∪C)= P(I)+P(A)+P(B)+P(C) ⇒⇒⇒⇒P(I)=F(xb,yb)-(F(xa,yb)-F(xa,ya))-F(xa,ya)-(F(xb,ya)-F(xa,ya)) =F(xb,yb)-F(xa,yb)-F(xb,ya)+F(xa,ya).

Page 53: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 53

Propriedades da f. d. F(x,y) 1. Por definição a f. d. F(x,y) é sempre 0≤F(x,y)≤1; 2. F(-∞,y)=F(x,-∞) =0 ; F(+∞,+∞)=1; 3. F(x,y) é não decrescente em relação a qualquer dos argumentos; 4. Toda a função de distribuição F(x,y) é contínua à direita em relação a

qualquer dos argumentos. Quando se trabalha com a distribuição conjunta de duas variáveis aleatórias

(X,Y), pode haver necessidade em estudar o que se passa com uma qualquer dessas variáveis considerada isoladamente ou marginalmente.

Por outras palavras pode haver interesse em determinar a probabilidade de X≤x

(ou Y≤y) qualquer que seja o valor assumido pelo Y (ou X). Neste caso teremos P(X≤x)=P(X≤x,Y<+∞)=

+∞→ylim F(x,y)= F(x,+∞) =F1(x)

ou P(Y≤y)=P(X≤+∞,Y≤y)=

+∞→xlim F(x,y)= F(+∞,y) =F2(y).

A função F1(x) (ou F2(y)) é conhecida como função de distribuição marginal de X (ou de Y), respectivamente.

Se os acontecimentos X≤x e Y≤y forem independentes, i. e. se P(X≤x, Y≤y)=P(X≤x)P(Y≤y),

as variáveis aleatórias (X,Y) dizem-se independentes e a respectiva distribuição conjunta é o produto das distribuições marginais

F(x,y)=F1(x)F2(y), ∀ (x,y)∈ 2ℜ .

Variáveis Bidimensionais Discretas. Um vector aleatório ou variável bidimensional (X,Y) diz-se do tipo discreto se, dado o conjunto finito ou infinito numerável

D=(ai,bj): P(X=ai ,Y=bj)>0, se tem

P[(X,Y)∈D]=1. Por outras palavras o vector aleatório (X,Y) é discreto se o conjunto dos valores

assumidos por ele é finito ou infinito numerável. A função de probabilidade do vector (X,Y) define-se como f(x,y)=P(X=x,Y=y) > 0 , (x,y)∈D, = 0 , se (x,y)∉D. Para ela são válidas as seguintes propriedades,

1. f(x,y)≥0, (x,y)∈ 2ℜ , 2. ,1),(

),(∑

=Dba

ji

ji

baf

3. P[(X,Y)∈ Β ]= ∑∩Β∈ Dba

ji

ji

baf),(

),( , Β ∈ 2ℜ .

A função de distribuição de (X,Y) tem a forma

F(x,y)= P(X≤x , Y≤y)= ∑≤≤ yji bxa

ji baf,

),( .

As funções de probabilidade marginais são definidas como

Page 54: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 54

f1(ai)=P(X=ai) = P(X=ai, Y=b1)+P(X=ai, Y=b2)+... =∑

j

ji baf ),( , i=1,2,...

e f2(bj)=P(Y=bj)= P(X=a1, Y=bj)+P(X=a2, Y=bj)+... =∑

i

ji baf ),( , j=1,2,...

Exemplo. Duas recargas para esferográfica foram extraídas casualmente de uma caixa contendo 3 recargas azuis, 2 vermelhas e 3 verdes. Se X for o número de recargas azuis e Y o número de recargas vermelhas extraídas, determine

a) a função f(x,y) de probabilidade conjunta; b) a probabilidade P[(X,Y)∈A], sendo A=(x,y):x+y≤1; c) as funções de probabilidade marginais de X e de Y.

Solução. Se X for o número de recargas azuis extraídas e Y o de recargas vermelhas, então em duas recargas extraídas estas duas variáveis só podem tomar os valores 0, 1, 2. Assim os casos possíveis para o par (x,y) serão (0,0), (0,1), (0,2), (1,0), (1,1), (2,0). Sabemos que | Ω |= 8

2C = ( )82 =28.

a) Por definição

f(x,y) =P(X=x, Y=y) =82

32

23

C

CCC yxyx −− ,

representa a probabilidade de se extrair x recargas azuis, y vermelhas e 2-x-y recargas verdes. Por isso

f(0,1) =P(X=0, Y=1) =( )( )( )

28

31

21

30 =6/28 =3/14.

De igual modo calculamos as probabilidades para os outros casos conforme a tabela que se segue

y x 0 1 2 f2(y)=h(y) 0 3/28 9/28 3/28 15/28 1 3/14 3/14 3/7 2 1/28 1/28

f1(x)=g(x) 5/14 15/28 3/28 1 b) P[(X,Y)∈A] =P(X+Y≤1)

= f(0,0) + f(0,1) + f(1,0)

= 28

3+

14

3+

28

9

=9/14. c) As funções de probabilidade marginais f 1(x) e f 2(y) encontram-se já definidas na

tabela acima. Assim, por exemplo, f 1(0)=P(X=0)=5/14, f 2(1)=P(Y=1)=3/7,... Distribuição Condicional

Seja A o acontecimento “X=x” e B outro acontecimento “Y=y”. Se P(A)>0, então podemos definir a probabilidade condicional

P(B|A)=)(

)(

AP

BAP ∩.

Substituindo A e B pelas suas expressões respectivas “X=x” e “Y=y” teremos

Page 55: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 55

P(Y=y|X=x)=)(

),(

xXP

yYxXP

=

==

= .)(

),(

xg

yxf

A função dada pela expressão )(

),(

xg

yxf, com g(x)>0, é denominada função de

distribuição condicional de Y dado X=x, e representa-se por f (y|x). Assim

f (y|x)= ,)(

),(

xg

yxf g(x)>0.

De igual modo

f (x|y)= )(

),(

yh

yxf, com h(y)>0,

representa função de distribuição condicional de X dado Y=y. Exemplo. Considerando de novo o exemplo das recargas para esferográficas achar

a) a distribuição condicional de X dado Y=1; b) P(X=0|Y=1).

Solução. Procuramos

f (x|1)=)1(

)1,(

h

xf,

onde

h(1)=∑=

2

0

)1,(x

xf =3/14 + 3/14 +0 =3/7.

Portanto

f (0|1)= )1,0(3

7f =(7/3)*(3/14)=1/2,

f (1|1)= )1,1(3

7f =(7/3)*(3/14)=1/2,

f (2|1)= )1,2(3

7f =(7/3)*0=0.

Deste modo a distribuição condicional de X dado Y=1, é

x 0 1 2 f(x|1) 1/2 1/2 0

b) Finalmente P(X=0|Y=1)= f (0|1)=1/2.

Page 56: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 56

Variáveis Bidimensionais Contínuas. Uma variável bidimensional (X,Y) é do tipo contínuo quando existe uma função real não negativa f (x,y) tal que a sua função de distribuição tem a forma

F(x,y)= ∫ ∫∞− ∞−

x y

dudvvuf ),( , ∀ (x,y).

A função f(x,y) diz-se então função de densidade conjunta de (X,Y).

É obvio que

∫ ∫+∞

∞−

+∞

∞−

= 1),( dxdyyxf

e

f (x,y)=yx

yxF

∂∂

∂ ),(2

.

Se Β é um acontecimento de 2ℜ , a probabilidade de observar (X,Y)∈Β , obtém-se integrando a função densidade de probabilidade no domínio Β , i. e.

P(Β )= ∫∫Β

dxdyyxf ),( .

O problema principal diz respeito à determinação dos limites de integração. Analogamente podemos definir as funções de distribuição marginais de variáveis

contínuas substituindo os somatórios pelos integrais. I. e.

g(x)= ∫∞

∞−

dyyxf ),( e h(y)= ∫∞

∞−

dxyxf ),(

serão respectivamente as funções de densidade marginal para a v. a. X e Y. Exemplo. Uma fábrica de doçarias distribui caixas de chocolate com uma mistura de cremes, caramelos, e nozes para chocolate escuro e claro. Sejam X e Y as proporções de chocolates claro e escuro, para uma caixa seleccionada ao acaso, e suponha que a função de densidade conjunta é

f(x,y)=

≤≤≤≤+

.,0

10,10),32(5

2

outros

yxyx

a) Verifique que ∫ ∫∞

∞−

∞−

= 1),( dxdyyxf .

b)Ache P[(X,Y)∈A], onde A=(x,y)|0<x < 1/2,1/4<y<1/2.

Solução. a) ∫ ∫∞

∞−

∞−

=dxdyyxf ),( ∫ ∫ +1

0

1

0

)32(5

2dxdyyx

Page 57: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 57

= ∫==+ dyxyx x

x

10

2 |)3(5

2 = ∫ +

1

0

)31(5

2dyy = 1

0

2

|)5

3

5

2(

yy +

=2/5 + 3/5 =1. b)P[(X,Y)∈A]=P(0<X<1/2,1/4<Y<1/2)

= ∫ ∫ +2/1

4/1

2/1

0

)32(5

2dxdyyx = ∫

==+

2/1

4/1

2/10

2 |)3(5

2dyxyx x

x

= ∫ +2/1

4/1

)5

3

10

1( dy

y = 2/1

4/12 |)3(

10

1yy +

=

+−+ )

16

3

4

1()

4

3

2

1(

10

1= .

160

13

Funções de uma variável aleatória Na prática, quando se observa uma variável aleatória X, é frequente concentrar o interesse principal numa dada função de X. Obviamente se X é uma v. a. e g uma aplicação de ℜ em ℜ, Y=g(X) é uma variável aleatória. Seja X uma v. a. e g(.) uma função real de variável real e mensurável9. A variável aleatória Y=g(X) assume o valor y=g(x) quando X=x. Conhecendo a função de distribuição de X pode também conhecer-se a função de distribuição de Y ( ver Bento Murteira). O problema de obtenção da função de distribuição de Y a partir da de X, consiste na mudança de variável e assenta na igualdade

P(Y∈Β)=P[X∈g-1(Β)], Onde g-1(Β)⊂ ℜ é a imagem inversa do conjunto Β ⊂ ℜ. Tomando Βy=(-∞,y], vem

G(y)=P(Y≤y)=P(Y∈Βy)=P[X∈g-1(Βy)]. Nos casos mais correntes, para cada y∈ℜ, g-1(Βy) é um intervalo ou união de intervalos e a probabilidade do último membro pode calcular-se facilmente em termos da função de distribuição F(x). A f. d. de Y é

Fy(y) = P(Y≤y) = P(g(X)≤y)

=P(x|g(x)≤y) =

∑∈

A

X

Ax

iX

dxxf

xfi

)(

)(

conforme se trate de caso discreto ou contínuo. Aqui A=x|g(x)≤y. Caso Discreto Seja X uma v. a. discreta com a função de probabilidade f X(x). Então,

pY(y)= P(Y=y)= P(g(x)=y) = P(x|g(x)=y)= ∑

= yxg

X xf)(

)( .

Com g invertível, i. e. se for possível encontrar a expressão explícita X=g-1(Y) então

pY(y) = P(X=g-1(y)) = f X(g-1(y)).

9 Probabilizável, a que se pode associar um valor, uma medida.

Page 58: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 58

Exemplo. Dada a v. a. discreta X com o esquema x 2 4 6

f (x) 1/4 1/2 1/4 e a aplicação g: X→Y definida pela correspondência 2→0, 4→1, 6→1, calcular P(Y=0) e P(Y=1).

Solução. Tem-se P(Y=0) = P(g(X)=0) = P(X=2) = 1/4;

P(Y=1) = P(g(X)=1) = P(X=4) + P(X=6) = 1/2+1/4 = 3/4.

Exemplo. Seja X a v. a. do exemplo anterior e seja Y= 2X+5. Calcular P(Y=9), P(Y=13), P(Y=17).

Solução. Como a função g(X)=Y=2X+5 é invertível, pois X=2

5−Y, então

P(Y=y)=P(2X+5=y)=P(X=2

5−y).

Assim P(Y=9) = P(X=2) = 1/4; P(Y=13)= P(X=4) = 1/2; P(Y=17)= P(X=6) = 1/4.

Caso Contínuo Seja agora X uma v. a. contínua com f. d. FX(x) e a função de densidade fX(x) e seja g uma função contínua e diferenciável.

Admita-se que se tem sempre g’(x)>0 ou g’(x)<0 (i. e. a função g ou é estritamente crescente ou é estritamente decrescente). Com g(x) crescente o acontecimento (Y≤y) é equivalente ao acontecimento (X ≤ g-1(y)). Com g(x) decrescente (Y≤y) é equivalente a (X ≥ g-1(y)).

Teorema. Seja X uma v. a. contínua e g(x) uma função monótona, contínua e diferenciável. A f. d. de Y=g(X) é

FY(y)=[ ][ ]

<−

>−

0(x)g' se ,)(1

0(x)g' se ,)( 1

1

ygF

ygF

X

X

A função de densidade de Y é fY(y)=fX(g-1(y))dy

ydg )(1−

.

Demonstração. Quando g(x) é crescente FY(y) = P(Y≤y) = P(g(X)≤y) = P(X≤g-1(y)) = FX(g-1(y)).

Quando g(x) é decrescente FY(y) = P(Y≤y) = P(g(X)≤ y) = P(X≥g-1(y)) = 1 - FX(g-1(y)).

Para o primeiro caso a função de densidade

fY(y)= [FX(g-1(y))]’=fX(g-1(y))dy

ydg )(1−

,

enquanto que para o segundo caso

fY(y)= [1-FX(g-1(y))]’=-fX(g-1(y))dy

ydg )(1−

.

Estas duas últimas fórmulas podem ser escritas numa só, como

Page 59: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 59

fY(y)=fX(g-1(y))dy

ydg )(1−

,

ou

fY(y)=fX(x)dy

dx.

Recorde-se que x=g-1(y). Se a função g não for monótona divide-se o seu domínio em intervalos de monotonia aplicando-se o processo descrito a cada subintervalo. Mais precisamente, seja A1 ∪ A2 ∪... (Ai∩Aj=∅, i≠j) uma decomposição do domínio de g tal que y=g(x) em Ak é monótona (estritamente crescente ou estritamente decrescente) e admite a inversa x= )(1

ygk

− , k=1,2,... Então,

fY(y)=∑−

dy

ydgygf k

kX

)())((

11 .

Exemplo. Seja X uma variável contínua com função de densidade fX(x) e Y=X2. Determine a função densidade de Y.

Solução. Se Y=X2, então X=± Y . Tem-se dois intervalos de monotonia: I1=(-∞,0), em que g(x)=x2 é decrescente e I2=(0,+∞), em que é crescente. Assim

X=- Y = g )(11 y− , para -∞ ≤ x ≤0

e

X= Y = g )(12 y− , para 0 < x < +∞.

Aplicando a fórmula

fY(y)=∑−

dy

ydgygf k

kX

)())((

11 ,

teremos

fY(y)=fX(g )(11 y− )

dy

ydg )(11−

+ fX(gdy

ydgy

)()(

121

2

−−

=fX(- )yy2

1 + fX( y )

y2

1

=y2

1[ fX(- )y + fX( y )], y ≥ 0.

O mesmo resultado obtinha-se por derivação directa de FY(y). Pois

FY(y) = P(Y≤y) = P(X2≤y) = P(- y ≤ X ≤ y )

=FX( y ) - FX(- y ).

fY(y) = F 'Y (y) = fX( y )

dy

yd )( - fX(- y )

dy

yd )(−

=y2

1[ fX( y ) + fX(- y )].

Page 60: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 60

Funções de Vectores Aleatórios Dadas duas variáveis aleatórias do tipo contínuo (X1,X2) por vezes é muito útil introduzir novas variáveis (Y1,Y2) obtidas através das primeiras por transformação conveniente,

Y1=Φ1(X1,X2) e Y2=Φ2(X1,X2). Trata-se de um problema de mudança de variável que alarga para ℜ2 o estudo feito acima. Admitindo que

• a função de densidade conjunta f(x1,x2) do par (X1,X2) existe;

• as funções y1=φ1(x1,x2) e y2=φ2(x1,x2) são contínuas e têm derivadas parciais

j

i

dx

dy, i,j=1,2 contínuas em todos os pontos (xi,xj);

• a transformação inversa, x1=ψ1(y1,y2) e x2=ψ2(y1,y2) tem Jacobiano não nulo

J= ),(

),(

21

21

yy

xx

∂=det

∂∂

2

2

1

2

2

1

1

1

y

x

y

x

y

x

y

x

≠ 0.

Desta maneira a função de densidade conjunta g(y1,y2) do par (Y1,Y2) pode ser achado a partir da função de densidade f (x1,x2) do par (X1,X2) através da fórmula

g(y1,y2)= f [ψ1(y1,y2),ψ2(y1,y2)]|J|, que pode considerar-se a ampliação para ℜ2, da relação

fY(y)=fX(g-1(y))dy

ydg )(1−

.

Esta fórmula pode ainda ser ampliada para o espaço ℜk, com k > 2. Basta para tal considerar os vectores aleatórios X=(X1,X2,...,Xk) e Y=(Y1,Y2,...,Yk) em vez de (X1,X2) e (Y1,Y2).

Page 61: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 61

Valor Esperado ou Esperança Matemática. O conceito de valor esperado teve a sua origem nos jogos de acaso. Vejamos por exemplo o caso de uma lotaria de 10000 bilhetes com os seguintes prémios (em contos):

- um 1º prémio de 5000; - um 2º prémio de 600; - três 3ºs prémios de 300; - dez 4ºs prémios de 100.

Fazendo a soma dos produtos das importâncias que se podem ganhar pelas respectivas probabilidades

5000(10000

1 ) + 600(10000

1 ) + 300(10000

3 ) + 100(10000

10 ) =0.75,

obtemos o valor esperado ou esperança matemática do comprador de um bilhete (no presente caso setecentos e cinquenta escudos). Este é o chamado "valor da sorte". Para a variável aleatória X do tipo discreto, com função de probabilidade,

f (xi)=P(X=xi)>0, i=1,2,... a esperança matemática é definido pela expressão

E(X)=∑i

ii xfx )( ,

quando

∑ ∞<i

ii xfx )(|| .

Segundo a interpretação frequencista do valor esperado, se uma experiência aleatória, em cada realização da qual se observa X, for repetida um grande número de vezes, a média dos valores obtidos estará quase sempre próximo de E(X).

Se X for uma v. a. do tipo contínuo com função densidade de probabilidade f(x), o valor esperado é definido por

E(X)= ∫+∞

∞−

dxxxf )( ,

desde que o integral seja absolutamente convergente. I. e. se

∫+∞

∞−

∞<dxxfx )(|| .

Exemplo. O valor esperado da variável aleatória X, com função de densidade f(x)=e-x, x>0, é

E(X)= ∫ ∫+∞

∞−

+∞

∞−

−= dxxedxxxfx)( =1.

Propriedades As propriedades do valor esperado de uma variável aleatória derivam

directamente das propriedades das séries e dos integrais. Assim teremos

1. E(c)=c, onde c= constante qualquer; 2. E(mX)=mE(X), m=const; 3. E(m1X+m2Y)=m1E(X)+m2E(Y), m1 e m2 constantes.

Se m1=m2=1, segue-se E(X+Y)=E(X)+E(Y);

Page 62: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 62

4. Se E(X) existe e m e c são constantes , então E(mX+c)=mE(X)+c; 5. Se as variáveis aleatórias X e Y são independentes e possuem valor

esperado, então E(XY)=E(X)E(Y).

Se (X1,X2, ...,Xk) é variável aleatória k-dimensional e se Ψ(X1, X2, ..., Xk)é

variável aleatória, o respectivo valor esperado define-se como

E(Ψ(X1, X2, ..., Xk))= ∑Ψ ),...,,(),...,,( 2121 kk xxxfxxx ,

- no caso discreto, entendendo-se o somatório para todo o ponto

(x1,x2,...,xk) para o qual f(x1,x2,...,xk) >0.

No caso contínuo

E(Ψ(X1, X2, ..., Xk))= = ∫ ∫ ∫+∞

∞−

+∞

∞−

+∞

∞−

Ψ kkk dxdxdxxxxfxxx ...),...,,(),...,,(... 212121 ,

desde que se tenha convergência absoluta.

Momentos Para descrever completamente o comportamento probabilístico de uma variável aleatória necessita conhecer-se a função de distribuição F(x) (função probabilidade ou função de densidade). No entanto, em muitos problemas, há conveniência em elaborar uma descrição em termos de indicadores capazes de caracterizar os principais aspectos da distribuição de probabilidade. Os indicadores referidos designam-se por parâmetros. Estudam-se dois tipos de parâmetros: momentos e parâmetros de ordem. O momento de ordem k em relação à origem ou momento ordinário de ordem k (k - inteiro e positivo) de uma variável aleatória X é definido pelo valor esperado

µk'=E(Xk),

se existir. O primeiro momento em relação à origem é precisamente a média ou valor esperado da variável aleatória X,

µ= µ1'=E(X),

também designado por centro da distribuição. O momento de ordem k em relação à média ou momento central de ordem k de uma variável aleatória, ou de uma distribuição, é definido pelo valor esperado

µk = E(X-µ)k,

se existir.

Page 63: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 63

Variância Como caso particular notável de momentos de ordem k tem-se a variância (quando k=2) ,

µ2=E(X-µ)2=E(X-E(X))2 também representada como σ2 ou V(X).

Portanto

σ2 = V(X) = E(X-E(X))2.

Para efeitos de cálculo a variância V(X) costuma ser representada como

V(X) = E(X2)-[E(X)]2.

Enquanto a média corresponde ao centro de gravidade da distribuição a variância corresponde ao momento de inércia do sistema em relação a um eixo perpendicular ao eixo das abcissas que passe pelo centro da gravidade.

A variância pode ser tomado como medida de dispersão. Exemplo. Duas empresas praticam políticas de salários diferentes conforme o

quadro que se segue Empresa 1 150 200 300 450 700 Empresa 2 175 250 325 400 650

Como se pode ver as médias de salários praticados são iguais mas diferem-se pela distância entre os extremos, i. e. as variâncias.

Por vezes é mais conveniente usar como medida de dispersão absoluta o valor da raiz quadrada da variância

σ = + )(XV ,

Esta raiz é conhecida como desvio padrão. Quando o desvio padrão é usado como medida de dispersão absoluta emprega-se

para medir a dispersão relativa o coeficiente de variação

c.v.(X)=µ

σ.

Exemplo. Sejam os valores das variáveis pesos (em gramas) e idade (em anos)

obtidos de uma experiência os seguintes

Peso 50 200 750 1000 Idade 8 25 30 45

Para comparação das variações dos dados é preferível utilizar os coeficientes de variação. Assim teremos c.v.(I)=0,97 e c.v. (P)=1.5 pelo que os pesos tem maior dispersão de valores. Dada uma variável aleatória X com média µ e desvio padrão σ, a variável aleatória

U=(X-µ)/σ

é conhecida como variável aleatória estandardizada ou reduzida. Esta variável tem média igual a zero e variância (e desvio padrão) igual a um.

Page 64: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 64

Propriedades da variância 1. V(c)=0, c= constante; 2. V(mX)=m2V(X), m= const;

Covariância. Seja (X,Y) for uma variável bidimensional. A expressão µrs

'=E(XrYs) define o momento ordinário de ordem r+s em relação à origem, quando ele existe. Por outro lado a expressão

µrs=E(X-E(X))r(Y-E(Y))s, (quando existe) define um momento de ordem r+s em relação à média. Para os momentos de 1ª ordem tem-se sempre,

µ10=0, µ01=0, e para os de 2ª ordem,

µ20 = E(X-E(X))2 = V(X) = σ2x ,

µ02 = E(Y-E(Y))2 = V(Y) = σ2y ,

µ11=E(X-E(X))(Y-E(Y))=C(X,Y).

O momento-produto E(X-E(X))(Y-E(Y)) é conhecido como covariância das variáveis X e Y. Representa-se por C(X,Y). Propriedades da covariância

Se as variáveis X e Y possuem segundos momentos finitos, então

V(X± Y)=V(X)± 2C(X,Y)+V(Y). Se as variáveis X e Y possuem segundos momentos finitos e covariância zero, então

V(X± Y)=V(X) + V(Y). Coeficiente de Correlação

A covariância depende das unidades em que se exprimem as variáveis X e Y. Sendo desejável introduzir um parâmetro para caracterizar a intensidade de ligação entre X e Y, que não dependa dessas unidades, costuma dividir-se a covariância pelo produto dos desvios padrões, obtendo-se assim o chamado coeficiente de correlação entre X e Y,

ρ=)()(

),(

YVXV

YXC=C(X,Y)/σxσy.

Page 65: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 65

Funções Geradoras de Momentos À função

G(t)=E(etX), -∞ < t < ∞ diz-se função geradora de momentos (f. g. m.) da v. a. X, desde que o v. m. exista. Como

etX = 1 + tX + !2

)( 2tX

+ !3

)( 3tX

+ ...,

então a função G(t) admite o seguinte desenvolvimento

G(t) = 1 + tE(X) + !2

2t

E(X2) + !3

3t

E(X3) + ...

=∑∞

=oj

j

j

t XEj

)(! .

Derivando G(t) obteremos

G’(t)= E(X) + tE(X2) + 2

2t

E(X3) + ... ;

G’’(t)= E(X2) + tE(X3) + ... ; ...

G(r)(t) = r

r

dt

Gd = E(Xr) + tE(Xr+1) + ...

=∑∞

=

−rj

jrj

XErj

t)(

)!(,

de onde se vê que no ponto t=0, G´(0) = E(X),

G´´(0) = E(X2), ...

G(r)(0) = E(Xr). Se a função G(t) existe em todos os pontos do intervalo (-h,h), então todos os momentos existem e podem ser expressos em termos de derivada de G(t) no ponto t=0.

Se as f. g. m. das v. a. X e Y existem e são iguais, então X e Y são semelhantes (são identicamente distribuídas).

Se X e Y são identicamente distribuídas então têm a mesma f. g. m. Exemplo. Seja X uma v. a. contínua com a função de densidade

f(x)=

<≤−

<<

21 se , 2

10 ,

xx

xsex

Determine a f. g. m. Solução. A f. g. m.

G(t) = E(etX) = ∫∞

∞−

dxxfetx )( =

= ∫1

0

dxxetx + ∫ −2

1

)2( dxextx

=1

0

)1

(

tx

t

e tx

+ 2

1

)1

(2

−−

tx

t

e

t

etxtx

=2

2)1(

t

et −

.

Page 66: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 66

Desigualdades de Markov e de Chebyshev Como se viu atrás conhecendo a lei de distribuição de uma variável aleatória

facilmente acharemos as probabilidades de todos os acontecimentos. Mas a verdade é que nem sempre se conhece a lei de distribuição de uma v. a.

É assim que algumas desigualdades vêm ajudar-nos a resolver determinados problemas ligados a cálculo de probabilidades.

A seguir vamos realçar algumas mais notáveis. Desigualdade de Markov Teorema. Seja Ψ(X)≥0 uma função (mensurável) da v. a. X. Se existir E[Ψ(X)],

então para qualquer número real c>0,

P[Ψ(X) ≥ c] ≤ c

XE ))((Ψ.

A demonstração deste teorema pode ser encontrada no livro B. Murteira .Probabilidades e Estatística, vol1 ( para o caso contínuo) e no livro F. Galvão de Melo (para o caso discreto). Como caso particular temos, entre outros, o Corolário. Se X é uma v. a. não negativa e se existir E(X), então ∀c>0

P(X ≥ c)≤c

XE )(.

Esta é a versão mais popular da desigualdade de Markov que se obtém substituindo no teorema Ψ(X) por X. Outro caso particular é a Desigualdade de Chebyshev

P|X-µ| ≥ k ≤ 2

2

k

σ,

onde

σ2 = E[(X-µ)2] = E[(X-E(X))2] = V(X) é variância da v. a. X. A desigualdade de Chebyshev é facilmente obtida a partir da desigualdade de Markov substituindo Ψ(X) por (X-µ)2 e c por k2. Substituindo c por k2σ2 teremos

P|X-µ| ≥ kσ ≤ 2

1

k.

Exemplo. Suponha que se sabe que o número de artigos produzido por uma fábrica durante uma semana é uma variável aleatória com valor médio igual a 50.

1. O que se poderá dizer sobre a probabilidade da produção desta semana ser superior a 75?

2. E se for conhecido que a variância da produção semanal é 25, qual será a probabilidade da produção desta semana estar entre 40 e 60?

Solução. Seja X o número de artigos a ser produzido durante a semana. 1. Pela desigualdade de Markov, teremos

Page 67: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 67

P(X>75) ≤ 75

)(XE =

75

50 =

3

2.

2. Pela desigualdade de Chebyshev,

P|X-50| ≤ 10 ≥ 1- 2

2

10

σ = 3/4.

Page 68: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 68

Capítulo III

Distribuições Teóricas de Probabilidade Muitas vezes observações geradas por diferentes experiências estatísticas têm o mesmo tipo de comportamento. Consequentemente as variáveis aleatórias associadas a estas experiências têm a mesma distribuição de probabilidade.

Neste capítulo listaremos as distribuições (funções de distribuição, funções de probabilidade ou funções de densidade) para algumas destas variáveis. Distribuições Discretas Distribuição Uniforme. A mais simples de todas as distribuições de probabilidade é quando a v. a. toma cada um dos seus valores com a mesma probabilidade. Tal distribuição diz-se uniforme

discreta. Assim se a v. a. X toma os valores x1, x2, ..., xk com a mesma probabilidade, então a lei de distribuição de X pode ser descrito pela função

kxXPxf

1 )()( === , x= x1, x2, ..., xk.

Exemplo. Quando uma lâmpada é seleccionada de uma caixa contendo 1 lâmpada de 40 watts, 1de 60 watts, 1 de 75 e 1 de 100 watts , então a probabilidade de seleccionar uma lâmpada qualquer é ¼, i. e. estamos perante uma distribuição de probabilidade uniforme. Teorema. O valor médio e a variância de uma variável com distribuição uniforme é

µ = k

xk

i

i∑=1 e σ2 =

k

xk

i

i∑=

−1

2)( µ

.

Demonstração. Por definição

µ = E(X) = ∑ix

ii xfx )( = ∑=

k

i

i

k

x

1

= k

xk

i

i∑=1 ,

σ2 = V(X) = E((X-µ)2) = ∑ − )()( 2ii xfx µ =

k

xk

i

i∑=

−1

2)( µ

.

Note-se que esta expressão de variância para variáveis X uniformemente distribuídas pode ser representada mais simplificada como

σ2 = k

xk

i

i∑=

−1

2)( µ

= 22)(1

µ−∑ ixk

.

Distribuição de Bernoulli A distribuição de Bernoulli associa-se a uma experiência aleatória que só tem dois resultados possíveis “sucesso” ou “insucesso”. O resultado considera-se “sucesso” se ocorreu o acontecimento esperado e “insucesso” se não ocorreu.

Page 69: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 69

Associando uma variável aleatória X a esta experiência, podemos considerar X=0 se o resultado foi “insucesso” e X=1 se o resultado foi “sucesso”. A distribuição de probabilidades é dada através da seguinte maneira:

P(X=1) = p P(X=0) = 1-p = q,

Onde, 0≤p≤1 é a probabilidade de o resultado ser um “sucesso”.

A função de probabilidade para a distribuição de Bernoulli é f (x) = P(X = x) = px(1-p)1-x.

Uma v. a. com esta lei de distribuição de probabilidades diz-se v. a. do tipo Bernoulli. O valor esperado (valor médio) da v. a. de Bernoulli é

µ = E(X) = 1*P(X=1) + 0*P(X=0) = 1*p + 0*(1-p)=p. Dado que X2 = X, teremos a variância σ2 da v. a. de Bernoulli

σ2 = E(X2)-(E(X))2 = E(X)-(E(X))2

=E(X)[1-E(X)] = p(1-p) = pq. Distribuição Binomial A distribuição Binomial encontra-se na solução de inúmeros problemas e é o modelo probabilístico adequado para descrever os processos em que se realizam repetidas provas de Bernoulli, i. e. sucessões de experiências aleatórias independentes em cada uma das quais se observa a realização ou não de um dado acontecimento . Se a variável X designa o número de “sucessos” em n provas independentes, então X diz-se variável aleatória binomial ou que tem distribuição binomial. Costuma escrever-se X∼B(n,p). A função massa de probabilidade de uma v. a. binomial é dada por

f (x) = P(X = x) = xnxpp

x

n−−

)1( , x =0, 1, 2, ..., n; 0<p<1,

onde )!(!

!

xnx

n

x

n

−=

é o número de diferentes grupos de x objectos que ser

seleccionados de um grupo de n. Quando n=1 estaremos perante a distribuição de Bernoulli, pelo que a

distribuição de Bernoulli pode ser visto como um caso particular da distribuição

Binomial. A função de distribuição correspondente à v. a. de Bernoulli é

F(x) = P(X≤x) = ∑≤

−−

xk

knkpp

k

n)1( , x=0, 1, 2, ..., n.

Para a distribuição Binomial teremos o valor médio

µ = E(X) = ∑=

n

x

xxf0

)( = xnxn

x

ppx

nx

=

∑ )1(

0

= np,

enquanto que a variância σ2 = V(X) =E(X2) –(E(X))2 = Np(1-p) = npq.

Page 70: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 70

Ambas estas fórmulas são facilmente obtidas através da seguinte análise. Uma vez que X representa o número de “sucessos” obtidos em provas independentes com probabilidade p de ocorrência podemos representar

X = ∑=

n

i

iX1

,

onde

=contrário o se 0,

sucesso um foi i tentativaa se 1,X i

Sendo Xi variáveis aleatórias independentes de Bernoulli teremos E(Xi) = P(Xi=1) = p

V(Xi) = E(X 2i )- p2 = p(1-p) = pq.

Logo

µ =E(X) = E(∑=

n

i

iX1

) = )(1∑

=

n

i

iXE = np,

σ2 = V(X) = V(∑=

n

i

iX1

) = ∑=

n

i

iXV1

)( = npq,

A variância da soma é igual à soma das variâncias porque as v. a. Xi são independentes. Exemplo. A probabilidade de um certo tipo de componente sobreviver a um teste de choque é ¾. Ache a probabilidade de que exactamente 2 dos próximos 4 componentes sobrevivam ao teste. Solução. Assumindo que os testes são independentes e que p=3/4 , a probabilidade procurada será

f (2)= 22 )4

1()

4

3(

2

4

=

!2!2

!44

2

4

3 =128

27 .

Distribuição Multinomial

Associa-se a experiências aleatórias que consistem em repetição de provas independentes cujos desfechos, pode ser mais do que dois ( sem ser “sucesso” e insucesso”).

A classificação de produtos fabricados como “leve”, “pesado”, ou “aceitável”, o registo de acidentes de viação num entroncamento se o dia da semana são exemplos de experiências que conduzem a distribuição multinomial.

Em geral se uma experiência resulta em um dos k desfechos possíveis E1, E2, ..., Ek com probabilidades p1, p2, ..., pk, então a distribuição multinomial dará a probabilidade de E1 ocorrer x1 vezes, E2 ocorrer x2 vezes, ... e Ek ocorrer xk vezes em n provas independentes.

A lei de distribuição multinomial de probabilidades é dada pela função de

probabilidade

f (x1, x2, ..., xk)= kx

k

xx

k

pppxxx

n...

!!...!

!21

2121

.

Page 71: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 71

Distribuição Hipergeométrica A experiência associada à distribuição hipergeométrica pode ser descrita da seguinte maneira. Tem-se N bolas numa urna das quais m são brancas e N-m são pretas tira-se sem reposição n bolas. Pretende-se conhecer a probabilidade de que entre elas haja x bolas brancas. Existe uma certa semelhança entre a distribuição Binomial e a distribuição Hipergeométrica. Em ambos os casos trata-se de verificar a ocorrência de k “sucessos” numa experiência de n tentativas.

A diferença está unicamente no facto de que na Distribuição de Binomial as tentativas são independentes (é a tal chamada tiragem com reposição), enquanto que na distribuição Hipergeométrica as tentativas não são independentes (é a chamada tiragem sem reposição). Seja X a v. a. que representa o número de bolas brancas extraídas.

A lei de distribuição para a v. a. é dada pela função de probabilidade

f(x) = P(X=x) =

n

N

xn

mN

x

m

, 0≤x≤n.

Qualquer v. a. X cuja função massa de probabilidade é dada pela equação acima é chamada v. a. hipergeométrica. Para v. a. hipergeométrica a f. d. é dada por

F(x) = P(X≤x) = ∑≤

xk

n

N

kn

mN

k

m

.

O valor médio

µ = E(X) = np=nN

m

e a variância

σ2 = V(X) = npq1−

N

nN

= nN

m(1-

N

m)

1−

N

nN.

Exemplo. Uma comissão de 5 pessoas deve ser escolhida casualmente entre 3 químicos e 5 físicos. Ache a distribuição de probabilidade para o número de químicos na comissão.

Solução. Seja X a v. a. que representa o número de químicos na comissão. Tendo em conta que estamos perante uma extracção sem reposição (não há repetição) então a distribuição associada a esta experiência é hipergeométrica. Assim

Page 72: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 72

P(X=0)=

5

8

5

5

0

3

=56

1; P(X=1)=

5

8

4

5

1

3

=56

15;

P(X=2)=

5

8

3

5

2

3

=56

30; P(X=3)=

5

8

2

5

3

3

=56

10;

Em forma tabular teremos x 0 1 2 3

f (x) 1/56 15/56 30/56 10/56 Note-se que foi utilizada a fórmula

P(X=x) = f(x)=

5

8

5

53

xx.

Distribuição Binomial Negativa Seja uma experiência aleatória de provas independentes idênticas às da Binomial (só são possíveis dois desfechos em cada prova). Se nos interessa repetir a prova até que obtenhamos um determinado número de sucessos estamos perante uma experiência que nos conduz à distribuição binomial negativa. A diferença é que em vez de acharmos a probabilidade da ocorrência de k sucessos (em n provas, sendo n fixo) estamos interessados em achar a probabilidade de x provas haver k sucessos, sem fixar o número de provas. A lei de distribuição de probabilidades é dada por

f (x)= kxkqp

k

x −

1

1, x=k, k+1, k+2,...

Uma v. a. com distribuição binomial negativa tem valor esperado

µ = E(X) = p

kq

e a variância

σ2 = V(X) =2p

kq .

Exemplo. Ache a probabilidade com que uma pessoa arremessando três moedas ao ar conseguirá as três ou três coroas pela segunda vez em cinco lançamentos.

Solução. Usando a distribuição binomial negativa com x=5, k=2, e p=1/4, teremos

Page 73: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 73

P(X=5)= f(5) = 32 )4

3()

4

1(

1

4

=

!3!1

!4.

5

3

4

3 =

256

27.

Considerando na distribuição binomial negativa quando k=1, obteremos um caso especial, que é a Distribuição Geométrica. Se provas repetidas e independentes podem resultar em “sucesso” com probabilidade p e em “insucesso” com probabilidade q =1-p, então a v. a. X, que representa o número de provas até que o 1º “sucesso” ocorre, tem a distribuição da probabilidade dada pela função

f (x)=pqx-1, x= 1, 2, 3,...

O valor esperado µ e a variância σ2 da v. a. X com distribuição geométrica

obtêm-se directamente da distribuição binomial negativa substituindo k=1.

Assim µ =E(X)=q/p e σ2 = V(X)= q/p2.

Exemplo.

Num certo processo de fabrico é sabido que em média 1 em 100 artigos é defeituoso. Qual é a probabilidade de que o quinto artigo inspeccionado será o primeiro defeituoso a ser encontrado.

Solução. Usando a distribuição geométrica teremos

f (5)=P(X=5)=4

100

99

100

1

=0.0096 .

Distribuição de Poisson Associa-se a experiências aleatórias em que nos interessa observar o número de ocorrências de um acontecimento durante um intervalo de tempo. Tais experiências podem ser o número de chamadas telefónicas que ocorrem durante um intervalo de tempo, o número de acidentes num entroncamento , durante um período de tempo, o número de clientes que entram a uma loja durante um dia, o número de enganos na digitação de números telefónicos durante um dia , o número de transístores que falham no seu primeiro dia de uso, ... A v. a. X, com distribuição de Poisson é também chamada variável de Poisson e a distribuição de probabilidades é dada pela função

f (x) = P(X=x) = !x

exλλ−

, x=0, 1, 2, ...

Teorema. O valor médio µ e a variância σ2 da v. a. com distribuição de Poisson são iguais e é igual a λ. Demonstração.

O valor médio, por definição, é

Page 74: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 74

µ = E(X) = ∑∞

=0

)(x

xxf = ∑∞

=

0 !x

x

x

ex

λλ

= ∑∞

=

−−

−1

1

)!1(x

x

xe

λλλ = λλλee

− = λλλ ee− = λ.

Para cálculo da variância σ2 = V(X) = E(X2) – [E(X)]2,

precisamos de conhecer E(X2). Para esse efeito calculamos primeiramente

E[X(X-1)] = ∑∞

=

−0 !

)1(x

x

x

exx

λλ

= ∑∞

=

−−

−2

22

)!2(X

x

xe

λλλ = λ2 .

Dado que E[X(X-1)]= E(X2) - E(X),

concluímos que E(X2)= E[X(X-1)] + E(X) = λ2 + λ.

E assim σ2 = E(X2) – [E(X)]2 = λ2 + λ - λ2 = λ.

Exemplo. Suponha que o número médio de acidentes que ocorrem semanalmente num

troço de uma via é 3. Calcule a probabilidade de que exista pelo menos um acidente esta semana.

Solução. Seja X a v. a. que denota o número de acidentes que ocorrem no troço em

questão durante uma semana. Supondo X uma variável com distribuição de Poisson com λ = 3, a

probabilidade procurada será P(X≥1)= 1-P(X<1)

= 1-P(X=0) = 1-!0

303−e

=1-e-3 ≈ 0.9502 .

Page 75: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 75

Distribuições Contínuas Distribuição uniforme contínua Uma das distribuições contínuas mais simples é a distribuição uniforme contínua. Esta distribuição é caracterizada por uma função de densidade “plana” num intervalo fechado. Seja portanto, X uma v. a. contínua num intervalo fechado [a,b]. Diz-se que X tem distribuição uniforme contínua se a função de densidade é dada por

≤≤−=

outros 0,

bxa se 1

,ab)x(f

De notar que a função de densidade f(x) forma um rectângulo com base b-a e por isso a distribuição uniforme continua é também chamada distribuição rectangular no

intervalo [a,b].

Simbolicamente usa-se a notação X∼U[a,b] ou X∼U(a,b). O valor médio e a variância da distribuição uniforme contínua são

µ=2

ba + e σ2=

( )12

2ab −

As probabilidades para a distribuição uniforme contínua são simples de calcular

devido a simples natureza da sua função de densidade. Exemplo. Um autocarro chega a uma paragem específica em intervalos de 15 minutos a

começar das 7 horas da manhã. Se um passageiro chega à paragem em um momento de tempo uniformemente distribuído entre 7 e 730, ache a probabilidade de ele esperar menos do que 5 minutos pelo autocarro;

Solução. Seja X a v. a. que representa o tempo em minutos a partir das sete em que o

passageiro chega à paragem. É sabido que X é uma v. a. uniformemente distribuída no intervalo (7,730) ou

(0,30), i. e.

<<=

outros 0

30x0 30

1

,

,)x(f

Se o passageiro espera menos do que 5 minutos então quer dizer que ele chega

entre 710 e 715 ou entre 725 e 730. Portanto estaríamos interessados a encontrar a probabilidade

P(10<X<15) + P(25<X<30)=30

1( ∫

15

10

dx + ∫30

25

dx )= 30

55 +=1/3.

Distribuição Normal A mais importante distribuição de probabilidade contínua é em todo o campo estatístico é a distribuição normal. A distribuição normal está associada a muitos fenómenos da natureza, indústria e investigação tais como experiências meteorológicas, pluviosidade, e medições de

Page 76: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 76

artigos fabricados são muitas vezes mais adequadamente explicados com a distribuição normal. A distribuição normal é muitas vezes conhecido como Distribuição de Gauss em honra a Karl Friedriech Gauss (1777-1855). Uma v. a. contínua, que tenha a sua distribuição em forma de um sino é conhecida como variável aleatória normal. µ

A equação matemática para a distribuição de probabilidades depende de dois parâmetros µ e σ - o valor médio e desvio padrão.

A função de densidade de uma variável normal X com valor médio µ e variância σ2 (abreviadamente X ∼ N(µ,σ2)) é dada por

f(x)=2

2

2

)(

2

1 σ

µ

πσ

−−

x

e , -∞ < x < ∞,

onde π=3.1415... e e=2.718..., σ>0. A f. d. da v. a. X ∼ N(µ,σ2) é dada por

F(x)= due

x u

∫∞−

−−

2

2

2

)(

2

1 σ

µ

πσ

= due

x u

∫∞−

−−

2

2

1

2

1 σ

µ

πσ.

O valor médio e a variância de X são respectivamente E(X)=µ e V(X)=σ2.

Se X ∼ N(µ,σ2

), então a variável

Z=σ

µ−X

terá média µZ = E(Z)=0 e variância V(Z)=σ 2Z =1, i. e. Z∼N(0,1). A variável Z diz-se

estandardizada. A função de densidade e função de distribuição da variável estandardizada são respectivamente

ϕ(z)=2

2

1

2

1 z

e−

π

e

duez

zu

∫∞−

=Φ2

2

1

2

1)(

π.

Page 77: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 77

Teorema. Se X ∼ N(µ,σ2), então a

P(a < X < b) = (Φσ

µ−b) - )(

σ

µ−Φ

a.

Demonstração. Por definição

P(a < X < b) = F(b) –F(a). Ora F(b) = P(X ≤ b) =

= )(σ

µ

σ

µ −≤

− bXP = )(

σ

µ−≤

bZP = )(

σ

µ−Φ

b.

Identicamente

F(a)= )(σ

µ−Φ

a.

A vantagem que existe em trabalhar com a função de distribuição

estandardizada Φ(x) em vez da f. d. F(x) é que existem tabelas com valores de Φ(x) já

calculados.

Para a função de densidade ϕ tem-se ϕ(z)=ϕ(-z) (função par) e portanto

P(Z ≤ -a)= ∫−

∞−

a

dzz)(ϕ = ∫∞

−−a

dyy)(ϕ

= ∫∞

a

dyy)(ϕ

= P(Z > a) = 1-P(Z ≤ a), donde se conclui que

Φ(-a) = 1- Φ(a)

Exemplo. Seja X v. a. com valor médio µ=3 e variância σ2 =16, achar a) P(X < 11); b) P(X > -1);

Solução.

a) P(X<11)= P( )4

311

4

3 −<

−X

= P(Z<2) = Φ(2)= 0.9772;

b) P(X > -1) = )4

31

4

3(

−−>

−XP

=P(Z>-1) =1- P(Z≤-1) =1- Φ(-1) = 1 – [1-Φ(1)]

= Φ(1) = 0.8413 .

Page 78: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 78

Teorema de Limite Central. Segundo este teorema a soma (ou a média) de um grande número de variáveis

independentes tem uma distribuição que é aproximadamente normal.

Assim temos o Teorema. Sejam X1, X2, ... v. a. independentes com v. m. µ e var. σ2 . Então

)...

( 21 zn

nXXXP n ≤

−++

σ

µ ≈ )( zZP ≤

para n grande (n→∞) e Z v. a. estandardizada. Pode considerar-se

∞→=

nZ lim nZ ,

onde

n

nXXXZ n

µ−++=

...21

e segundo o teorema teríamos

)...

( 21 zn

nXXXP n ≤

−++

σ

µ →∞→n )(zΦ .

Distribuição Exponencial Uma variável aleatória tem distribuição exponencial de parâmetro λ (λ>09 se a sua função de densidade é dada por

xexf λλ −=)( , x ≥ 0. A f. d. é dada por

≥−

<=

− 0 ,1

0 x,0)(

xexF

O v. m. e a var. são de cálculo simples:

E(X)= ∫∞

0

dxex xλλ =1/λ;

V(X)=E(X2) –[E(X)]2

=2

2

λ-

2

1

λ =

2

1

λ.

Distribuição Gama Uma v. a. tem distribuição Gama de parâmetros α e λ (simbolicamente X∼G(α,λ) ) se a sua função de densidade é dada por

)(

)()(

1

α

λλ αλ

Γ=

−− xexf

x

, x≥0,

onde

Γ(α)= ∫∞

−−

0

1)( dxxe x αλ λλ = ∫∞

−−

0

1dyye y α

é a chamada função Gama. O v. m. e var são

E(X)=λ

α e σ2 =

α.

Reparemos que quando α=1 a distribuição Gama reduz-se à distribuição exponencial com v. m. 1/λ.

Page 79: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 79

Distribuição χ2 (Qui – quadrado) Se Z1, Z2, ..., Zn forem v. a. normais estandardizadas e independentes, então a v. a.

222

21 ... nZZZX +++= ,

diz-se que tem distribuição do Qui- quadrado com n graus de liberdade. Escreve-se X∼ 2

nχ .

O v. m. e a var. são E(X)=n V(X)=2n. Distribuição t. Se Z e X forem v. a. independentes sendo Z variável normal estandardizada e X de distribuição do Qui-quadrado, então a sucessão

n

X

ZT n =

diz-se que tem distribuição t, com n graus de liberdade. A sua função de densidade é

2

12

)1()

2(

)2

1(1

)(+

+

Γ

=n

Tn

x

n

n

nxf

n π

, -∞ < x < ∞.

O v. m. e var de Tn, são E(Tn)=0, n > 1

V(Tn)=2−n

n, n>2.

Distribuição F Se 2

nχ e 2mχ são duas v. a. independentes com distribuição do Qui-quadrado

então a v. a. definida pela relação

m

nF

m

nmn /

/2

2

χ= ,

diz-se que tem uma distribuição F com n e m graus de liberdade. A função de densidade de probabilidade é dada por

2/)(

2/)2(2/2/

)()2

()2

(

2)(

mn

n

mn

nxm

x

mn

mnmn

xf+

+ΓΓ

=, x>0.

Page 80: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 80

Capítulo IV

Inferência Estatística

Teoria da amostragem A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras delas extraídas. É útil para a estimação de grandezas desconhecidas da população (como a sua média , variância, etc.), frequentemente denominadas parâmetros populacionais ou simplesmente parâmetros, através de conhecimento das grandezas correspondentes das amostras (a média amostral, variância, etc.), muitas vezes denominadas estatísticas amostrais ou abreviadamente estatísticas. Uma estatística é uma variável aleatória ou vector aleatório T= T(X1, X2, ..., Xn) função da amostra (X1, X2, ..., Xn) que não envolve qualquer parâmetro desconhecido.

Exemplo. Se (X1, X2, ..., Xn) é amostra casual de população de Bernoulli, a estatística ΣXi

indica o número de “sucessos” na amostra e a estatística ΣXi/n a proporção de “sucessos” na amostra.

Exemplo. Se (X1, X2, ..., Xn) é uma amostra casual de população de Poisson, a estatística

ΣXi pode indicar o número total de defeitos (por exemplo) num conjunto de peças que constituem a mostra e a estatística ΣXi/n o número médio de defeitos por peça.

Exemplo. No caso em que Xi~Ν(µ,σ2), com parâmetros desconhecidos, são exemplos de

estatísticas

∑ iX ,n

XX

i∑= , ∑ 2

iX , n

X i∑ 2

, (∑ ∑ ), 2ii XX , ...

Não são estatísticas as funções

σµ∑ − )( iX

, σ

∑ iX, ...,

porque dependem dos parâmetros. A teoria de amostragem é também útil para determinar se as diferenças

observadas entre duas amostras são realmente devidas a uma variação casual ou se são verdadeiramente significativas. Estas surgem, por exemplo ao se tratar um novo soro para ser empregado no tratamento de uma doença, ou ao se decidir se um processo de produção é melhor do que outro. As respostas a estas questões implicam testes de

significância e hipóteses que são importantes na teoria das decisões. Em geral, um estudo de inferências, feito a respeito de uma população, mediante

a utilização de amostras delas extraídas, juntamente com as indicações da precisão dessas inferências, usando-se a teoria das probabilidades é denominado inferência

estatística. Amostra aleatória A fim de que as conclusões da teoria da amostragem e da inferência estatística sejam válidas, as amostras devem ser escolhidas de modo a serem representativas da população a que se reportam as conclusões. Uma das maneiras segundo as quais se pode obter uma amostra representativa é pelo processo denominado amostragem aleatória, de acordo com o qual cada elemento de uma população tem a mesma probabilidade de ser incluído na amostra.

Page 81: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 81

Uma técnica para obtenção de uma amostra aleatória consiste em atribuir um número a cada elemento da população e utilizar uma tabela de números aleatórios para a escolha da amostra. Amostras com e sem reposição A amostra em que cada elemento de uma população pode ser escolhido mais de uma vez é denominada amostra com reposição, enquanto que se cada elemento não pode ser escolhido mais de uma vez, é denominada amostra sem reposição.

As populações podem ser finitas ou infinitas. Uma população finita, cuja amostragem é feita com reposição pode ser

teoricamente considerada como infinita, visto que qualquer número de amostras pode extraído sem esgotar a população. Para fins práticos, a amostragem de uma população finita muito grande pode ser considerada como a de uma população infinita.

Distribuições amostrais Considerem-se todas amostras possíveis de tamanho n que podem ser retiradas de uma população dada (com ou sem reposição). Para cada amostra pode-se calcular a média, a variância, o desvio padrão, etc., que varia de amostra para amostra. Desse modo obtém-se uma distribuição de grandeza que é a distribuição amostral. Se a grandeza estatística em estudo for a média teremos a distribuição amostral da média. Analogamente podemos ter distribuição amostral da variância, da mediana, das proporções, etc. Para cada distribuição amostral pode-se calcular a média, o desvio padrão, etc. Pode-se então falar da média e do desvio padrão da distribuição amostral das médias etc. No caso paramétrico, i. e. quando se conhece a expressão f(x|θ) da função densidade (ou probabilidade)em termos do parâmetro, se (X1, X2, ..., Xn) for uma amostra casual de população com função probabilidade ou densidade f(x|θ), a distribuição por amostragem da estatística T(X1, X2, ..., Xn) pode definir-se a partir da função distribuição conjunta Πf(xi|θ). Assim a função de distribuição de T seja G(t|θ) é definida por

G(t|θ)=Pθ(T≤t)=tA

∫ ∫... ∏ ii dxxf )|( ϑ ,

caso T seja uma variável aleatória contínua e por G(t|θ)=Pθ(T≤t)=∑∏

tA

ixf )|( θ ,

caso T seja variável aleatória discreta. Em qualquer dos casos At = (x1, x2, ..., xn): T(x1, x2, ..., xn) ≤ t,

i. e. At é o conjunto de pontos, (x1, x2, ..., xn)∈ℜn, em que se verifica a igualdade T ≤ t. No caso não paramétrico a função de distribuição de T é dada por

G(t)=tA

∫ ∫... ∏=

n

i

ixdF1

)( .

Distribuição amostral das médias Teorema. Se (X1, X2, ..., Xn) é uma amostra casual de população para a qual existem os momentos de 1ª e 2ª ordem, então tem-se

µ=)(XE e n

XV2

)(σ

= .

Page 82: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 82

Demonstração. Se existir momento de 1ª ordem ( ∑ iXn

1) teremos

= ∑=

n

i

iXn

EXE1

)( = ∑=

n

i

iXEn 1

)(1

= µµµµ,

e se existir momento de 2ª ordem ( ∑ − 2)(1

µiXn

) teremos

∑∑==

==n

i

i

n

i

i XVn

Xn

VXV1

21

)(1

)1

()(

= )(1

2XnV

n

=n

2σ.

Aqui usou-se o facto de as variáveis serem independentes e identicamente distribuídas (i.i.d.)- as variâncias são iguais a σ2. Admita-se que todas amostras possíveis de tamanho n são retiradas, sem reposição de uma população finita de tamanho N > n. Se a média e o desvio padrão da distribuição amostral das médias forem designadas por

Xµ e

Xσ , e os valores

correspondentes da população o forem µ e σ, respectivamente então:

µµ =X

e 1−

−=

N

nN

nX

σσ . (*)

Se a população for infinita, ou se a amostragem for tomada com reposição, os resultados serão

µµ =X

e nX

σσ = . (**)

Para grandes valores de n (n ≥ 30), a distribuição amostral das médias é aproximadamente normal, com média

Xµ e desvio padrão

Xσ , independentemente da

população (desde a variância e a média da população sejam finitas e o tamanho destas seja no mínimo, o dobro do da amostra. Esse resultado, para uma população infinita é um caso especial do teorema do limite central, que mostra que a precisão da aproximação melhora quando n cresce. Diz-se então que a distribuição amostral é assintoticamente normal. Seja então (X1, X2, ..., Xn) uma amostra casual e considere-se a estatística T=ΣXi. Tem-se

µnXE i =∑ , 2σnXV i =∑ ,

logo se for admitido que 0 < σ2 < ∞, a aplicação do teorema do limite central conduz ao seguinte resultado

)1,0(~ Nn

nX i

σ

µ∑ −.

Dividindo o numerador do primeiro membro por n tem-se

)1,0(~ Nn

X

σ

µ−.

Assim desde que a população tenha variância finita, a média amostral tem distribuição assintótica Normal com média µ e variância σ2/n.

Page 83: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 83

Distribuição amostral das proporções Admita-se que uma população seja infinita e que a probabilidade da ocorrência

de um acontecimento (“sucesso”) é p. Considerem-se todas as amostras possíveis de tamanho n extraídas desta

população e, para cada amostra determinemos a proporção P de sucessos. Obtém-se então uma distribuição amostral das proporções, cuja média µP e

desvio padrão σP são dados por:

µP= p e n

pp

n

pqP

)1( −==σ , (***)

o que se pode obter de (**) fazendo µ = p e pq=σ .

Para grandes valores de n (n≥30), a distribuição amostral é aproximadamente normal.

As equações (***) são também válidas para uma população finita, cuja amostragem é tomada com reposição. Para populações finitas, cuja amostragem é obtida

sem reposição, estas equações são substituídas pelas equações (*) com µ=p e pq=σ .

Distribuição amostral das diferenças e das somas

Admita-se que são dadas duas populações. Para cada amostra de tamanho n1, retirada da primeira população, calcula-se uma grandeza estatística T1. Isto produz uma distribuição amostral dessa grandeza estatística, cuja média e desvio padrão são representados por

1Tµ e 1Tσ , respectivamente.

Analogamente para cada amostra de tamanho n2, retirada da Segunda população, calcula-se uma grandeza estatística T2.

Obtém-se uma distribuição amostral dessa grandeza T2, cuja média e desvio padrão representam-se por

2Tµ e 2Tσ . De todas as combinações possíveis dessas

amostras das duas populações pode-se obter uma distribuição das diferenças T1 e T2, denominada distribuição amostral das diferenças das estatísticas.

A média e o desvio padrão dessa distribuição amostral são dados por

2121 TTTT µµµ −=− e 22

2121 tTTT σσσ +=− ,

desde que as amostras escolhidas sejam independentes uma da outra.

Se T1 e T2 forem as médias amostrais 1X e 2X , então a distribuição amostral das diferenças das médias, para populações infinitas é dada por

2121 XXXXµµµ −=

− e 22

212 XXXXσσσ +=

Page 84: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 84

=2

22

1

21

nn

σσ+ .

Podem ser obtidos resultados idênticos para populações finitas, cuja amostragem é feita sem reposição, mediante o emprego das equações (*).

Resultados correspondentes podem ser obtidos para as distribuições amostrais das diferenças de proporções de duas populações distribuídas binomialmente com os parâmetros p1, q1, e p2, q2 respectivamente.

Nesse caso teremos

2121ppPP −=−µ e

2

22

1

1121 n

qp

n

qpPP +=−σ .

Se n1 e n2 são grandes (≥30), as distribuições amostrais das diferenças das médias ou das proporções têm, aproximadamente distribuição normal.

Teoria Estatística de Estimação Estimação de Parâmetros

Do ponto de vista prático é frequentemente mais importante poder deduzir informações relativas a uma população, mediante a utilização de amostras dela extraídas. Esses problemas dizem respeito à inferência estatística.

Um problema importante da inferência estatística é a estimação dos parâmetros

populacionais ( tais como a média, a variância, ...), deduzidos da estatística amostral correspondente. Estimadores não tendenciosos Se a média da distribuição amostral de uma estatística for igual ao parâmetro populacional correspondente i. e. se

θ=)(TE , a estatística T será denominada estimador não tendencioso ou estimador não enviesado do parâmetro. Se isso não ocorrer diz-se que T é um estimador tendencioso ou enviesado do parâmetro. Os valores correspondentes desses estimadores são denominados estimativas.

Exemplo. A média da distribuição amostral das médias X

µ é igual a µ, i. e.

µ=)(XE , por isso a média amostral é um estimador não tendencioso (não enviesado)

da média populacional µ. Exemplo. A média da distribuição amostral das variâncias

22 1)( σ

n

nsE

−= =

n

22 σ

σ − ,

em que σ2 é a variância populacional e n o tamanho da amostra. Por isso a variância amostral s2 é um estimador tendencioso da variância populacional σ2.

Para corrigir o enviesamento em vez de variância amostral

Page 85: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 85

∑=

−=n

i

i xxn

s1

22 )(1

considera-se a variância corrigida

∑=

−−

=n

i

i xxn

s1

22 )(1

1' .

Assim

22

1' s

n

ns

−=

e

222 1

1)(

1)'( σ

n

n

n

nsE

n

nsE

−=

−=

=σ2. Diremos então que s’2 é um estimador não tendencioso da variância. Estimadores eficientes Se as distribuições amostrais de duas estatísticas têm a mesma média , a estatística de menor variância é denominada estimador eficiente da média, enquanto a outra é denominada estimador ineficiente. Considerando-se todas as estatísticas possíveis, cujas distribuições amostrais têm a mesma média, a de menor variância é denominada a mais eficiente ou o melhor

estimador desta média. Exemplo. As distribuições amostrais da média e da mediana têm ambas a mesma média , que é a média populacional.

µ=)(XE , µ=)~

(XE . Entretanto

nXV

2

)(σ

=

e

nXV

2)

~(

2πσ= .

Resulta que X é estimador eficiente da média. De todas as estimativas estatísticas da média populacional a média amostral é a

que dá melhor estimativa. Pode–se demonstrar isto através do método de máxima verosimilhança de construção de estimadores. Na prática os estimadores não eficientes são usados devido a facilidade com que alguns deles podem ser obtidos.

Intervalos e regiões de Confiança A estimativa de um parâmetro populacional, dada por um número único é denominada estimativa por ponto ou estimativa pontual. Em muitas situações é preferível a estimação por intervalos (ou regiões): em vez

de propor uma estimativa isolada θ faz-se acompanhar esta de alguma medida de erro

θ ε± , para significar que o verdadeiro valor do parâmetro está muito provavelmente

entre εθ −ˆ e εθ +ˆ .

Page 86: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 86

Exemplo. Dizendo-se que uma distância tem por medida 5,28 m , está se apresentando uma estimativa por ponto. Se por outro lado se disser que a distância mede 5,28 ± 0,03 está-se apresentando uma estimativa por intervalo. Estimativas do intervalo de confiança dos parâmetros populacionais Sejam µT e σT a média e o desvio padrão da distribuição amostral de uma estatística T. Se a distribuição amostral de T é aproximadamente Normal pode-se esperar encontrar uma estatística amostral real T, situada nos intervalos (µT - σT, µT + σT);

(µT - 2σT, µT + 2σT); (µT - 3σT, µT + 3σT);

aproximadamente em 68.27; 95.45 e 99.73 % de vezes respectivamente. Estes intervalos são denominados Intervalos de Confiança de 68.27%, 95.45% e 99.73% para a avaliação de µT. Os números extremos desses intervalos são denominados limites de confiança de 68.27; 95.45 e 99.73 %. De modo semelhante T ± 1.96σT e T ± 2,58σT são limites de confiança de 95% e 99% para T.

A percentagem de confiança é frequentemente denominada nível de confiança. Costuma representar-se por (1-α)100% .

Os números 1.96; 2.58, etc, dos limites de confiança são chamados valores críticos ou coeficientes de confiança e são representados por zc ou z1-α/2. Os valores de zc podem ser encontrados nas tabelas de distribuição Normal.

De um modo geral o intervalo de confiança para uma estatística determina-se pela fórmula

T ± z1-α/2σT Intervalo de confiança para médias

Se a estatística T = X teremos o intervalo de confiança dado pela fórmula

X ± z1-α/2n

σ

Analogamente podemos deduzir o intervalo de confiança para proporção, diferença das médias, desvio padrão ...

Page 87: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 87

Teoria da decisão estatística Decisões acerca das populações baseadas nas informações das amostras são chamadas decisões estatísticas. Por exemplo pode-se desejar decidir com base em dados amostrais, se um novo soro é realmente eficaz na cura de uma certa doença, se uma certa moeda é viciada ou não, etc., etc. Ao se tentar chegar às decisões estatísticas, é conveniente formular-se hipóteses ou conjecturas acerca das populações interessadas. Essas suposições que podem ser verdadeiras ou não, são denominadas hipóteses estatísticas e são , em geral, afirmações acerca das distribuições de probabilidade das populações. Em alguns casos formula-se uma hipótese com o único intuito de rejeitá-la ou invalidá-la. Se se deseja decidir que se uma moeda é ou não viciada, formula-se a hipótese de que ela não o seja. Se se deseja decidir se um processo é melhor do que outro, formula-se a hipótese de que não há diferença entre eles .

Essas hipóteses são denominadas Hipóteses nulas e representamo-las por H0. Qualquer outra hipótese que difira de H0 é denominada hipótese alternativa e

representamo-la por H1. Exemplo. H0: uma moeda é honesta (p=0.5) H1: uma moeda não é honesta (p=0.3, p<0.5, p>0.5, ...)

Teste de hipóteses e significância Os processos que permitem decidir se se aceitam ou rejeitam as hipóteses são denominados testes de hipóteses ou de significância ou ainda regras de decisão. Nos testes de hipóteses confrontam-se sempre duas hipóteses H0 vs H1. Exemplo. Para o caso de uma moeda podemos querer testar as hipóteses 1) H0: p=0.5 vs H1: p=0.7; ou 2) H0: p=0.5 vs H1: p>0.5. Erros Ao se tomar uma decisão comete-se erros. Há casos em que uma hipótese é rejeitada quando deveria ser aceite e há casos em que é aceite quando deveria ser rejeitada. No primeiro caso diz-se que se cometeu um erro do tipo I (ou do 1º tipo). No segundo caso diz-se que se cometeu um erro do tipo II (ou do 2º tipo). A probabilidade máxima com que se está disposto a correr o risco de cometer um erro do tipo I é chamada nível de significância do teste. Esta probabilidade é representada frequentemente por ∝ e é geralmente especificada antes da extracção de quaisquer amostras, de modo a que os resultados obtidos não influenciem a escolha. Na prática é usual adoptar os níveis de significância 0.05 ou 0.01, embora possam ser usados outros valores. Se for escolhido um nível de significância 0.05 ou 5% no planeamento de um teste de hipótese, há então 5 chances em 100, da hipótese ser rejeitada quando deveria ser aceite, i. e. há uma confiança de cerca de 95% de que se tome uma decisão acertada. Neste caso diz-se que a hipótese é rejeitada ao nível de significância de 0.05, o que significa que a probabilidade de erro é de 0,05.

Page 88: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 88

Testes com a distribuição Normal Testes bilaterais. Região crítica. Admita-se que a distribuição amostral de uma certa estatística T, sob uma determinada hipótese, é normal com média µT e desvio padrão σT. A variável fulcral

T

TTz

σ

µ−= ,

tem distribuição Normal com média 0 e variância 1. Quando o teste consiste em confrontar duas hipóteses H0 vs H1 tais que

H0 : θ= θ0 H1 : θ ≠ θ0

Diremos que temos um teste bilateral. Neste caso o nível de significância α é tomado composto de duas partes α/2, ficando uma de cada lado como indica a figura abaixo Região crítica (1-α) α/2 α/2 -zc zc A região sob a curva de frequência de área igual α é denominada região crítica ou região de rejeição.

Para definição da região crítica teremos que determinar o ponto que se encontra no limiar (na fronteira) entre as zonas de rejeição e de aceitação, chamado ponto crítico zc. Para um nível de significância de 0,05 este ponto é igual a 1,96, por isso a região de rejeição de uma hipótese nula H0 a um nível de significância 5% num teste bilateral é toda a zona que fica fora do intervalo (-1.96, 1.96). Exemplo 1. Para testar a hipótese de que uma moeda é honesta, adoptou-se a seguinte regra de decisão:

Aceitar a hipótese se o número de caras numa única amostra de 100 lances, estiver entre 40 e 60 inclusive;

Rejeitá-la no caso contrário. a) Determinar a probabilidade de ser rejeitada a hipótese, quando ela for realmente

correcta; b) Interpretar graficamente a regra de decisão e o resultado obtido em a). c) Que conclusões tiraria do facto de uma amostra de 100 lances apresentar 53 caras?

60 caras?

Solução. Seja X a v. a. que representa o número de caras em 100 lances de uma moeda honesta. Teremos para X o valor médio µ = np = 100*1/2 = 50 e desvio padrão

npq=σ = 5.

Por isso

)6040( ≤≤ XP = )5

5060

5

50

5

5040(

−≤

−≤

− XP

=P(-2 ≤ Z ≤ 2) = Φ(2)- Φ(-2) = Φ(2)-[1-Φ(2)]

Page 89: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 89

= 2Φ(2)-1 =2*0.9772 –1 = 0,9544 a) Na base dos cálculos efectuados, a probabilidade de rejeitar a hipótese, quando ela é

realmente correcta é 1-0,9544 = 0,0456.

b)

Região de

Aceitação

Região de rejeição Região de rejeição

-2 2

(40 caras) (60 caras)

A regra de decisão será: aceitar a hipótese quando o valor de Z variar entre –2 e

2 (inclusive) e rejeitá-la no caso contrário. c) De acordo com as regras de decisão deve-se aceitar a hipótese de que a moeda é

honesta em ambos os casos.

Exemplo 2. Planear uma regra de decisão para testar a hipótese de uma moeda ser honesta, quando é considerada uma amostra de 64 lances e é adoptado o nível de significância: a) 0,05; b) 0,01.

Solução. Sendo X a v. a. que representa o número de caras em 64 lances, teremos

para X o v. m. µ = np= 64*1/2=32 e desvio padrão σ= 41*64=npq = 4 .

A var. fulcral será Z=4

32−X.

a) A um nível de significância de 5% aceita-se a hipótese se z estiver no intervalo (-1.96 , 1.96) e rejeita-se caso contrário. Assim é de aceitar a hipótese se

96.14

3296.1 <

−<−

X,

i. e. se 32 - 4*1.96 < X < 32 + 4*1.96

ou seja 24.16 < X < 39.84 e rejeitar caso contrário. b) Se o nível de significância for 0.01 a zona de aceitação tem os pontos z=-2.58 e

z=2.58 como limites. Neste caso

58.24

3258.2 <

−<−

X

ou 21,68 < X < 42,32. Em consequência teríamos como resultado do teste de hipótese: aceitar a hipótese se o número de caras variar entre 22 e 42; rejeitar no caso contrário. Teste unilateral Nesse tipo de teste confrontam as hipóteses

H0 :θ= θ0 vs H1: θ > θ0 ( ou vs H1: θ < θ0 ).

Page 90: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 90

Para este caso a zona de rejeição não é decomposta em duas partes, tomando-se somente um extremo direito ou esquerdo dependentemente do teste em estudo. Se nos interessa testar valores do parâmetro maiores do que o inicial tomamos o extremo direito. (1-α)

α Se nos interessa testar os valores do parâmetro inferiores ao dado consideramos o extremo esquerdo

(1-α) α

Exemplo 3. O fabricante de uma droga medicinal reivindicou que ela era 90% eficaz na cura de uma certa alergia, num período de 8 horas. Numa amostra de 200 pessoas que tinham alergia, a droga curou 160 pessoas. Determinar se a pretensão do fabricante é legítima.

Solução. Seja p a probabilidade de obter-se a cura com o uso da droga. Para a realização do teste de hipóteses devemos duas hipóteses

H0: p=0.9 (se a pretensão é correcta) ; H1: p<0.9 (se for falsa). Nestas condições teremos um teste unilateral esquerdo. Se o nível de

significância a considerar for de 0.05 o valor de z crítico será o ponto z : Φ(z)=0.05

e este valor é z=-1,645 .

Se X o número de doentes curados. Em 200 doentes teremos para X o v. m. µ = 200*0.9 =180

e

σ= 1.0*9.0*200 = 4.23.

Assim Z=23.4

180−X. Para x=160 teremos z= (160-180)/4.23 =-4.73 < -1.645. Por

isso a hipótese nula H0 é de rejeitar a esse nível de significância. Portanto a pretensão não é legítima a esse nível de significância.

Page 91: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 91

Testes não paramétricos

Teste do Qui-quadrado Frequências observadas e teóricas. Como se sabe os resultados obtidos por meio de amostras nem sempre concordam exactamente com os teóricos esperados, de acordo com as regras de probabilidade. Por exemplo, embora considerações teóricas permitam esperar 50 caras e coroas, quando uma moeda honesta for lançada 100 vezes, é raro que esses resultados sejam obtidos exactamente. Considere-se uma amostra casual de n elementos sobre os quais se observa uma característica qualitativa ou quantitativa.

Suponha-se que, observou-se que um conjunto de eventos possíveis A1, A2, ..., Ak ocorreram com as frequências n1, n2, ..., nk denominadas frequências observadas, e que, de acordo com as regras de probabilidade, esperar-se-ia que elas ocorressem com as frequências e1, e2, ..., ek denominadas frequências esperadas ou teóricas.

Evento A1 A2 ... Ak Frequência observada

n1 n2 ... nk

Frequência esperada

e1 e2 ... ek

Deseja-se, frequentemente saber se as frequências observadas diferem, de modo

significativo, das esperadas. Para medir a discrepância entre as frequências observadas e esperadas considera

–se uma estatística

χ2 = ∑=

−=

−++

−+

− k

i i

ii

k

kk

e

en

e

en

e

en

e

en

1

22

2

222

1

211 )()()()(

K . 10

Quando a frequência total é n tem-se

∑ in =∑ ie =n. (*)

Uma expressão equivalente para χ2 é

χ2 =∑ − ne

n

i

i

2

.

Quando χ2 = 0, as frequências teóricas e observadas concordam exactamente, enquanto que quando χ2 > 0, isso não se dá. Quanto maior for o valor de χ2, maior será a discrepância entre as frequências observadas e esperadas. A distribuição de χ2 será, com muita aproximação uma de Qui-quadrado com k-1 graus de liberdade, se as frequências forem pelo menos iguais a 5, melhorando a aproximação para valores maiores. O número de graus de liberdade é igual a

a) k-1, se as frequências esperadas puderem ser calculadas, sem que se façam estimativas dos parâmetros populacionais, a partir de estatísticas amostrais. Subtrai-se 1 ao k por causa da condição de restrição (*) que estabelece que, sendo conhecidas (k-1) frequências esperadas a remanescente pode ser determinada.

10 χ2 – leia-se Qui-quadrado.

Page 92: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 92

b) k-1-m, se as frequências esperadas somente podem ser calculadas mediante a estimativa de m parâmetros populacionais, a partir de estatísticas amostrais.

Testes de significância Na prática as frequências esperadas são calculadas com base numa base Ho. O teste do Qui-quadrado consiste no seguinte:

Se sob essa hipótese, o valor de χ2, calculado for maior do que alguns valores críticos ( tais como χ2

0,95 ou χ20,99) concluir-se-á que as frequências observadas diferem

de modo significativo , das esperadas e rejeita-se Ho ao nível de significância correspondente. No caso contrário dever-se-á aceitá-la ou, pelo menos, não a rejeitar.

Exemplo. Em 200 lances de uma moeda, observaram-se 115 caras e 85 coroas. Testar a hipótese da moeda ser honesta, adoptados os níveis de significância

a) 5 % ; b) 1 %;

Solução.As frequências observadas são n1= 115, n2= 85. As frequências

esperadas são e1=200*1/2=100, e2=200*1/2=100. Por isso

χ2=100

)10085(

100

)100115()()( 22

2

222

1

211 −

+−

=−

+−

e

en

e

en =4,50.

Como o número de categorias ou classes (caras, coroas) é k=2, ν=k-1=1 será o grau de liberdade. Assim estamos perante uma χ2

(1). a) O valor crítico χ2

0,95 para um grau de liberdade é 3,84. Visto que 4,5 > 3,84 então rejeita-se a hipótese da moeda ser honesta, ao nível de significância de 0.05.

b) O valor crítico de χ20,99 para um grau de liberdade é 6,63. Ora 4,50 < 6.63

por isso não se pode rejeitar a hipótese da moeda ser honesta ao nível de significância de 1%.

Conclui-se que os resultados observados são significativos e que a moeda é provavelmente viciada. Tabelas de Contingência A tabela na qual as frequências observadas ocupam uma única linha, é denominada tabela de simples entrada ou de 1xk. São possíveis tabelas de dupla entrada ou de hxk. Estas tabelas são denominadas tabelas de contingência. Numa tabela de contingência hxk a cada frequência observada corresponde uma frequência esperada ou teórica, que é calculada, para as mesmas hipóteses, de acordo com as regras de probabilidade. A frequência total de cada linha ou coluna é denominada frequência marginal. Para investigar a concordância entre as frequências observadas e esperadas, calcula-se a estatística

∑−

=ji ij

ijij

e

en

,

22 )(

χ ,

em que é considerada a soma de todas as células da tabela de contingência e os símbolos nij e eij representam as frequências observadas e esperadas respectivamente da célula de ordem i j.

Page 93: Material de Apoio - w3.ualg.ptw3.ualg.pt/~fbarros/Estatística (Biomédicas)/Material Apoio Proob... · Polígonos de frequência. Histogramas. ..... 9 Medidas de Localização e

Probabilidades e Estatística- Material de apoio.

Prof. Filipe Barros. Gab. 2.5. Departamento de Matemática.FCT. UAlg 93

A estatística acima tem uma distribuição amostral muito próxima de χ2, desde que as frequências esperadas não sejam muito pequenas (pelo menos 5, melhorando a aproximação para valores maiores). O número de graus de liberdade dessa distribuição é dado por:

a) (h-1)(k-1) –se as frequências esperadas podem ser calculadas sem se ter que estimar qualquer parâmetro populacional por meio de estatísticas amostrais.

b) (h-1)(k-1-m) se se tiver que fazer estimação de m parâmetros populacionais para obtenção das frequências esperadas.

As frequências esperadas encontram-se sujeitas a uma hipótese particular H0.