18
Existe, com 95% de Confiança, relação entre o “Ano de Nascimento” e o “Ano de Confirmação”? Através dos dados obtidos na seguinte tabela num artigo sobre a BSE em Portugal, foi possível elaborar um estudo estatístico e comprovar se existe ou não relação entre as diferentes variáveis. Tabela 1 Distribuição dos animais positivos (2002-2009) por ano de nascimento e ano de confirmação laboratorial

Análise (SPSS)

Embed Size (px)

Citation preview

Page 1: Análise (SPSS)

Existe, com 95% de Confiança, relação entre o “Ano de

Nascimento” e o “Ano de Confirmação”?

Através dos dados obtidos na seguinte tabela num artigo sobre a BSE em

Portugal, foi possível elaborar um estudo estatístico e comprovar se existe ou não

relação entre as diferentes variáveis.

Tabela 1 Distribuição dos animais positivos (2002-2009) por ano de nascimento e ano de confirmação laboratorial

Page 2: Análise (SPSS)

Verificação da Normalidade da variável contínua “Ano de Nascimento”

Dos 435 casos analisados no estudo desta variável, foram apenas incluídos os

casos cujo ano de nascimento compreende o período entre 1984 e 2002. Destes 435

casos, 435 cumpriram os requisitos, isto é, foram considerados válidos.

Tabela 2 - Análise descritiva da variável "Ano de Nascimento"

Descriptives

Statistic Std. Error

Ano de Nascimento Mean 1995,23 ,113

95% Confidence Interval

for Mean

Lower Bound 1995,00

Upper Bound 1995,45

5% Trimmed Mean 1995,32

Median 1995,00

Variance 5,562

Std. Deviation 2,358

Minimum 1984

Maximum 2002

Range 18

Interquartile Range 3

Skewness -,678 ,117

Kurtosis 1,980 ,234

A partir da tabela acima, podemos concluir que a amostra tem como Ano de

Nascimento médio 1995,23, com um desvio padrão de 2,358 anos e um ano mínimo e

máximo de 1984 e 2002, respectivamente.

Com 95% de confiança, pode-se inferir que a população de gado com BSE em

Portugal nasceu, em média, entre 1995 e 1995,45. Como os dados da variável “Ano de

Nascimento” estão aproximados à unidade (apesar desta ser uma variável contínua), a

mediana irá ter um valor absoluto (1995). A amplitude do intervalo de 95% de

confiança é de 0,45 anos e tem sempre 1995 como valor aproximado, pelo que se

pode considerar que a mediana pertence ao intervalo de 95% de confiança. Conclui-se,

assim, que esta se encontra próxima do valor médio da amostra, minimizando o erro

de viés e aumentando a exactidão do estudo.

Page 3: Análise (SPSS)

Em relação à normalidade da variável “Ano de Nascimento”, esta pode ser

constatada nos seguintes gráficos (Ilustrações 1, 2 e 3, respectivamente):

Ilustração 1 - Histograma relativo à variável "Ano de Nascimento"

Ilustração 2 - P-P Plot da variável "Ano de Nascimento"

Page 4: Análise (SPSS)

Ilustração 3 - P-P Plot da variável "Ano de Nascimento" (1)

A normalidade da variável é, sobretudo, comprovada pelos testes P-P Plot, que

mostram claramente uma tendência em seguir uma distribuição normal, tendo

variações estatisticamente não significativas.

Page 5: Análise (SPSS)

Verificação da Normalidade da variável contínua “Ano de

Confirmação”

Dos 435 casos analisados, foram apenas incluídos no estudo desta variável os

que compreendiam o Ano de Confirmação entre 2002 e 2009. Destes 435 casos, 435

cumpriram os requisitos, sendo, portanto, considerados válidos. Da análise inicial da

variável, obteve-se a tabela 2:

Tabela 3 - Análise descritiva da variável "Ano de Confirmação"

Descriptives

Statistic Std. Error

Ano de Confirmação Mean 2003,92 ,082

95% Confidence Interval

for Mean

Lower Bound 2003,76

Upper Bound 2004,08

5% Trimmed Mean 2003,78

Median 2003,00

Variance 2,929

Std. Deviation 1,711

Minimum 2002

Maximum 2009

Range 7

Interquartile Range 2

Skewness 1,080 ,117

Kurtosis ,670 ,234

A partir da tabela acima, podemos concluir que a amostra tem como Ano de

Confirmação médio 2003,92, com um desvio padrão de 1,711 anos e um ano mínimo e

máximo de 2002 e 2009, respectivamente.

Com 95% de confiança, pode-se inferir que a população de gado com BSE em

Portugal foi confirmada/detectada, em média, entre 2003,76 e 2004,08, com uma

amplitude de 0,32 anos. A mediana (2003) não pertence ao intervalo de 95% de

confiança, logo, encontra-se afastada do valor médio da amostra, podendo, por isso,

aumentar o erro de viés e diminuir a exactidão do estudo.

Page 6: Análise (SPSS)

Podemos admitir que a variável tende a seguir uma distribuição normal, já que a

curva de Gauss que se apresenta na ilustração se encontra relativamente bem

enquadrada no histograma.

Ilustração 4- Histograma relativo à variável "Ano de Confirmação"

Page 7: Análise (SPSS)

Ilustração 5 - P-P Plot da variável "Ano de Confirmação"

Ilustração 6 - P-P Plot da variável "Ano de Confirmação" (1)

Page 8: Análise (SPSS)

Os gráficos P-P Plot corroboram a tendência da variável “Ano de Confirmação”

para seguir uma distribuição normal, já que conseguimos ver um ajuste dos dados à

curva de Gauss, com pequenas variações em alguns pontos que não chegam a afastar-

se 0,1 da normal.

Correlação Linear de Pearson

O coeficiente de correlação de Pearson é um método estatístico e paramétrico1

que permite avaliar a existência de uma relação linear entre variáveis quantitativas

contínuas, isto é, como estas variam conjuntamente. A normalidade das variáveis “Ano

de Nascimento” e “Ano de Confirmação” já foi anteriormente comprovada, daí que

seja, agora, possível utilizar o Coeficiente de Correlação de Pearson como forma de

analisar se existe ou não uma relação entre estas duas variáveis.

A hipótese nula (H0) neste teste será “Não existe correlação entre o Ano de

Nascimento e o de Confirmação” e a hipótese alternativa (H1) “Existe correlação entre

o Ano de Nascimento e o de Confirmação”. Aplicando, então, a correlação de Pearson,

obtemos as tabelas 4 e 5, respectivamente:

Tabela 4 - Estatística descritiva das variáveis "Ano de Nascimento" e "Ano de Confirmação"

Descriptive Statistics

Mean Std. Deviation N

Ano de Nascimento 1995,23 2,358 435

Ano de Confirmação 2003,92 1,711 435

1 Obedecem aos parâmetros da distribuição normal.

Page 9: Análise (SPSS)

Tabela 5 - Correlação de Pearson

Correlations

Ano de

Nascimento

Ano de

Confirmação

Ano de Nascimento Pearson Correlation 1 ,082

Sig. (2-tailed) ,087

N 435 435

Ano de Confirmação Pearson Correlation ,082 1

Sig. (2-tailed) ,087

N 435 435

Após a análise estatística, tem-se:

logo a relação é baixa

, logo, não se rejeita H0.

Assim, com 95% de confiança, não podemos dizer que haja uma relação linear

entre o ano de nascimento e o de confirmação.

Sabemos agora que não temos provas e dados estatísticos suficientes para dizer

que haja uma relação entre o ano de nascimento e o ano de confirmação, mas será

que o mesmo se aplica à idade que o animal tem quando é confirmado como caso de

BSE?

Page 10: Análise (SPSS)

Análise da variável Idade de Confirmação

A variável Idade pode ser obtida subtraindo o Ano de Nascimento ao Ano de

Confirmação. Só os casos em que a Idade variava entre 2 e 20 anos foram incluídos no

estudo, perfazendo um total de 435 casos, como se pode ver na tabela 6:

Tabela 6 - Análise descritiva da variável "Idade de Confirmação"

Descriptives

Statistic Std. Error

Idade de Confirmação Mean 8,69 ,134

95% Confidence Interval for

Mean

Lower Bound 8,43

Upper Bound 8,96

5% Trimmed Mean 8,54

Median 8,00

Variance 7,827

Std. Deviation 2,798

Minimum 2

Maximum 18

Range 16

Interquartile Range 3

Skewness ,799 ,117

Kurtosis ,549 ,234

Podemos concluir a partir da tabela que a amostra da variável “Idade” tem como

média 8,69 anos, com um desvio padrão de 2,798 anos e uma idade mínima e máxima

de 2 e 18 anos, respectivamente.

Com 95% de confiança, pode-se inferir que a população de gado com BSE em

Portugal tem uma idade média entre 8,43 e 8,96 anos, com uma amplitude de 0,53

anos. É impossível que a mediana pertença ao intervalo de confiança, uma vez que

esta tem valores arredondados à unidade e o intervalo de confiança não inclui esses

valores. Assim, a mediana (8 anos) não pertence ao intervalo de 95% de confiança, já

que se encontra afastada do valor médio da amostra.

Podemos admitir que a variável segue uma distribuição normal, já que a curva de

Gauss se encontra bem adaptada ao histograma.

Page 11: Análise (SPSS)

Ilustração 7- Histograma relativo à variável "Idade de Confirmação"

Ilustração 8 - P-P Plot relativo à variável "Idade de Confirmação"

Page 12: Análise (SPSS)

Ilustração 9 - P-P Plot relativo à variável "Idade de Confirmação" (1)

A normalidade da variável é ainda corroborada pelos gráficos P-P Plot, que

mostram um bom ajuste à curva de Gauss, com apenas pequenas variações que não

ultrapassam os 0,75.

Correlação Linear de Pearson

Comprovada a normalidade da variável contínua “Idade”, podemos recorrer,

mais uma vez, ao coeficiente de correlação de Pearson para avaliar se existe uma

relação linear entre a Idade e o Ano de Nascimento.

Mais uma vez, a hipótese nula (H0) é “Não existe correlação entre a Idade e o

Ano de Nascimento” e a hipótese alternativa (H1) é “Existe correlação entre a Idade e o

Ano de Nascimento”.

Page 13: Análise (SPSS)

Tabela 7- Análise descritiva das variáveis "Idade" e "Ano de Nascimento"

Descriptive Statistics

Mean Std. Deviation N

Idade 8,69 2,798 435

Ano de Nascimento 1995,23 2,358 435

Tabela 8 - Correlação de Pearson

Correlations

Idade de

Confirmação

Ano de

Nascimento

Idade Pearson Correlation 1 -,793**

Sig. (2-tailed) ,000

N 435 435

Ano de Nascimento Pearson Correlation -,793** 1

Sig. (2-tailed) ,000

N 435 435

**. Correlation is significant at the 0.01 level (2-tailed).

Após a análise estatística, tem-se:

logo existe uma forte correlação

logo rejeita-se H0

Assim, com 95%, ou até mesmo 99% de confiança, podemos dizer que há uma

relação linear inversa entre o ano de nascimento e a idade, ou seja, aceitamos a

hipótese alternativa (H1).

Assim sendo, estimou-se a recta de regressão linear entre as variáveis

Page 14: Análise (SPSS)

Tabela 9 - Parâmetros da recta de regressão linear das variáveis “Idade de Confirmação” e “Ano de Nascimento”

Model Summary and Parameter Estimates

Dependent Variable:Idade de Confirmação

Equation

Model Summary Parameter Estimates

R Square F df1 df2 Sig. Constant b1

Linear ,628 732,051 1 433 ,000 1884,803 -,940

The independent variable is Ano de Nascimento.

Ilustração 10 - Recta de regressão linear das variáveis "Idade de Confirmação" e "Ano de Nascimento"

A equação da reta de regressão é, então:

Em que = Ano de Nascimento e = Idade de Confirmação.

Este resultado indica que quanto mais cedo o animal nasce, mais velho será

quando for confirmado como caso de BSE. Uma vez que nos princípios da epidemia era

difícil identificar um animal como suspeito, muitos destes animais não eram abatidos,

Page 15: Análise (SPSS)

aumentando a sua idade até serem confirmados sendo essa a principal causa desta

distribuição de idades.

Page 16: Análise (SPSS)

Com 95% de Confiança, existe relação entre a Idade e o Ano

de Confirmação?

Utilizando a Correlação de Pearson…

Hipótese nula (H0) “Não existe correlação entre a Idade e o Ano de Confirmação”

e a hipótese alternativa (H1) “Existe correlação entre a Idade e o Ano de Confirmação”.

Descriptive Statistics

Mean Std. Deviation N

Ano de Confirmação 2003,92 1,711 435

Idade de Confirmação 8,69 2,798 435

Correlations

Ano de

Confirmação

Idade de

Confirmação

Ano de Confirmação Pearson Correlation 1 ,542**

Sig. (2-tailed) ,000

N 435 435

Idade de Confirmação Pearson Correlation ,542** 1

Sig. (2-tailed) ,000

N 435 435

**. Correlation is significant at the 0.01 level (2-tailed).

Após a análise estatística, tem-se:

logo existe uma correlação moderada

logo rejeita-se H0

Assim, com 95% de Confiança (até mesmo com 99% de Confiança), podemos

dizer que há uma relação linear direta entre o ano de confirmação e a idade, ou seja,

aceitamos a hipótese alternativa.

Assim sendo, estimou-se a reta de regressão linear entre as variáveis.

Page 17: Análise (SPSS)

Tabela 10 - Parâmetros da recta de regressão linear das variáveis “Idade de Confirmação” e “Ano de

Confirmação”

Model Summary and Parameter Estimates

Dependent Variable:Idade de Confirmação

Equation

Model Summary Parameter Estimates

R Square F df1 df2 Sig. Constant b1

Linear ,294 180,443 1 433 ,000 -1768,018 ,887

The independent variable is Ano de Confirmação.

A equação da reta de regressão é

em que = Ano de Confirmação e = Idade de Confirmação

Este resultado indica que quanto mais tarde é confirmado o caso de BSE mais

velho tende a ser o animal infetado. Isto pode parecer contraditório, mas pode ser

justificado por uma tendência de uma infeção numa idade mais tardia ou talvez por

Page 18: Análise (SPSS)

um aumento do período de incubação, o que leva a que a deteção de um animal

infetado seja feita quando este estiver numa idade mais avançada do que o esperado.

No entanto, neste caso, seriam necessários mais estudos de forma a perceber quais as

causas que levam a que exista esta relação entre a Idade e o Ano de Confirmação.