Estatística Aplicada II
• Profa. Flávia Landim
• E-mail: [email protected]
• Aulas: quintas de 13h-18h20
• Início: 22 de agosto de 2013
• Avaliações: P1 10/10, P2 28/11. apresentação de trabalhos: 5 e 12/12 (grupos de 3 alunos que deverão ser definidos até o dia da P1).
MAD342 – AULA #01 – 22/08/2013
Estatística Aplicada II
• Ementa no SIGA: Conceito de regressão associado à correlação
entre variáveis. Conceito de ajustamento. Métodos de ajustamento e aplicação à determinação das equações de regressão. Teoria elementar de probabilidades: princípios fundamentais. Distribuição binomial e distribuição normal: propriedades e aplicações à psicologia. Noções de inferência estatística: estimação de parâmetros.
• Página com as informações da disciplina:
www.im.ufrj.br/flavia/estat2_psicologia.html
MAD342 – AULA #01 – 22/08/2013
Estatística Aplicada II
• Referências (livro-texto ainda a definir)
• Estatística Básica: a arte de trabalhar com dados. João Ismael, Sônia, Santiago e Gastão. Editora Campus.
• Estatística sem Matemática para Psicologia. Dancey e Reidy. Artmed.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
• O primeiro uso da palavra ESTATÍSTICA parece datar do final do século XVI, referindo-se a uma “ciência civil, política, estatística e militar” em um trabalho do historiador Girolomo Ghilini. (Berquó, 1981)
• As expressões “statistics”, “statist” e “statistical” são derivadas do latim status com duplo significado: estado político; e situação das coisas.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
O Estado da Estatística
Os primeiros usos da estatística envolviam compilação de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John Gaunt publicou informação estatística acerca de nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos sobre taxas de mortalidade e de doenças, tamanhos de populações, renda e taxas de desemprego. Os governos e as empresas se apoiam fortemente em dados estatísticos: taxas de desemprego, taxas de inflação, índices do consumidor, taxas de nascimento e morte são cuidadosamente compiladas de modo regular, e os dados resultantes são usados pelos gestores para tomar decisões que afetam futuras contratações, investimentos, níveis de produção e expansão para novos mercados.” Triola, 2005 – Uma Introdução à Estatística.
Breve História da Estatística
• Nos séculos XVII e XVIII, a estatística voltou-se mais para cálculos de probabilidades.
• No século XIX, Laplace e Gauss começaram a aplicar a distribuição normal na explicação de fenômenos reais.
• Nesta época iniciou-se a aplicação da estatística na pesquisa em Ciências Sociais.
• No século XX difundiram-se os métodos multivariados para analisar conjuntamente várias variáveis.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é ?
Para Sir Ronald A. Fisher (1890-1962): Estatística é o estudo das populações, das variações e dos métodos de redução de dados.
Estatística: o que é?
• ``Eu gosto de pensar na Estatística como a ciência de aprendizagem a partir dos dados ... ´´
MAD342 – AULA #01 – 22/08/2013
Jon Kettenring Presidente da American Statistical Association, 1997
Estatística: o que é?
Uma boa definição é:
“Estatística é um conjunto de técnicas
e métodos que nos auxiliam no
processo de tomada de decisão na presença de incerteza.”
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
Toda atividade humana é baseada em previsões e tomadas de
decisão sob incerteza: - quando entramos para a universidade; - quando arrumamos um emprego;
- quando um paciente é submetido a um tratamento;
- quando investimos uma quantia no mercado de ações; etc.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
• Calyampudi R. Rao (1920- ), um estatístico importante, cujo trabalho teórico contribuiu para os fundamentos da Estatística Moderna apresentou a seguinte equação:
MAD342 – AULA #01 – 22/08/2013
conhecimento incerto
+ conhecimento da quantidade de incerteza nele
= conhecimento útil
Essa parte da equação representa um papel fundamental do estatístico
Alguns Exemplos de situações em que se usa Estatística
• Mensuração das mudanças no meio-ambiente para avaliar os efeitos do aquecimento global.
• Mensuração da poluição do ar para avaliar os efeitos na saúde da população.
• Análise de experimentos sobre o uso de fertilizantes para maximizar a produção de um grão.
• Mensuração da eficácia de diferentes medicamentos para encontrar o melhor, e identificar efeitos colaterais.
• Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA. • Estudo sobre hábitos migratórios de certo animal; • Estimação do tamanho populacional de certas espécies; • Comparação de hábitos comportamentais em diferentes grupos;
MAD342 – AULA #01 – 22/08/2013
Conceitos Básicos
• População: conjunto de elementos com pelo menos uma característica em comum. A população define o universo que vai ser estudado.
• Amostra: é um subconjunto não-vazio da população.
MAD342 – AULA #01 – 22/08/2013
Conceitos Básicos
• Parâmetro – é uma característica numérica da população.
• Estatística - é uma característica numérica da amostra.
MAD342 – AULA #01 – 22/08/2013
Inferência Estatística
• Em linhas gerais podemos dizer que a Inferência Estatística está voltada para fazer afirmações sobre toda a população, quando se conhece apenas uma amostra da população.
• Desejamos fazer afirmações sobre parâmetros, usando estatísticas.
• É claro que estaremos sujeitos a variações inerentes ao processo de amostragem e será muito importante saber quantificar a incerteza associada à inferência realizada.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Probabilidade
• A ferramenta matemática usada para quantificar incertezas é a teoria das probabilidades.
• Noções básicas de probabilidade serão objeto de estudo nesta disciplina.
MAD342 – AULA #01 – 22/08/2013
Etapas na análise estatística de dados
MAD342 – AULA #01 – 22/08/2013
Amostragem–coleta de
dados
Cálculo de Probabilidades Estatística descritiva - Análise
exploratória de dados –
organização dos dados
Inferência Estatística
Estatística Básica
• Vamos tratar agora da etapa do processo de análise, chamada Análise Descritiva ou Análise Exploratória de Dados.
• Os dados precisam ser organizados em tabelas, gráficos ou mapas, e também usando-se medidas úteis que descrevem de alguma forma o conjunto de dados.
• Em geral, é a partir desta análise que será proposto um modelo que descreva pelo menos razoavelmente a geração dos dados em estudo.
• Não serão tratados aqui os tópicos sobre coleta e organização dos dados.
MAD342 – AULA #01 – 22/08/2013
Escalas de medição e tipos de variáveis
• As escalas de medição são: nominal, ordinal, de contagem, intervalar e de razão.
• As técnicas estatísticas diferenciam-se em relação ao tipo de variável.
• As variáveis são classificadas em dois grandes grupos: categóricas ou qualitativas (escalas nominal e ordinal) e numéricas ou quantitativas (escalas de contagem, intervalar ou de razão).
MAD342 – AULA #01 – 22/08/2013
Escalas intervalar e de razão
• A escala intervalar aproxima-se da concepção comum de medida, já que possui uma unidade de medida constante. Entretanto, a origem desta escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um zero arbitrário.
• A escala de razão é a mais elaborada das escalas de medida, no sentido de permitir todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de comprimento, peso, etc.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Síntese numérica – medidas-resumo para variáveis quantitativas
• As medidas a serem trabalhadas são de duas naturezas distintas, a saber,
• 1) medidas de posição – média aritmética, mediana, moda, percentis (quartis, quintis), buscam caracterizar valores que sejam representativos na distribuição de frequência dos valores observados, e
• 2) medidas de dispersão – amplitude amostral. distância interquartílica, desvio médio, variância, desvio-padrão, coeficiente de variação, buscam caracterizar a variação na distribuição dos valores.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 1) Moda – realização mais frequente do conjunto de valores observados. Em alguns casos, pode haver mais de uma moda, ou seja, uma distribuição pode ser bimodal, trimodal, multimodal. É possível também que não exista moda, se todos os valores ocorrerem com a mesma frequência.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 2) Mediana – é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente.
• Nota: se o número de observações é ímpar indica-se como mediana o valor que ocupa a posição (n+1)/2. Caso contrário, o usual é indicar como mediana a semi soma dos valores que ocupam as duas posições centrais, a saber, n/2 e n/2+1.
• A posição de uma observação para efeito de obter a mediana é considerada somente depois de colocar os dados em ordem crescente.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 3) Média aritmética – soma das observações dividida pelo número de observações.
• Formalizando, se x1, x2, ..., xn são n valores observados num conjunto de dados, a média aritmética é dada por
MAD342 – AULA #01 – 22/08/2013
n
i
nin
n
xxxxx
1
211...
Medidas de posição
• 4) Percentis: são 99 medidas que dividem a distribuição de frequências em 100 partes de frequência 1% tal que o p-ésimo percentil, p=1,2,...,99, corresponde a um valor para o qual p% dos valores observados são menores ou iguais a ele.
• Notação: (P1, P2, ..., P10, ..., P99)
MAD342 – AULA #01 – 22/08/2013
Percentis Especiais
• Quartis: são três medidas, Q1, Q2 e Q3, que dividem a distribuição em quatro partes de frequências iguais a 25%.
• Q1 – primeiro quartil – 25% dos valores são menores ou iguais a Q1
• Q2– segundo quartil – 50% dos valores são menores ou iguais a Q2 (Observe que Q2 coincide com a mediana)
• Q3 – terceiro quartil – 75% dos valores são menores ou iguais a Q3
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Percentis especiais
• Quintis – são quatro medidas que dividem a distribuição em 5 partes de frequências iguais a 20%. (P20,P40,P60,P80)
• Decis – são 9 medidas que dividem a distribuição em 10 partes de frequências iguais a 10%.(P10,P20, ..., P90)
MAD342 – AULA #01 – 22/08/2013
Medidas de dispersão
• 1) Amplitude amostral – é a diferença entre o maior valor e menor valor observados.
• 2) Distância interquartílica – é a diferença entre o terceiro e primeiro quartis.
MAD342 – AULA #01 – 22/08/2013
Medidas de Dispersão
• Sejam x1, x2, ..., xn os n valores observados num conjunto de dados, e a média. Define-se como desvios da média as diferenças:
MAD342 – AULA #01 – 22/08/2013
x
xxi
Em qualquer conjunto de dados a soma dos desvios da média será sempre nula, pois os desvios positivos com- pensam-se com os desvios negativos.
, i=1,2,...,n.
Variância amostral
• A variância amostral é uma média dos quadrados dos desvios da média definida por:
MAD342 – AULA #01 – 22/08/2013
n
i
i xxn
s1
22
1
1
Podemos dizer que a variância caracteriza o “espalhamento” dos valores no conjunto de dados em torno da média.
Desvio-padrão amostral
• O desvio-padrão amostral (s) é a raiz quadrada positiva da variância amostral.
• O desvio-padrão tem a mesma unidade de medida das observações e poderá ser comparado à média, por exemplo.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Como comparar desvios padrão?
• Como as escalas dos valores podem ser diferentes não há como dizer se um conjunto é mais disperso em relação a sua média apenas olhando o valor do seu desvio-padrão.
• Um desvio padrão igual a 1 u pode ser grande ou pequeno dependendo da magnitude dos valores observados.
• Se dois conjuntos têm desvios-padrões iguais, como classificar o mais disperso em relação à média?
MAD342 – AULA #01 – 22/08/2013
Coeficiente de variação amostral
• É a razão entre desvio-padrão e média. Em geral é apresentado em termos percentuais sendo multiplicado por 100.
• É útil na avaliação da magnitude da variância do conjunto de dados.
MAD342 – AULA #01 – 22/08/2013
x
sCV 100
Tipos de gráficos
• Setores, barras, linha, histograma, ramo-folhas, box plot (diagrama de caixa), etc.
• Os gráficos de setores e barras são adequados para variáveis categóricas (qualitativas).
• Nesses gráficos, a única escala a ser considerada é a escala de frequência dos diferentes tipos de resposta observados para a variável categórica.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Em geral, recomenda-se não usar este tipo de gráfico, quando o número de respostas diferentes é maior do que quatro ou mesmo quando as diferenças de frequências para as diferentes respostas são pequenas, pois é difícil detectar pequenas diferenças nos ângulos centrais correspondentes aos setores.
Gráfico de setores
Gráfico de setores
MAD342 – AULA #01 – 22/08/2013
Observe que há apenas 4 respostas diferentes, mas não dá para perceber diferenças entre centro, norte e sul.
Gráfico de barras
MAD342 – AULA #01 – 22/08/2013
As frequências podem ser absolutas ou relativas.
Agora é possível perceber as diferenças entre as frequências observadas.
MAD342 – AULA #01 – 22/08/2013
Gráfico de barras
As barras que representam as frequências de cada resposta podem ser dispostas de forma horizontal ou vertical.
Gráfico de linha
• Adequado para representar observações feitas ao longo do tempo.
• A série deve apresentar no mínimo 5 observações.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
1976 1978 1980 1982 1984 1986 1988 1990 1992
02
04
06
0Nº de casos no município do Rio
Exemplo: dados sobre meningite
Histograma
• É usado para representar a distribuição de frequências de uma variável quantitativa contínua cujos valores observados foram agrupados em intervalos de classe.
• O gráfico é composto por retângulos adjacentes cuja área é igual a frequência da classe correspondente.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Ramo-e-folhas
• É um gráfico alternativo ao histograma.
• A vantagem do ramo-e-folhas em relação ao histograma é que não há perda de informação.
• No histograma as observações individuais estão agrupadas em classes.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Medidas de posição: média e mediana
MAD342 – AULA #01 – 22/08/2013
A média é a soma dos valores observados sobre o número de observações (média aritmética).
No histograma ela representa o ponto de equilíbrio (é o centro de massa).
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Média versus mediana
é mais fácil de ser manipulada algebricamente;
representa o centro de massa dos dados.
É muito afetada por valores extremos.
é mais difícil de ser manipulada algebricamente;
é o valor que ocupa a posição central quando os dados estão ordenados; (divide o histograma correspondente em duas partes de áreas iguais).
não é afetada por valores extremos.
MÉDIA MEDIANA
MAD342 – AULA #01 – 22/08/2013
Distribuições unimodais
Em distribuições unimodais tem-se sempre a mediana entre a média e a moda:
ou média<=mediana<=moda (assimetria negativa) ou moda<=mediana<=média (assimetria positiva)
Em distribuições unimodais perfeitamente simétricas tem-se média=moda=mediana.
MAD342 – AULA #01 – 22/08/2013
Assimetria positiva - distribuição unimodal
média>mediana>moda
A distribuição apresenta maior concentração nos menores valores.
MAD342 – AULA #01 – 22/08/2013
Assimetria negativa - distribuição unimodal
média<mediana<moda
A distribuição apresenta maior concentração nos valores mais altos.
MAD342 – AULA #01 – 22/08/2013
Distribuição unimodal simétrica
média=mediana=moda
Medidas de assimetria e curtose
As = 3 ( Média - Mediana ) / Desvio Padrão
MAD342 – AULA #01 – 22/08/2013
Quando uma distribuição unimodal é simétrica tem-se
Média = Mediana = Moda.
Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela
é assimétrica à esquerda ou negativamente assimétrica;
se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou
positivamente assimétrica. Coeficiente de assimetria de Pearson:
MAD342 – AULA #01 – 22/08/2013
MEDIDAS DE CURTOSE
• Grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade).
• Quando a distribuição apresenta uma curva de freqüência mais fechada que a normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.
• Quando a distribuição apresenta uma curva de freqüência mais aberta que a normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica.
• A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Coeficiente de curtose C1 = (Q3 - Q1) / 2(P90 - P10) Este coeficiente é conhecido como percentílico de curtose. Relativamente a curva normal, temos: C1 = 0,263 curva mesocúrtica C1 < 0,263 curva leptocúrtica C1 > 0,263 curva platicúrtica
MAD342 – AULA #01 – 22/08/2013
Exemplo: Distribuição Bimodal
MAD342 – AULA #01 – 22/08/2013
Você acha que a média é uma boa medida de posição nesse caso? E a mediana? Por que?
Box Plot (desenho esquemático)
MAD342 – AULA #01 – 22/08/2013
IQR=Q3-Q1
Bioestat
• O BioEstat é programa gratuito para estudantes de graduação e pós-graduação, pesquisadores e professores, com 210 aplicativos estatísticos de fácil uso pelos iniciantes, voltados sobretudo para as áreas das ciências biológicas e médicas.
• Este programa contém o Manual (em formato de arquivo "pdf") que orienta o usuário com indicações simples e precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat.
MAD342 – AULA #01 – 22/08/2013
Bioestat
• A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e-mail para [email protected].
• http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/
• No que segue veremos alguns exemplos de uso do bioestat para calcular medidas-resumo e construir gráficos.
MAD342 – AULA #01 – 22/08/2013
Exemplo 1
• Em um grupo de 80 alunos foi feita uma pesquisa sobre hábitos de leitura. Uma das questões referia-se que tipo de leitura eles mais gostavam: revistas, jornais, livros de ficção, livros não-ficção, outros. Após digitar as respostas verificou-se que 18 preferiam revistas, 25, jornais, 15 preferiam ficção, 13, não ficção e 9, outros.
MAD342 – AULA #01 – 22/08/2013
Exemplo 1
18
25
15
13
9
MAD342 – AULA #01 – 22/08/2013
No Bioestat entramos com esses números que são as frequências absolutas de preferências e depois solicitamos a janela de gráficos escolhendo a opção “setores”. Depois é só configurar uma legenda, título, etc.
MAD342 – AULA #01 – 22/08/2013
Exemplo 2:
• As idades dos 80 alunos também foram observadas e seus valores foram 18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19, 19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20, 20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21, 21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21, 21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35.
MAD342 – AULA #01 – 22/08/2013
Atividades sugeridas
• Resolva os exercícios da lista #01 usando o Bioestat.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Bibliografia:
• Berquó, E. e outros (1981). Bioestatística.
• Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística.
• Bussab e Morettin. (2002). Estatística Básica.
• Dancey e Reidy. (2012). Estatística sem Matemática para Psicologia.
• Medronho, e outros. (2005). Epidemiologia.
• Montgomery, D. e Runger, G. (2003). Estatística Aplicada e Probabilidade para Engenheiros.
• Triola, M. (2005). Uma Introdução à Estatística.
MAD342 – AULA #01 – 22/08/2013