50
Análise Preliminar dos Dados Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas www.ctec.ufal.br/professor/cfs

Análise Preliminar dos Dados Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas

Embed Size (px)

Citation preview

Introduo Probabilidade e Estatstica

Anlise Preliminar dos DadosAula 02

Prof. Christopher Freire SouzaCentro de TecnologiaUniversidade Federal de Alagoaswww.ctec.ufal.br/professor/cfsObjetivoCompreenso e descrio dos dados a partir da organizao, resumo e elaborao de grficos e estimao de estatsticas.2Anlise Preliminar dos DadosCaractersticas importantes dos dadosCentro: indica o meio do conjunto de dadosVariao: indica quanto os dados variam em relao ao centroDistribuio: indica a formaOutliers ou valores discrepantes: indica valores amostrais que se localizam muito longe da grande maioriaTempo: variao dos valores com o tempo

3Anlise Preliminar dos DadosAnlise Preliminar dos DadosResumos e GrficosEstatsticasAnlise Exploratria de Dados4Anlise Preliminar dos DadosResumos e GrficosDistribuio de freqnciaHistogramasHistogramas polaresPolgono de freqnciaOgivaGrfico de ParetoDiagramas de dispersoGrficos de sries temporaisCriao de grficos estatsticos (Curva de permanncia e grfico polar)5Anlise Preliminar dos DadosResumos e Grficos (Distribuio de freqncia)Para n>20, agrupa-se os dados em classes, sendo a freqncia o nmero de valores em cada classe.Definies:Limites inferiores de classe: menores nmeros que podem pertencer a cada classe. Ex. ...,21; 31; 41;...Limites superiores de classe: maiores nmeros que podem pertencer a cada classe. Ex. ...,30; 40; 50;...Fronteiras de classe: nmeros usados para separar as classes. Ex. ...,30,5; 40,5; 50,5;...Ponto mdio de classe: mdia aritmtica dos limites de cada classe. Ex. ...,35,5; 45,5; 55,5;...Amplitude de classe: diferena entre limites inferiores de classe consecutivos. Ex. 31-21=10.

IdadeFreqncia21-302831-403041-501251-60261-70271-8026Anlise Preliminar dos DadosResumos e Grficos (Distribuio de freqncia)Procedimento para elaborao de tabelas de distribuio de freqncia:Definir nmeros de classe, recomendando-se um nmero entre 5 e 20, definido por convenincia. Ex. para dados cujos valores variam entre 20 e 100, aplicar 8 classes.Calcular a amplitude dos dados e arredondar o nmero de classes para cima.Definir ponto inicial (limite inferior da 1 classe): valor mnimo ou inferior.Definir outros limites inferiores.Definir limites superiores (possibilidade de intervalos abertos).Calcular freqncias (realizar contagem)IdadeFreqncia21-302831-403041-501251-60261-70271-802Mesmo procedimento para freqncia relativa ou acumulada7Anlise Preliminar dos DadosResumos e Grficos (Histogramas)Verso grfica da tabela de freqncias.MATLAB: hist

Vazes mdias anuais no rio Paran na UHE Itaip8Anlise Preliminar dos DadosResumos e Grficos (Histogramas polares)Histogramas em eixos polares, onde as classes so apresentadas no eixo angular e as freqncias no eixo radial.MATLAB: rose

9Anlise Preliminar dos DadosResumos e Grficos (Polgono de freqncia)Segmentos de retas que conectam pontos mdios da parte superior de barras de freqncia de classe, estendidos esquerda e direita para alcanar o eixo horizontal.

10Anlise Preliminar dos DadosResumos e Grficos (Ogiva)Grficos de linhas que representam freqncia acumulada de no-excedncia. O grfico intercepta valores das fronteiras de classes, iniciando da fronteira inferior da primeira classe e terminando na fronteira superior da ltima classe.

11Anlise Preliminar dos Dados11Resumos e Grficos (Grfico de Pareto)Grfico de barras para dados qualitativos, sendo as barras ordenadas em funo dos valores de freqncia de maneira decrescente.Recomenda-se a aplicao de grficos de Pareto em vez de grficos de setores (i.e. pizza).MATLAB: pareto

12Anlise Preliminar dos DadosResumos e Grficos (Diagramas de disperso)Grfico de pares de dados, til anlise de relao/associao entre variveis.MATLAB: scatter

13Anlise Preliminar dos DadosResumos e Grficos (Grficos de sries temporais)

Grfico onde as informaes de uma varivel so representadas no eixo das ordenadas com seus pares equivalentes ao momento/tempo de ocorrncia no eixo das abcissas.MATLAB: plot14Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Oportunidade para apresentar dados importantes e interessantes de maneira eficazPrincpios para criao de grficos (Tufte apud Triola pg 50)P/ pequena quantidade de dados, use tabelaFoco nos dados. Ilustrao no deve distrair o leitor. Gaste a tinta de impresso nos dados.No distorcer os dados. No use reas e volumes para informao unidimensional.No usar linhas inclinadas, pontos ou quadriculados (hachuras), pois criam desconfortvel iluso de movimento.15Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Curva de permannciaFreqncia acumulada de excedncia de valoresProcedimento:Ordena dados de forma decrescenteCalcula a % de excedncia pela razo da ordem de cada registro pela quantidade de dadosGrfico das vazes ordenadas contra a % de excedncia

16Anlise Preliminar dos DadosResumos e Grficos (Criao de grficos estatsticos)Grfico polarApresenta dados em coordenadas polares, onde o eixo radial a magnitude e o angular a direo ou a data.MATLAB: polar

17Anlise Preliminar dos DadosEstatsticasMedidas de centroMedidas de variaoMedidas de forma (posio relativa)Medidas de associao entre variveis18Anlise Preliminar dos Dados18EstatsticasQuantis: dividem a amostra ordenada de dados em grupos com aproximadamente o mesmo nmero de dados99 percentis - diviso em 100 partes3 quartis diviso em 4 partesAnlise Preliminar dos Dados19Estatsticas (Medidas de forma / posio relativa)PercentilPercentis dividem os valores ordenados em 100 partes iguais. Assim, existem 99 percentis.Para calcular o percentil a que um valor xi corresponde, aplica-se:

onde n o tamanho da amostra.

20Anlise Preliminar dos Dados20Estatsticas (Medidas de forma / posio relativa)PercentilPara calcular o valor x para um percentil especfico, aplica-se aos dados ordenados:

onde L o percentil que se deseja estimar. Caso i no seja exato, o valor de x referente ao percentil em anlise ser o da posio maior inteiro mais prximo de i. Caso i seja exato, estima-se o percentil a partir da mdia entre os valores de xi e xi+1

MATLAB: prctile

Como em curvas de permanncia a ordem dos dados decrescente, PL=Q(100-L). Ex. P10=Q90

21Anlise Preliminar dos Dados21Estatsticas (Medidas de forma / posio relativa)QuartilPercentil que divide os dados em quartos.Q1=P25; Q2=P50 ; Q3=P7522Anlise Preliminar dos Dados22Estatsticas (Medidas de centro)Ponto MdioMedianaModaMdiaMdia aparada23Anlise Preliminar dos Dados23Estatsticas (Medidas de centro)Ponto Mdio = (min+max)/2

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Ponto mdio = (1+36)/2 = 18,524Anlise Preliminar dos Dados24Estatsticas (Medidas de centro)MedianaValor do meio da amostra, para dados ordenados em funo de seus valores

MATLAB: median

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Mediana = 12,5

25Anlise Preliminar dos Dados25Estatsticas (Medidas de centro)Mdia

onde n o nmero de dados, i.e., o tamanho da amostra, fi a freqncia (nmero de observaes) de ocorrncia do valor xi.MATLAB: meanPor exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36]

Mdia = (1+3+6+21+28+36).1/8+15.2/8 = 15,625

26Anlise Preliminar dos Dados26Estatsticas (Medidas de centro)Mdia aparadaClculo da mdia da parcela central (100-x)% da amostra ordenada em funo de seus valores.MATLAB: trimmean

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Mdia aparada em 0% = 15Mdia aparada em 25% = 13,83Mdia aparada em 50% = 1327Anlise Preliminar dos Dados27Estatsticas (Medidas de centro)ModaValor que ocorre mais freqentementeMATLAB: mode

Simetria da distribuio dos dados: mdia=moda=mediana

28Anlise Preliminar dos Dados28Estatsticas (Medidas de variao)AmplitudeDesvio mdio absolutoDesvio padroVarinciaCoeficiente de variaoIntervalo interquartilIntervalo percentlico29Anlise Preliminar dos Dados29Estatsticas (Medidas de variao)Amplitude = max-minMATLAB: range

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Amplitude = (36-1) = 3530Anlise Preliminar dos Dados30Estatsticas (Medidas de variao)Intervalo interquartil = Q3-Q1

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Intervalo interquartil = 24,5 - 4,5 = 2031Anlise Preliminar dos Dados31Estatsticas (Medidas de variao)Intervalo percentlico = P90-P10

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Intervalo percentlico = 36 - 1 = 35

32Anlise Preliminar dos Dados32Estatsticas (Medidas de variao)Desvio mdio absoluto

MATLAB: madPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], mdia=15Desvios |xi-media|=[14,12,9,5, 0, 6, 13, 21]Desvio mdio absoluto = 10

33Anlise Preliminar dos Dados33Estatsticas (Medidas de variao)VarinciaEstimador da disperso em relao mdia a partir dos quadrados dos valores observados

MATLAB: varPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

var = 156

34Anlise Preliminar dos Dados34Estatsticas (Medidas de variao)Graus de liberdade: nmero de valores escolhidos livremente antes que os demais sejam determinados.

Por exemplo, para a amostra [10, 13, 15, 18]

Conhecida a mdia (14) e outros n-1 dados, chega-se ao n-simo. Logo, nmero de graus de liberdade = n-1

Anlise Preliminar dos Dados3535Estatsticas (Medidas de variao)Desvio padroDesvio mdio dos valores em relao mdia

MATLAB: std

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]Desvios (xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21]Quadrados (xi-media)=[196,144,81,25,0,36,169,441]Soma dos Quadrados = 1092Desvio padro =12,49

36Anlise Preliminar dos Dados36Graus de LiberdadeAmostraMdiaMedianaAmp.Var.(n-1)Std(n-1)Var.(n)std(n)1,11,01,000,00,0001,21,51,510,50,7070,250,51,53,03,048,02,828422,11,51,510,50,7070,250,52,22,02,000,00,0002,53,53,534,52,1212,251,55,13,03,048,02,828425,23,53,534,52,1212,251,55,55,05,000,00,000Mdia amostral8/38/316/926/91,31,440,89Parmetro8/32426/91,72,891,7Christopher Souza: Anlise Preliminar de Dados37Populao: 1, 2, 5Estatsticas (Medidas de variao)Desvio padro

Disperso tpica (Regra emprica da amplitude)

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Desvio padro (36 1)/4 = 8,75

Anlise Preliminar dos Dados38

38Estatsticas (Medidas de variao)Coeficiente de variaoEstimador adimensionalizado da disperso de valores em relao mdia de maneira a permitir comparaes entre populaes.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Cv=83,27%

39Anlise Preliminar dos Dados39Estatsticas (Medidas de forma / posio relativa)Escore zQuartilPercentilSimetria/AssimetriaCurtose40Anlise Preliminar dos Dados40Estatsticas (Medidas de forma / posio relativa)Escore zNmero de desvios padro a que se situa o valor i da amostra, acima ou abaixo da mdia.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]

41Anlise Preliminar dos Dados41Estatsticas (Medidas de forma / posio relativa)Simetria/AssimetriaCoeficiente que descreve quanto a maior parte dos dados se encontra afastada da mdia.O coeficiente analisa o desvio em relao mdia na 3a potncia.

MATLAB: skewness

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

assimetria=0,5

42Anlise Preliminar dos Dados42Estatsticas (Medidas de forma / posio relativa)CurtoseCoeficiente que descreve quanto os valores mais extremos se afastam da mdia.O coeficiente descreve o desvio em relao mdia na 4a potncia.

MATLAB: kurtosisPor exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Curtose = 1,95

43Anlise Preliminar dos Dados43Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao linear de PearsonMede a intensidade da relao linear entre os valores quantitativos emparelhados de amostras de duas variveis (x e y)

MATLAB: corrcoef

44Anlise Preliminar dos Dados44Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao linear de Pearson = 0,703645Anlise Preliminar dos Dados

Bacia do rio Acara-CE (semi-rido; 1560 km)

45PostosNmero atribudo a um item da amostra de acordo com sua posio na lista ordenada.Em caso de empates, aplica-se a mdia dos postos como valor de posto de cada item com igual valorEx:x: [12 10 5 5 4 5 11 12]xo: [4 5 5 5 10 11 12 12]io: [1 3 3 3 5 6 7,5 7,5]i: [7,5 5 3 3 1 3 6 7,5]Christopher Souza: Teste de hipteses46Estatsticas (Medidas de associao entre variveis)Coeficiente de correlao de postos de SpearmanMede a associao das magnitudes de duas variveis a partir das posies dos valores ordenados por amostra (x e y)

onde d a diferena entre as posies dos correspondentes x e y.

MATLAB: corr

Spearman = 0,7143

47Anlise Preliminar dos Dados

47Anlise Exploratria de DadosOutliersDiagrama de caixa48Anlise Preliminar dos DadosAnlise Exploratria de Dados (Outliers)Outlier - dado cujo valor se localiza muito afastado de quase todos os demais valores da amostra.Outliers podem ser valores atpicos reais ou um dado errado/inexistente.Outliers podem afetar significativamente os valores de estatsticas como a mdia e outras dela dependentes (e.g. desvio padro, c.v.), bem como, na definio de classes em estudos de freqncia e em grficos.Se um outlier for um dado real, deve-se estudar a srie com e sem o outlier.Uma tcnica usual para deteco de outliers comparar valores com 1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.49Anlise Preliminar dos DadosAnlise Exploratria de Dados (Diagrama de caixa)Representao grfica do resumo dos cinco nmeros (mnima, Q1, mediana, Q3 e mxima).timo para comparao de duas ou mais amostras.Outliers podem ser representados.

MATLAB: boxplot

50Anlise Preliminar dos Dados