40
Israel Souza Apostila de Bioestatística [email protected] SOFEP Niterói Out/2009 APOSTILA DE BIOESTATÍSTICA PERITO CRIMINAL Israel Souza Professor do IFRJ [email protected] SOFEP - Niterói Outubro de 2009

Israel-Material de Apoio - Bioestat Stica

Embed Size (px)

DESCRIPTION

Material de Apoio - Bioestat Stica

Citation preview

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009

    APOSTILA DE BIOESTATSTICA

    PERITO CRIMINAL

    Israel Souza

    Professor do IFRJ [email protected]

    SOFEP - Niteri Outubro de 2009

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 1

    PREPARE-SE

    Este um material de apoio s aulas ministradas no curso preparatrio. Ele foi redigido em linguagem simples e acessvel, com base numa bibliografia que trata o

    assunto numa linguagem compreensvel queles que no so estatsticos. Procuramos cobrir todo o contedo exigido pela organizadora do concurso (CESPE-UnB). Mas a experincia ao analisar diversas provas nos mostra que determinado contedo tem

    sido mais cobrado que outros.

    Para o cargo em questo extremamente comum a cobrana dos seguintes conhecimentos: Mdia Desvio Padro Intervalo de Confiana Teste z Teste t Interpretao de grficos

    claro que qualquer contedo exigido e apresentado neste material pode ser utilizado em alguma questo do concurso, por isso recomendamos o estudo de todo o material, mas procure dar uma nfase especial aos tpicos listados anteriormente.

    No Material estes tpicos sero ressaltados com a seguinte mensagem:

    TPICO COBRADO NAS PROVAS DO CESPE-UNB

    Ateno especial nestes tpicos.

    Organize seus horrios de estudo, mantenha sempre a calma, relaxe sempre que possvel. Fao do estudo um momento de prazer.

    Quaisquer dvidas entrem em contato por e-mail.

    Abraos! E um bom estudo!

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 2

    1- ESTATSTICA DESCRITIVA

    1.1 CLASSIFICAO DAS VARIVEIS Por definio, varivel aquilo que varia. Assim, a noo de varivel aplicvel em toda e

    qualquer cincia. Dito de outro modo, variveis so os possveis resultados do fenmeno estudado. As variveis podem ser classificadas de acordo com o nmero de valores que assume e

    tambm de acordo com o papel na pesquisa. Assim temos:

    1- Quanto ao nmero de valores: a) qualitativas: so aquelas que se embasam nas caractersticas do fenmeno e assumem

    uma classificao ou ordenao. Ex: sexo, opo partidria, classificao numa corrida (1, 2, etc.). b) quantitativas: so aquelas que se embasam na quantidade do fenmeno, pode-se dizer

    que somados dois valores possvel atingir um terceiro valor. Subdivide-se em: discretas: originria de dados de contagem, ou seja, s assumem valores inteiros. Ex: n

    de alunos, n de leses no esporte, n de gols marcados etc. continuas: So aquelas que podem ser representadas por qualquer valor entre dois pontos

    limites. Em geral esto associadas a medidas que tenham unidade (m, kg, l, m/s etc.). Ex: Peso corporal, altura, VO2, etc.

    2- Quanto ao papel na pesquisa: - Varivel independente (VI): a varivel que supostamente exerce influncia sobre outra.

    a varivel que o pesquisador ter sob controle. - Varivel dependente (VD): a varivel que supostamente sofre a influncia de outra. O

    pesquisador no tem controle sobre ela. - Varivel estranha (VE): a varivel capaz de influenciar a situao de pesquisa (a VI, a

    VD ou a relao entre ambas), mas que no do interesse do pesquisador. Nesse sentido, em relao a VI, a ao do pesquisador ser sempre no sentido de maximizar

    a sua influncia sobre a VD. Assim, num laboratrio, haver um controle extremo das variveis estranhas, de modo melhor ser observada a influncia da VI sobre a VD. Em relao VE, a ao do pesquisador ser sempre no sentido de atenuar ou, sempre que possvel, eliminar seus efeitos.

    Em relao VD, a nica ao do pesquisador ser no sentido de mensurao. A VD, que ser mensurada, pode ser medida em diferentes nveis de acordo com o interesse do pesquisador ou da situao e do instrumental de pesquisa.

    1.2 NVEIS DE MEDIDA DAS VARIVEIS A correta definio dos nveis de medida de uma varivel de extrema importncia para a

    pesquisa. O nvel de medida da varivel se refere preciso da medida utilizada. Por definio, medir atribuir nmeros a qualidades mediante uma determinada regra. Assim como os nveis de medida variam, variam tambm as regras utilizadas na atribuio de valores numricos a qualidades.

    Nvel nominal: o primeiro nvel de medida, o mais elementar o nominal. Neste nvel, a utilizao de nmeros se baseia no princpio de diferenciao dos nmeros. Em toda e qualquer escala de nvel nominal, poderamos utilizar letras, ou outro smbolo qualquer. Os nmeros no podem ser analisados como indicadores de quantidade, mas sim como coisas diferentes. Ex: Cdigo Internacional de Doena, sexo, religio, esporte praticado.

    Nvel ordinal: neste nvel, alm de permitir a diferenciao, a medida j possui uma noo de ordem. Os diferentes nmeros indicam a existncias de valores diferenciados em relao varivel, permitindo identificar maior e menor posse de uma determinada caracterstica. O importante neste nvel de medida a estrutura hierrquica segundo a qual os dados so

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 3

    apresentados, e no o valor absoluto. Ex: colocao numa prova de 100m, categorias de peso no boxe.

    Nvel intervalar: No nvel intervalar os nmeros permitem a diferenciao, a ordenao e a identificao de intervalos. So utilizados quase todos os procedimentos estatsticos. A nica exceo se aplica a situaes nas quais necessrio considerar a existncia de um zero real. Na escala intervalar, arbitramos um ponto de partida, que ser considerado o zero da medida. Ex: temperatura em Celsius, nota numa prova de matemtica.

    Nvel de razo: No nvel de razo existem todas as possibilidades: diferenciao, ordenao, determinao de intervalos e a existncia de um zero absoluto. Ex: tempo, peso, altura, temperatura em Kelvin.

    Assim, j podemos, num primeiro momento, listar os procedimentos estatsticos que podem ser utilizados de acordo com o nvel de medida utilizado.

    Quadro 1: Procedimentos estatsticos conforme o nvel de medida utilizado ESCALA CARACTERSTICA ESTATSTICA APROPRIADA

    NOMINAL DISTINO Freqncia, porcentagem, qui-quadrado (X2)

    ORDINAL DISTINO

    ORDEM

    Estatstica no-paramtrica: mediana, Mann-Whitney, Correlao ordinal de Spearman, Coeficiente de Contingncia, etc.

    INTERVALAR

    DISTINO ORDEM

    DISTNCIA

    Estatstica paramtrica: Mdia, Mediana, Desvio Padro, Correlao de Pearson, Teste t de Student, Anlise da varincia, Regresso, Anlise da co-varincia, etc.

    RAZO DISTINO

    ORDEM DISTNCIA

    Mdia geomtrica, coeficiente de variao, Logaritmos

    Fonte: Adaptado de Levin (1987).

    1.3 CONCEITOS BSICOS EM PESQUISA COM UTILIZAO DA ESTATSTICA Testar sistematicamente nossas idias sobre a natureza da realidade muitas vezes requer uma

    pesquisa cuidadosamente planejada e executada, que envolve diversos estgios, onde (adaptado de LEVIN, 1987):

    1. O problema a ser estudado reduzido a uma hiptese testvel. Por exemplo: "o volume de mitocndrias na musculatura estriada maior que na musculatura lisa. Reduzir um problema a uma hiptese testvel significa definir o problema e a(s) hiptese(s) em termos operacionais. Uma definio operacional explcita comportamentos observveis (direta ou indiretamente);

    2. Um conjunto de instrumentos adequado desenvolvido. Por exemplo, so elaborados um questionrio ou esquema de uma entrevista, ou um teste especfico selecionado (microscopia);

    3. Dados so coletados, isto , o pesquisador pode ir a campo e fazer uma contagem ou um inqurito. Subentende-se a obteno da amostra a partir da populao;

    4. Descrio dos dados. Compreende um conjunto de operaes, numricas ou grficas, efetuadas sobre os dados estatsticos determinando a sua distribuio; procede-se sua ordenao, codificao e representao por meio de quadros e tabelas.

    5. Os dados so analisados em cotejo com as hipteses iniciais. Consiste em tirar concluses sobre a distribuio da populao, determinar o seu grau de confiana e ainda formular hipteses, tentando verific-las, quanto ao fenmeno em estudo; e

    6. Os resultados da anlise so interpretados e comunicados ao pblico, por exemplo, por meio de conferncia ou publicao.

    Uma das etapas do planejamento a definio do Problema de pesquisa. O problema entendido como o fator que d incio a um estudo cientfico. Ele surge, basicamente, de trs maneiras: 1) quando h falhas nos resultados das investigaes; 2) quando os resultados de vrias pesquisas esto em desacordo ou 3) quando existe uma informao inexplicada. De maneira

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 4

    geral, o problema constitui uma pergunta, Isto , uma forma interrogativa, que segue a forma: a Varivel independente influencia a Varivel dependente? Esta deve ser uma pergunta possvel de resposta do tipo sim ou no (KERLINGER, 2003).

    A partir do problema elaboramos hiptese, que so respostas provisrias aos problemas e so passveis de testagem (KERLINGER, 2003). Assim, enquanto um problema surge da dvida, a hiptese surge da tentativa de soluo, ou seja, de resposta pergunta formulada no problema. uma soluo a priori, fornecida com base no referencial terico disponvel. Nesse nterim, as Hipteses estatsticas referem-se traduo matemtica da hiptese de pesquisa (hiptese alternativa H1 ou Ha) e de uma hiptese contrria (hiptese nula - H0). De fato, todo esforo do pesquisador se dar em funo de H0. Ele procurar rejeit-la, de modo a aceitar H1. A lgica a seguinte: se os dados no permitem sustentar a hiptese nula, eu, ento, aceito a hiptese alternativa como explicao provvel. Lembre-se como foi dito anteriormente, a cincias no lida com a verdade, mas sim com probabilidades.

    Tanto a pesquisa experimental como a no experimental seguem uma determinada lgica no trato das variveis dependentes e independentes.

    A lgica da pesquisa experimental consiste em se pegar 2 grupos equivalentes (ou seja, aos quais foram aplicadas as tcnicas de controle da Varivel Estranha.); introduz-se a Varivel independente em um dos grupos; mede-se a Varivel dependente em ambos os grupos, compara-se a Varivel dependente nos dois grupos; as diferenas na Varivel dependente sero atribudas Varivel independente, a qual ser considerada como a causa. As caractersticas da pesquisa experimental: manipulao da varivel independente, designao aleatria dos sujeitos e rgido controle das variveis estranhas (KERLINGER, 2003).

    J a lgica da pesquisa no experimental consiste em selecionar grupos que se diferenciam nos valores da Varivel independente a ser estudada; medir a Varivel dependente em ambos os grupos; e comparar os resultados e as diferenas na Varivel dependente que sero relacionadas Varivel independente (KERLINGER, 2003).

    1.4 DESCREVENDO AS VARIVEIS Toda anlise inicia-se pela descrio das variveis. Uma anlise descritiva conta com

    algumas estatsticas bsicas como: valor mnimo, mximo, quartis, mdia e mediana, desvio padro e varincia. Deste modo temos uma boa descrio dos valores obtidos na varivel em questo.

    Neste tpico iremos verificar as principais tcnicas estatsticas na descrio de variveis. O clculo secundrio, atente para os conceitos e aplicaes das tcnicas.

    1.4.1- Distribuio de freqncias Os valores que uma ou mais variveis podem assim so passveis de sintetizao. Sintetizar

    esses valores muito til quando se trabalhar com uma grande quantidade de dados e para uma melhor compreenso desses dados podemos agrup-los em nmeros de classes, intervalos e categorias.

    Surge ento o conceito de freqncia que pode ser definida como o nmero de vezes em que se repete um determinado valor

    As informaes relevantes sobre uma varivel podem ser obtidas atravs de sua distribuio de freqncias. Em geral, a distribuio de freqncias apresentada em forma de tabela contendo valores distintos da varivel e as freqncias correspondentes.

    A freqncia pode ser absoluta (nmero de vezes que o valor aparece) ou relativa (nmero de vezes que o valor aparece dividido pelo total de valores), percentual (a freqncia relativa multiplicada por 100) ou acumulada (a soma das freqncias at determinado valor).

    Se varivel foi medida em nvel nominal ou ordinal, basta relatar as freqncias (absoluta, relativa, percentual ou acumulada) de cada categoria.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 5

    Tabela 1: Freqncias dos cursos de graduao Curso i i acumulada r (%) r acumulada (%) Matemtica 9 9 18 18 Biologia 22 31 44 62 Medicina 13 44 26 88 Fisioterapia 6 50 12 100

    Nota: i = freqncia absoluta; r = freqncia relativa

    Quando a varivel foi mensurada no nvel intervalar ou de razo interessante utilizar intervalos de classe (de preferncia de mesma amplitude), onde a freqncia se refere ao nmero de valores da varivel em cada intervalo.

    Deve-se utilizar o procedimento a seguir: a) Estabelea o nmero de intervalos de classe. O recomendado entre 5 e 15. No existe regra, o pesquisador que ir definir. b) Calcule a amplitude dos dados d) Componha os limites dos intervalos. Para o primeiro intervalo considere como limite

    inferior o valor da observao de menor magnitude. e) Os intervalos podem ser denotados como

    [ LIi ; LSi [ ou

    LIi LSi

    isto , fechado esquerda e aberto direita. f) Finalmente, classifique cada observao no intervalo de classe correspondente

    (freqncias absolutas). A partir dessas as demais freqncias so obtidas.

    1.4.2- Medidas de posio (TPICO COBRADO NAS PROVAS DO CESPE-UNB, EM ESPECIAL A MDIA) Medidas de posio ou medidas de tendncia central, como o prprio nome sugere,

    procuram descrever uma varivel num grupo em termos de um nico nmero, com o objetivo de representar como essa varivel est presente naquele grupo. Existem diferentes critrios para isso a escolha ir depender dos nossos objetivos e das condies em que nos encontramos.

    Mdia Aritmtica: a mdia aritmtica de um conjunto de dados o valor obtido somando-se todos os elementos do conjunto e dividindo-se a soma pelo nmero total de elementos. Ou de outro modo, o somatrio de n dividido por n.

    n

    xx

    i=

    onde x a mdia aritmtica, xi os dados do conjunto amostral e n o nmero de valores. Essa medida apresenta um nico resultado, mais tpico ou representativo, a fim de caracterizar

    a realizao de todo o grupo. interessante observar que esse nmero ir definir melhor alguns indivduos do que outros. um princpio parecido como da democracia, em que a vontade da maioria, no de todos, a que vigora.

    Propriedades da Mdia: a) A soma dos desvios de um conjunto de dados em relao a sua mdia nula. b) A soma dos quadrados dos desvios de um conjunto de dados em relao a uma constante

    k mnima quando k for a mdia. c) A mdia de um conjunto de dados acrescidos ou subtrados em cada elemento de uma

    constante k igual a mdia original somada ou subtrada desta constante. d) Multiplicando-se todos os dados por uma constante k, a nova mdia multiplicada por k

    Caractersticas: a) muito influenciada pelos valores extremos da distribuio; b) Localiza-se, em geral, na classe de maior freqncia;

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 6

    c) Na sua determinao so considerados todos os dados da distribuio; d) A sua preciso est na razo direta do nmero de observaes com que calculada; e) nica para um conjunto de dados. f) No pode ser calculada para dados agrupados que apresentam classes extremas abertas.

    Mediana: A mediana o elemento que ocupa a posio central de uma srie de dados. Para encontr-la os dados devem estar dispostos em ordem crescente ou decrescente. Se tivssemos que dividir um pedao de barbante em dois pedaos iguais, intuitivamente iramos trabalhar com a mediana. Se tivermos um nmero mpar de integrantes num grupo, podemos obter a mediana inicialmente ordenando os indivduos de acordo com o valor na varivel de interesse. Em seguida, poderamos identificar o indivduo que divide a amostra em dois subgrupos, um de valor alto e um de valor baixo na medida da varivel. O valor desse indivduo, ser a mediana. Nota-se que ele no ir compor nenhum dos grupos. Se tivermos um nmero par de integrantes no grupo, ser tirada uma mdia do valor dos dois mais prximos do centro da distribuio e o resultado ser a mediana

    Propriedades da Mediana: a) A soma dos mdulos dos desvios dos dados em relao mediana mnima. b) Somando-se ou subtraindo-se uma constante (k) a todas as observaes, a mediana

    somada ou subtrada desta constante (k). c) Multiplicando-se todas as observaes por uma constante (k), a mediana multiplicada

    por esta constante (k) Caractersticas: a) Pode ser obtida em distribuies de freqncias que apresentem classes com limites

    indefinidos; b) muito empregada em pesquisas nas quais os valores extremos tm pouca importncia; c) No influenciada por valores extremos e sim pelo nmero de observaes;

    Por extenso do conceito de mediana, podemos falar de quartis, decis e percentis. Em outras palavras, podemos pensar em valores que dividem o conjunto em partes iguais em relao a uma varivel.

    No caso de querermos dividir a amostra em quatro partes iguais, podemos falar de quartis. Se quisermos dividir os valores em dez partes iguais, falaremos de decis e, finalmente, se dividirmos a amostra em cem partes iguais, falaremos de percentis (Spiegel, 1972).

    Quartis: os quartis dividem uma srie ordenada de dados em quatro (4) partes iguais, e cada uma delas contem ou 25% das observaes. Assim, o Q1 (primeiro quartil) o valor da varivel que deixa atrs de si 25% das observaes; o Q2 (segundo quartil) o valor da varivel que deixa atrs de si 50% das observaes e coincide com a mediana; o Q3 (terceiro quartil) o valor da varivel que deixa atrs de si 75% das observaes.

    A subtrao do primeiro quartil do terceiro quartil (Q3 Q1) denomina-se intervalo interquartlico, e o intervalo onde encontramos 50% das observaes, estando abaixo 25% e acima 25% das observaes. Vale lembrar que os intervalos Q1-Q2 e Q2-Q3 no tm necessariamente a mesma amplitude, mas sim o mesmo nmero de observaes.

    Moda: A moda se refere ao valor que ocorre mais freqentemente numa distribuio. H casos em que no existe moda (amodal) e casos em que a moda no nica (bimodal, multimodal).

    Propriedades da Mediana: a) Somando-se ou subtraindo uma constante a todos os dados, a moda somada ou subtrada

    da mesma constante. b) Multiplicando-se todos os dados por uma constante k, a moda multiplicada por esta

    constante Caractersticas: a) No afetada por valores extremos, desde que estes no constituam a classe modal. b) No apresenta boas propriedades algbricas.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 7

    c) Maximiza o nmero de desvios iguais a zero.

    1.4.3- Medidas de disperso (TPICO COBRADO NAS PROVAS DO CESPE-UNB, EM ESPECIAL O DESVIO-PADRO)

    Em muitas situaes interessa ao pesquisador conhecer no somente a medida de tendncia central, mas tambm a variabilidade dessa medida. Nesse nterim, so teis as medidas de disperso ou de variabilidade.

    Amplitude Total: A amplitude total de um conjunto de dados a diferena entre o maior e o menor valor deste. Para calcul-la, basta subtrair o menor valor do maior.

    mnmxxxAT =

    Quanto maior a amplitude total de um conjunto de dados, maior a disperso ou variabilidade dos valores. A amplitude total tem o grave inconveniente de depender somente dos valores extremos da srie, desprezando assim os valores intermedirios, o que a torna insensvel disperso dos demais valores.

    Desvio-Padro: O desvio-padro e a varincia so medidas que levam em considerao a totalidade dos valores da varivel em estudo, o que faz delas ndices de variabilidade bastante estveis e, por isso mesmo, os mais geralmente empregados. Assim, pode-se definir o desvio-padro como uma medida da magnitude do espalhamento ou disperso dos dados em relao mdia da srie. A expresso para o clculo do desvio-padro amostral (s) :

    s =

    onde xi cada elemento do conjunto de dados, x a mdia do conjunto e n o nmero total de elementos deste.

    J para o desvio-padro populacional () a expresso : ( )2

    i

    N

    x =

    onde xi cada elemento da populao, e N so respectivamente a mdia e o nmero total de elementos da populao.

    O desvio padro pode ser calculado como sendo a raiz quadrada da varincia. Propriedades

    a) Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padro no se altera b) Multiplicando-se todos os dados por uma constante k, o desvio padro multiplicado por k. c) sua unidade de medida a mesma da varivel em questo.

    Um exemplo que demonstra bem a utilidade do desvio apresentado a seguir. Sejam duas turmas do 2 ano do Ensino Mdio turma A e turma B. A mdia em matemtica

    da Turma A 7,0 e a mdia em matemtica da Turma B tambm 7,0. Poderamos considerar estas duas turmas como iguais. No entanto o desvia padro da nota em matemtica da turma A 0, isto todos os alunos tiraram nota 7,0. J na turma B nem todos os alunos tiraram 7,0, alguns alunos tiraram 0,0 e outros tiraram 10,0.

    Isso exemplifica o conceito de variabilidade homogeneidade de uma coleo de dados.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 8

    Varincia: A varincia uma medida estatstica da disperso dos dados em torno da mdia de um conjunto de dados. obtida quando no extramos a raiz quadrada do desvio-padro. A varincia amostral definida como:

    ( )1n

    xxs

    2

    i2

    =

    j a varincia populacional : ( )N

    x2

    i2 =

    Propriedades da varincia a) A varincia de uma constante k nula b) A varincia de uma soma ou diferena entre variveis a soma das varincias das variveis se estas forem independentes. c) Somando-se ou subtraindo-se uma constante k a todos os dados a varincia no se altera. d) Multiplicando-se todos os dados por uma constante k, a varincia multiplicada por k2

    Um dos inconvenientes da varincia que ela no possui a mesma unidade de medida da varivel em questo.

    1.4.4- Tabelas e Grficos Tabelas e grficos so formas especficas de representao de dados. O objetivo fornecer

    informaes rpidas e precisas a respeito das variveis em estudo. Tabela um quadro que resume um conjunto de informaes. Neste sentido algumas precaues devem ser tomadas. a) No utilize mais casas decimais do que o necessrio b) Proponha um ttulo explicativo e inclua as unidades de medida. c) Inclua totais de linhas e/ou colunas para facilitar as comparaes. d) Ordene colunas e/ou linhas quando possvel. Se no houver impedimentos, ordene-as

    segundo os valores, crescente ou decrescentemente. Caso contrrio ordene segundo os nveis ordinais da prpria varivel.

    e) Em geral uma tabela possui mais linhas do que colunas, principalmente se o nmero de colunas ultrapassarem o espao da pgina.

    f) No analise a tabela descrevendo-a, mas sim comentando as principais tendncias sugeridas pelos dados.

    g) Descreva a fonte da tabela, se de outro estudo de outro autor, ou se elaborao prpria. Exemplos:

    Tabela 2: Descrio das variveis utilizadas no estudo. Variveis N MDIA MEDIANA DESVIO PADRO

    Volume sistlico (mL) 46 55,30 55,10 8,15 Volume Diastlico (mL) 46 125,00 127,50 20,06 Idade (anos) 46 22,08 19,00 7,85

    Fonte: Elaborao Prpria

    Outro exemplo: Tabela 3: Tempo de chegada das equipes de Ciclismo.

    Colocao Mdia (min) Desvio Padro 1 lugar 120 10 2 lugar 135 13 3 lugar 160 14

    Fonte: elaborao prpria.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 9

    Neste caso temos a noo de ordenao devido ao nvel de medida da varivel (ordinal). O caso a seguir mostra claramente quando o valor da freqncia deve ser seguido na

    ordenao dos dados na tabela.

    Tabela 4: Medalhas de ouro obtidas pelos pases na Olimpada de Atenas Pas Nmero de Medalhas de Ouro Percentual

    Estados Unidos 35 15,56 China 32 14,22 Rssia 27 12,00 Austrlia 17 7,56 Japo 16 7,11 Alemanha 14 6,22 Frana 11 4,89 Itlia 10 4,44 Coria do Sul 9 4,00 Gr-Bretanha 9 4,00 Cuba 9 4,00 Ucrnia 9 4,00 Hungria 8 3,56 Romnia 8 3,56 Grcia 6 2,67 Brasil 5 2,22 Total 225 100,00

    Fonte: Comit Olmpico Internacional, 2006.

    Os grficos tm a excelente propriedade de impactar visualmente o leitor, mostrando uma impresso rpida e consistente do fenmeno estudado. Grficos nos mostram o comportamento de uma varivel ou ento a relao entre variveis.

    Sugestes para construo de grficos a) Proponha um ttulo explicativo. b) Escolha o tipo de grfico apropriado para os dados. c) Rotule os eixos apropriadamente, incluindo unidades de medida. d) Procure escolher adequadamente as escalas dos eixos para no distorcer a informao

    que se pretende transmitir. Se o objetivo for comparar as informaes de dois os mais grficos, use a mesma escala.

    e) Inclua indicaes de quebra nos eixos para mostrar que a origem (zero) est deslocada. f) Altere as dimenses do grfico at encontrar o formato adequado. g) Inclua uma legenda. h) No exagere nas ilustraes que acompanham o grfico para no o poluir visualmente,

    mascarando seus aspectos mais relevantes.

    Requisitos fundamentais para a representao grfica: - Simplicidade - Clareza - Veracidade

    Grficos para variveis qualitativas Alguns os grficos so mais indicados para determinados tipos de variveis do que outros.

    Em alguns casos pode-se at ser invivel utilizar determinado grfico.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 10

    Quadro 2: Utilizao dos grficos de acordo com o nvel de medida da varivel. Nvel de Medida Grfico Utilizado

    Nominal

    - Circular (setor, pizza, torta) - Grfico de Barras - Grfico de Barras Justapostas - Grficos Pictricos

    Ordinal - Grfico de Barras - Grfico de Barras Justapostas - Circular (setor, pizza, torta) - Grficos Pictricos

    Grficos Circulares (Grficos de Setores, ou Pizza, ou Torta): o cuidado a tomar neste tipo de grfico o nmero de categorias utilizadas. Um nmero muito grande (>5) pode poluir o grfico e dificultar a sua interpretao.

    Sejam os dados:

    Tabela 5: Nmero de vacinas aplicadas no Posto de Sade xx Vacina Quantidade Percentual

    BCG 3000 28,6 SABIN 5000 47,6 TRPLICE 1500 14,3 SARAMPO 600 5,7 HEPATITE 400 3,8 Total 10500 100

    Fonte: Ayres e colaboradores, 2008

    Grfico 1: Nmero de vacinas aplicadas no Posto de Sade xx.

    Fonte: Ayres e colaboradores, 2008

    Caso a varivel for mensurada no nvel ordinal, o grfico feito da mesma forma, alterando-se a ordem na posio dos setores segundo a ordem crescente das categorias.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 11

    Grfico de Barras (ou Diagrama de Barras): Para a confeco de um grfico de barras, constri-se um eixo horizontal ou vertical, e em intervalos apropriados, nesse eixo, colocam-se retngulos sobre o eixo cujas alturas representam, proporcionalmente, as freqncias das caractersticas observadas da varivel em estudo. Neste tipo de grfico as barras devem apresentar-se separadas, pois, do contrrio, sua unio poder implicar continuidade. Alm disso, as categorias resultantes de variveis nominais podem ser dispostas em qualquer ordem ao longo do eixo horizontal (LEVIN. 1987).

    Para os mesmos dados do exemplo anterior (tabela 4) temos:

    Grfico 2: Nmero de vacinas aplicadas no Posto de Sade xx.

    3000

    5000

    1500

    600 400

    0

    1000

    2000

    3000

    4000

    5000

    6000

    BCG

    SABIN

    TRPLICE

    SARAMPO

    HEPATITE

    Fonte: Ayres e colaboradores, 2008

    a) Em geral usa-se uma legenda explicativa, principalmente quando se faz uma comparao visual de dois ou mais grupos.

    b) Se a varivel for qualitativa ordinal, os valores assumidos pela varivel (categorias) devem ser colocados em ordem no eixo adequado.

    Grfico de Barras Justapostas: Para comparar dois ou mais grupos (fatores ou tratamentos), podemos construir um s grfico composto de vrios grficos, um para cada grupo, como no exemplo a seguir:

    Tabela 6: Nmero de indivduos com e sem dengue de acordo com a escolaridade Sem Dengue Com Dengue Total Escolaridade

    n f n f n f Analfabeto 40 76.9 12 23.1 52 27.5 Fundamental 40 80.0 10 20.0 50 26.5 Mdio 40 88.9 5 11.1 45 23.8 Superior 40 95.2 2 4.8 42 22.2 Total 160 84.7 29 15.3 189 100.0

    Fonte: Ayres e colaboradores, 2008

    Um detalhe importante ao observar esta tabela a presena dos percentuais marginais, o que nos permite realizar uma comparao entre o nmero de indivduos com e sem dengue, e (objetivo do grfico a seguir) comparar os indivduos com e sem dengue em funo do nvel de escolaridade.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 12

    Grfico 3: Nmero de indivduos com e sem dengue de acordo com a escolaridade

    Fonte: Ayres e colaboradores, 2008

    O que podemos concluir ao olharmos para este grfico?

    As possibilidades de utilizao de grficos so inmeras, podemos usar dados absolutos, relativos, etc.

    No exemplo abaixo utilizamos os mesmo dados, porm, ao invs da freqncia absoluta utilizamos a freqncia relativa (escolaridade). Tal grfico denominado de grfico de barras ou colunas superpostas.

    Grfico 4: Percentual de indivduos com e sem dengue de acordo com a escolaridade

    Fonte: Ayres e colaboradores, 2008

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 13

    Polgonos de freqncias: Outra representao grfica comumente usada o polgono de freqncias. Muito embora o polgono de freqncias tenha flexibilidade bastante para ajustar-se a uma ampla variedade de situaes, ele tende a sugerir muito mais continuidade do que discriminao; da sua particular utilidade na representao de dados ordinais ou intervalares (LEVIN, 1987).

    Alu n o s Pre s e n te s n o cur s o ( por titu lao )

    30

    106 4

    05

    101520253035

    Graduados E s pec ialis tas Mes tres D outores

    Acrescente-se, ainda, que os pontos num grfico cumulativo so marcados sobre perpendiculares levantadas a partir dos limites superiores de cada intervalo de classe, coisa que no ocorre com o polgono de freqncias comum, onde as marcaes tm como referncia os pontos mdios das classes. Isto se explica pelo fato de que qualquer freqncia acumulada representa o nmero total de sujeitos compreendidos, ao mesmo tempo, dentro e abaixo de um intervalo de classe particular (LEVIN, 1987).

    Grficos para variveis quantitativas Para variveis mensuradas ao nvel intervalar ou de razo devemos trabalhar com intervalos

    de classe, ou ento utilizar as medidas de tendncia central e de disperso, neste caso os grficos mais utilizados so o Boxplot (caixa) e o Histograma. Outra forma, especialmente quando queremos ver a relao de duas variveis, o grfico de disperso.

    Boxplot: o boxplot permite a descrio de dados e a visualizao de sua variabilidade, o que permite a comparao entre diferentes grupos.

    Para a construo do boxplot obtm-se primeiro as seguintes estatsticas: Q1, mediana (Q2), Q3, amplitude interquartlica (Q3 Q1).

    O boxplot obtido seguindo-se os seguintes passos: a) numa reta so marcados Q1, Q2 e Q3. b) acima dessa reta constri-se um retngulo com limites iguais s posies de Q1 e Q3, cortado por um segmento de reta na posio relativa mediana (Q2). c) a partir dos limites do retngulo, traam-se linhas at encontrar um extremo (valor mximo - ii ou mnimo - i) ou um valor correspondente a 1,5 da amplitude interquartlica, se o extremo estiver a mais distante do que isso.

    Os pontos fora desta marcao so chamados de pontos extremos (outliers), ou observaes discrepantes ou ainda de valores atpicos.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 14

    Observe abaixo a representao do grfico Boxplot para os dados de VO2mx de atletas de 3 modalidades esportivas (dados fictcios). Nele a mdia est representada pelo segmento de reta da cor vermelha.

    Grfico 5: Boxplot para o VO2mx de atletas de 3 modalidades

    RemoMaratonaLuta

    30

    40

    50

    60

    70

    80

    90

    Modalidades Esportivas

    VO2m

    x

    Fonte: Elaborao prpria

    O que podemos concluir ao compararmos o VO2mx dos atletas dessas trs modalidades esportivas? Existem valores extremos (atpicos)? Qual grupo parece mais homogneo? Em qual a variabilidade maior?

    Histograma: O histograma um grfico que reflete a forma da distribuio de freqncias da amostra. Tambm procura refletir a estrutura (forma) da populao de onde foi retirada a amostra. Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular as respectivas freqncias. O histograma um grfico de freqncias construdo a partir desta tabela de freqncias (por classes).

    Grfico 6: Histograma e polgono de freqncia para PAD em repouso.

    Fonte: Adaptado de Ayres e colaboradores, 2008

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 15

    Grfico de Disperso: O grfico de disperso exibe graficamente os relacionamentos entre duas variveis. Os pontos de um grfico de disperso so baseados em pares de observaes

    Sendo os dados de estatura e peso de 10 alunos:

    Tabela 7: Peso e estatura dos alunos avaliados Peso (Kg) Estatura (cm)

    50 140 45 130 55 150 80 170 40 120 90 180 60 150 70 160 45 140

    100 200 Fonte: Elaborao prpria

    Vale ressaltar que neste caso os dados de peso e estatura constantes na linha 1 so de um mesmo indivduo.

    Grfico 7: Diagrama de disperso apresentando a relao entre peso e estatura.

    0

    50

    100

    150

    200

    250

    0 20 40 60 80 100 120

    Peso (Kg)

    Es

    tatu

    ra (cm

    )

    Fonte: Elaborao prpria

    Este tipo de grfico muito til para analisar o tipo de relao entre duas variveis, e auxiliam na visualizao da correlao e da regresso (tpicos que sero abordados mais a frente). Em geral os grficos de disperso podem apresentar a tipificao da relao das variveis em termos de direo (nenhuma, positiva ou negativa), forma (linear e no-linear) e fora (nula, fraca ou forte).

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 16

    Diagrama de disperso

    0200400600800

    1000120014001600

    0 5 10 15 20Anos de estudo

    Ren

    da

    Diagrama de disperso

    05

    1015202530

    0 2 4 6 8 10

    Nota em m atem tica

    An

    sie

    dade

    Diagrama de disperso

    02468

    101214

    0 2 4 6 8

    Situao scio-econmica

    Tam

    anha

    da

    fa

    mli

    a

    Diagrama de Disperso

    05

    10152025303540

    0 1 2 3 4N de filhos

    VO2r

    elat

    ivo

    Como voc classificaria os grficos de disperso apresentados acima em termos de direo, forma e fora?

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 17

    2. AMOSTRAGEM, PROBABILIDADE E ESTIMAO DE PARMETROS

    Vamos abordar conceitos bsicos de amostragem, probabilidade (em especial aquela relacionada distribuio normal) e a estimao de parmetros.

    Estes so conceitos primordiais para a inferncia estatstica, e conseqentemente para escolha adequada do teste estatstico.

    Procure ter em mente o seu objeto de estudo. Ou ainda, reveja alguns artigos cientficos e procure identificar os conceitos descritos abaixo.

    2.1 TIPOS DE AMOSTRAGEM Neste tpico devemos ter em mente estas trs definies: - Populao ou universo um conjunto de elementos que possui pelo menos uma

    caracterstica em comum. - Amostra o subconjunto de uma populao, ou ainda, uma parte retirada da populao

    para estudo segundo uma tcnica adequada de maneira a garantir sua representatividade. - Amostragem uma tcnica de escolher amostras que permitem garantir a casualidade na

    escolha, e pode ser classificada em probabilstica ou no-probabilstica. Importncia do uso de amostras. a) Conveniente no estudo de populaes grandes. b) Indispensvel no estudo de populaes infinitas. c) Custo reduzido d) Indispensvel em estudos nos quais a coleta de dados implica na destruio do material

    utilizado. Para evitar problemas na amostragem deve-se observar: a) Definio do universo que ser amostrado face aos objetivos e definio do problema da

    pesquisa. b) Definio da unidade da amostra que ser base do processo da seleo. c) Tamanho da amostra. Apesar da existncia de vrias frmulas, a amostra varia muito de

    pesquisa para pesquisa. Porm, deve se levar em conta o tamanho da populao. Todavia, algumas observaes podem ser levadas em consideraes, a saber: 1) Quanto maior o nmero de elementos numa amostra, menor os desvios dos parmetros em relao ao valor esperado da populao. 2) Quanto maior a homogeneidade da populao, menor a amostra a ser pesquisada.

    Uma boa amostra permite: capacidade de generalizar estimativas da amostra para toda a populao. Imparcialidade. Menor erro amostral possvel, dado o custo, tempo e restries operacionais. Capacidade de medir a preciso das estimativas.

    Amostragem no-probabilstica: quando as unidades amostrais so escolhidas a esmo ou intencionalmente; por exemplo, escolhendo alunos da sua turma, amigos ou vizinhos. Destacam-se dentre elas as amostragens por Convenincia, por Julgamento e por Quota.

    Amostragem probabilsticas: quando as unidades amostrais so escolhidas mediante mecanismos de sorteio.

    Pelo mesmo motivo da busca da imparcialidade e representatividade usadas no plano experimental, sempre que se puder deve-se planejar o levantamento evitando a parcialidade (vcio) na seleo, escolhendo-se os elementos que participaro da amostras aleatoriamente; ou seja usando amostra probabilstica.

    A partir do estudo do conjunto de dados obtido na amostra, faz-se uma extrapolao dos seus resultados para a populao toda. Essa extrapolao chamada inferncia.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 18

    Esquematicamente:

    a constante desconhecida e dever ser estimada a partir dos estudo e anlise dos n elementos da amostra.

    Assim, o erro amostral pode ser dado por: ERRO AMOSTRAL = VALOR OBSERVADO VALOR ESPERADO

    Na amostragem probabilstica se destacam a Amostragem Aleatria Simples, a Sistemtica, a Estratificada e a Conglomerado.

    Determinao do tamanho da Amostra: em todos os casos devemos ter uma idia do tamanho da amostra que queremos para realizar a nossa pesquisa. Existem diversas frmulas para isso. Cada caso um caso. No entanto podemos ter como guia geral uma frmula simples genrica como a que se segue.

    1 n0 =

    E02

    e

    N x n0 n =

    N + n0

    onde N tamanho da populao; E0 erro amostral tolervel; n0 primeira aproximao do tamanho da amostra; n o tamanho da amostra.

    2.2 CONCEITOS BSICOS E DISTRIBUIO DE PROBABILIDADES Processo aleatrio: Qualquer fenmeno que gere resultado incerto ou casual. Ex.: Jogar uma moeda e observar a sua face superior; Sexo do primeiro filho de um casal; Nmero de chips defeituosos encontrados num lote de 100 chips; Peso de uma pessoa. Caractersticas de um processo (experimento) aleatrio Cada experimento pode ser repetido indefinidamente sob as mesmas condies; No se conhece a priori o resultado do experimento, mas pode-se descrever todos os

    possveis resultados;

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 19

    Quando o experimento for repetido um grande nmero de vezes, surgir uma regularidade do resultado, isto , haver uma estabilidade da freqncia relativa da ocorrncia de um particular resultado.

    2.2.1- PROBABILIDADE A cincia no nos oferece certeza. No oferece nem mesmo certeza relativa. Oferece

    apenas conhecimento probabilstico: Se A for feito, ento provavelmente B ocorrer. Uma maneira de definir a pesquisa dizer que ela um meio de ajudar a reduzir a incerteza. A pesquisa emprica jamais pode nos dizer que alguma coisa certamente assim. Pode, entretanto, dizer: "As probabilidades de tal coisa ser assim ou assado so de 70 para 30".(KERLINGER, 2003).

    A probabilidade e o pensamento probabilstico so o ncleo da cincia e da pesquisa. Infelizmente, difcil definir a probabilidade satisfatoriamente. Vamos usar uma abordagem intuitiva.

    A probabilidade de um acontecimento o nmero de casos "favorveis" dividido pelo nmero total de casos (igualmente possveis). (KERLINGER, 2003).

    Sempre h incerteza. As cincias naturais oferecem maior certeza do que as comportamentais. Alis, todas as disciplinas cientficas so mais ou menos incertas. Todas as afirmativas, em outras palavras, vm acompanhadas com um valor p implcito ou explcito. (KERLINGER, 2003).

    Precisamos entender perfeitamente que cada assero, cada afirmativa de relao vem acompanhada de uma "etiqueta" probabilstica. Sempre que dizemos "Se p, ento q", o que dizemos "Se p, ento provavelmente q". O que acontece na vida se repete na cincia: a certeza um mito, para sempre fora do nosso alcance. (KERLINGER, 2003).

    Noes de probabilidade Probabilidade (probability, chance, likelihood)

    uma afirmao numrica sobre a possibilidade de que algum evento ocorra. Quantifica o grau de incerteza de eventos, variando de 0 (0%) a 1 (100%). Um evento impossvel de ocorrer tem probabilidade 0 (zero) Um evento certo tem probabilidade 1 (um) Quando se joga uma moeda, no se sabe se vai sair cara. Mas sabe-se que a probabilidade

    de sair cara 0,5 = 50% = 1/2. Dizer que a eficcia de uma vacina de 70% corresponde a dizer que cada indivduo

    vacinado tem probabilidade 0,7 de ficar imune. Deste modo, a probabilidade pode ser vista como uma medida da possibilidade de

    ocorrncia de um particular evento. Um problema da definio clssica de probabilidade reside no fato de em sua definio lanar-se mo do conceito de eventos equiprovveis, e portanto da expresso a qual se deseja definir.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 20

    2.2.2- A CURVA NORMAL Apesar dessa grande diversidade, h uma distribuio de freqncias com a qual muitos de

    ns j nos familiarizamos, se no por outra razo, pelo fato de termos sido classificados de acordo com ela por nossos professores. Essa distribuio, comumente chamada curva normal, um modelo terico ou ideal que resulta muito mais de uma equao matemtica do que de um real delineamento de pesquisa com posterior coleta de dados. Entretanto, a utilidade da curva normal para o pesquisador pode ser evidenciada atravs de suas aplicaes a efetivas situaes de pesquisa (LEVIN, 1987).

    Caractersticas da Curva Normal A curva normal um tipo de curva simtrica, suave, cuja forma lembra um sino e, por isso,

    amplamente conhecida por "curva em sino". possvel que o aspecto mais marcante dessa curva seja a sua simetria; se "dobrssemos" a curva em seu ponto central (que corresponde freqncia mxima), daramos origem a duas metades, sendo que cada uma delas seria a imagem espelhada da outra. (LEVIN, 1987).

    Alm disso, a curva normal unimodal, isto , possui um s (pico ou) ponto de freqncia mxima; esse ponto, por sua vez, aquele situado no meio da distribuio (curva), em que a mdia, a mediana e a moda coincidem. A partir do topo (central, arredondado), a curva normal "cai" gradualmente at formar as caudas (duas, uma de cada lado), que se estendem de forma indefinida, aproximando-se cada vez mais da linha de base (eixo das abscissas) sem, entretanto, jamais toc-la. (LEVIN, 1987).

    -----------------------------------------------------

    Formato da Curva Normal

    Se atentssemos para as caractersticas fsicas dos seres humanos, estatura, por exemplo, veramos que a maioria dos adultos estaria na faixa que vai de 152 cm (aprox.) at 183 cm (aprox.), com muito pouca gente menor que 152 cm ou maior que 183 cm. (LEVIN, 1987).

    O mundo hipottico da curva normal no difere de forma radical do mundo "real" em que vivemos no momento. Fenmenos tais como estatura, QI, orientao poltica, desgaste dos pisos etc. aproximam-se, na prtica, at que muito bem da distribuio normal terica. Pelo fato de tantos fenmenos terem essa caracterstica - isto , pelo fato de ela ocorrer to freqentemente na natureza (e por outras razes que logo se tornaro aparentes) - pesquisadores de diferentes campos tm feito uso extensivo da curva normal, aplicando-a aos dados que eles coletam e analisam.

    Observe-se, porm, que alguns fenmenos no campo social - como em qualquer outro - simplesmente no se ajustam noo terica da distribuio normal. Muitas distribuies so assimtricas; outras tm mais de uma moda; outras so simtricas, mas no tm a forma de "sino". Como exemplo concreto, consideremos a distribuio de riqueza no mundo. fato bem conhecido que "os que tm" superam de longe "os que no tm".

    Vemos, assim, que no possvel aplic-la com liberdade a todas as distribuies que o pesquisador obtm, e deve, ao contrrio, ser usada com uma boa dose de bom senso. Felizmente os estatsticos sabem que grande quantidade de fenmenos de interesse segue o modelo normal. (LEVIN, 1987).

    A rea sob a curva normal A fim de podermos empregar a curva normal na soluo de problemas, precisamos, antes,

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 21

    aprender o significado da expresso "rea sob a curva normal": aquela poro do plano, compreendida entre a curva e a linha de base, que corresponde, em qualquer distribuio normal, a 100% dos dados considerados. A Figura abaixo ilustra essa caracterstica.

    A rea sob a Curva Normal

    A natureza simtrica da curva normal leva-nos a tirar outra concluso importante: qualquer distncia medida em "sigmas", acima ou abaixo da mdia, contm a mesma poro da rea sob a curva. Ento, se 34,13% da rea total situam-se entre a mdia e 1DP acima de X, tambm 34,13% da rea total situam-se entre a mdia e 1DP abaixo de X; se 47,72% situam-se entre a mdia e 2DP acima de X, tambm 47,72% situam-se entre a mdia e 2DP abaixo de X; finalmente, se 49,87% situam-se entre a mdia e 3DP acima de X, tambm 49,87% situam-se entre a mdia e 3DP abaixo de X. (LEVIN, 1987).

    Em outras palavras, como ilustra figura a seguir, 68,26% da rea total sob a curva normal (34,13% + 34,13% = 68,26%) caem entre -1 e +1, sendo a mdia (aritmtica), X, o ponto de referncia; 95,44% da rea total (47,72% + 47,72%) caem entre - 2 e +2 a partir de X; 99,74% da rea total - que, alis, praticamente toda a rea sob a curva - caem entre -3 e +3 (sempre X como ponto de partida).

    Porcentagens da rea Total sob a Curva Normal Compreendidas

    O clculo da distncia sigma a partir de X produz um valor chamado escore z ou escore padronizado, que indica, em unidades de desvio padro, o sentido e o grau com que um dado escore bruto se afasta da mdia da distribuio qual ele pertence.

    Assim, um escore z de + 1,4 indica que o escore bruto fica a 1,4 DPs (ou quase 1+1/2 DPs)

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 22

    direita (acima) da mdia, enquanto que um escore z de -2,1 significa que o escore bruto correspondente cai esquerda (abaixo) da mdia, num ponto ligeiramente superior a 2 DPs .

    Obtemos um escore z atravs do clculo do escore-diferena que d a distncia de um X qualquer at a mdia - e, ento, pela diviso dessa diferena por .

    Este clculo til para saber o quanto um valor est distante da mdia em termos de desvio padro

    Probabilidade e curva normal A curva normal pode ser usada em conjuno com os escores z. A curva normal uma distribuio na qual possvel determinar probabilidades associadas a

    todos os pontos da linha de base. A curva normal uma distribuio de freqncias; a freqncia total sob a curva igual a 100%; essa curva apresenta uma rea central que circunda a mdia, onde se localizam os escores mais freqentes, e h, ainda, reas menores progressivamente mais prximas de ambas as extremidades (caudas), onde encontramos, em pequenas propores, escores muito altos ou muito baixos. Ento, em termos probabilsticos, podemos dizer que a probabilidade decresce medida que, na linha de base, nos afastamos da mdia em ambos os sentidos.

    Desse modo, dizer que 68,26% da freqncia total sob a curva normal caem entre -1 e +1 , a partir da mdia, o mesmo que dizer que a probabilidade de cerca de 68 em 100 de que um escore bruto qualquer caia dentro desse intervalo. De forma anloga, dizer que 95,44% da freqncia total sob a curva normal caem entre -2 e +2 , a contar da mdia, o mesmo que dizer que a probabilidade de aproximadamente 95 em 100 de que um escore bruto qualquer venha a situar-se dentro desse intervalo e assim por diante. (LEVIN, 1987).

    Expressa sob a forma de razo (quociente), a probabilidade ser sempre um nmero que oscila entre 0 e 1. A probabilidade de ocorrncia de um evento 0 quando estamos absolutamente seguros de que ele no ocorrer; 1 quando estamos convencidos de que sem dvida nenhuma ele ocorrer. O problema que os pesquisadores nunca esto totalmente seguros a respeito de coisa alguma! Em conseqncia, podemos, via de regra, esperar encontrar probabilidades iguais a 0,60, 0,25 ou 0,05; mas raras vezes possvel esperar reduzir a probabilidade a 0 ou, por outro lado, elev-la a 1. (LEVIN, 1987).

    Assimetria A assimetria o grau de deformao de uma curva de freqncias. Uma distribuio de

    freqncia simtrica, ou seja, que apresenta um grfico cuja as duas caudas possuem a mesma configurao (figura a), quando a mdia, a mediana e a moda da srie forem iguais. A distribuio de freqncia tambm pode ser assimtrica positiva (figura b) e assimtrica negativa (figura c), a primeira possui uma cauda mais alongada direita e ocorre quando a mdia da srie for maior que a moda e a segunda apresenta uma cauda mais alongada esquerda e ocorre quando mdia da srie for menor que a moda.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 23

    A assimetria pode ser obtida pelo coeficiente de assimetria (Cs) que uma medida adimensional..

    A distribuio ser simtrica quando Cs = 0, se Cs for maior que zero a assimetria positiva e se Cs for menor que zero a assimetria negativa.

    Curtose A curtose o grau de achatamento de uma distribuio em relao a uma distribuio

    padro, denominada curva normal. A distribuio que apresenta uma curva de freqncias mais fechada que a normal,

    denominada leptocrtica (figura a). Quando a curva de freqncia mais aberta que a normal recebe o nome de platicrtica (figura b) e a curva normal denominada de mesocrtica (figura c).

    2.2.3- INTERVALOS DE CONFIANA PARA MDIA E PARA PROPORO. TRATA-SE DE UM ASSUNTO RECORRENTE NAS PROVAS ORGANIZADAS PELO CESPE-UNB

    Estimao por ponto e por intervalo. Quando a estimativa de um parmetro populacional dada por um nico valor, tem-se uma

    estimativa pontual do parmetro populacional, desconhecido, como por exemplo: a altura mdia de uma amostra de 500 universitrios 1,68m, uma estimativa pontual da verdadeira altura mdia da

    populao de universitrios. Porm sabe-se que x ~ );(2

    nN , assim sendo, para cada amostra

    retirada da populao, poder se obter uma diferente estimativa para . Deste modo, torna-se mais interessante obter-se, a partir, de uma determinada amostra, um intervalo que apresente uma probabilidade conhecida de conter o verdadeiro parmetro populacional, ou seja, obter uma estimativa por intervalo para o parmetro em questo. Como por exemplo P(1, 60 1, 76) = 0, 95, ou seja existe 0,95 de probabilidade de que a verdadeira mdia populacional esteja entre 1,60 e 1,76 metros, ou ainda existe 95% de confiana em se afirmar que a verdadeira mdia populacional

    a)

    b) c)

    a) b) c)

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 24

    esteja entre 1,60 e 1,76 metros. Apesar disto, o uso de estimativas pontuais imprescindvel, haja vistas, serem necessrias para a obteno das estimativas por intervalo.

    Intervalos de confiana Conhecendo-se a distribuio amostral do estimador, de um parmetro , pode-se facilmente

    determinar um intervalo que apresente uma confiana 1 para , como ser visto a seguir.

    Intervalo de confiana para a mdia Varincia conhecida (TPICO COBRADO NAS PROVAS DO CESPE-UNB) E o intervalo de confiana para , com uma confiana 1 pode ser ento escrito como:

    nzXIC a

    2

    1)( = em que n o tamanho da amostra.

    EX.: Os dados abaixo apresentam condutividade trmica de uma amostra de 10 peas metlicas (ferro).

    x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 41,60 41,48 42,34 41,95 41,86 42,18 41,72 42,26 41,81 42,04

    Obtenha o I.C. (95%) da mdia da condutividade trmica nessas peas metlicas, para 30,0= . Soluo:

    n

    xX

    n

    i i ==

    1= 924,41 ; 30,0= 96,1025,0

    205,0

    2

    === zzz

    Assim: n

    zxIC a

    21)( = = 10

    30,096,1924,41 = 186,0924,41

    ento IC. 95,0)( =( 110,42738,41

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 25

    Temos:

    7,8=X ; )1()(

    12

    2

    =

    =

    n

    xxS

    n

    i i= =

    =

    )110()7,8(10

    12

    i ix

    = 01,49

    )7,89()7,810()7,86()7,811()7,86()7,89()7,87()7,812()7,88()7,89( 2222222222=

    +++++++++

    Assim 01,42 =S , com isso 2S

    n

    stxIC

    21)( = 10

    27,8)( 025,095,0 tIC = 102262,27,8 = = 43,17,8 =

    13,1027,7)( 95,0 = IC

    Amostras Grandes (n > 30) A medida que aumenta-se o tamanho da amostra, a distribuio t se Student se aproxima da

    distribuio normal, deste modo, quando se estiver trabalhando com amostras grandes (n > 30) pode-se utilizar a distribuio normal padronizada, z em lugar da t na obteno dos intervalos de confiana mesmo que 2 seja desconhecida, isto , utilizar 2S .

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 26

    3. ESTATSTICA INFERENCIAL

    Agora iremos utilizar alguns testes de hiptese com deciso estatstica. A maioria desses testes pressupe que amostra analisada tenha distribuio normal. O grfico de histograma e do boxplot nos d uma idia da distribuio, porm podemos usar o teste Shapiro Wilk para verificarmos se a distribuio no difere da normal.

    Os testes de hiptese podem ser classificados como paramtricos e No-paramtricos Paramtricos: calcula as diferenas numricas exatas entre os resultados. No paramtricos: apenas consideram se certos resultados so superiores ou inferiores a outr

    os resultados.

    Requisitos para utilizao de testes paramtricos Quando se pretende empregar um teste t de Student ou uma ANOVA para fazer

    comparaes entre amostras (testes paramtricos), existe uma lista de requisitos que inclui, entre outros: 1. que a varivel tenha sido mensurada num nvel intervalar; 2. que a distribuio seja simtrica e mesocrtica; 3. que a caracterstica estudada (varivel) tenha distribuio normal numa dada populao.

    Sempre que no se pode admitir a simetria e a normalidade de distribuio, ou os dados foram recolhidos num nvel de mensurao inferior ao intervalar, devemos recorrer a testes que no-paramtricos.

    Vantagens dos testes no-paramtricos Podem ser utilizados, mesmo quando os seus dados s podem ser medidos num nvel ordinal

    , isto , quando for apenas possvel orden-los por ordem de grandeza, podem ser utilizados mesmo quando os seus dados so apenas nominais, isto , quando os sujeitos podem apenas ser classificados em categorias.

    3.1 - TESTES DE HIPTESES (TPICO COBRADO NAS PROVAS DO CESPE-UNB) Para a realizao de um teste de hipteses, deve-se formular duas hipteses estatsticas, a saber: Hiptese nula (H0): a hiptese que ser testada, sendo geralmente formulada com o intuito de ser rejeitada. Hiptese alternativa (H ou H1): qualquer hiptese que contrarie H0.

    Rejeitar a hiptese nula quando deveramos t-la aceitado ocasiona o chamado erro alfa (ou erro tipo I).

    Erro beta (ou erro tipo II), assim que se designa o erro de aceitar a hiptese nula quando, na verdade, ela deveria ter sido rejeitada.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 27

    3.1.1 NVEIS DE SIGNIFICNCIA (TPICO COBRADO NAS PROVAS DO CESPE-UNB) O p-valor (nvel de significncia observado) o menor valor para o qual H0 seria rejeitada,

    quando um procedimento de teste especfico usado em um determinado conjunto de dados. Assim, quando pvalor implica na rejeio de H0 no nvel . Ou se pvalor > implica na no rejeio de H0 no nvel .

    Traduzindo: Para decidir se a diferena amostral obtida estatisticamente significante - resultado de uma real diferena entre as populaes e no apenas produto de erro amostral - habitual estabelecer um nvel de confiana (tambm chamado nvel de significncia), nvel esse que representa a probabilidade com que a hiptese nula pode ser rejeitada com confiana (segurana). Ou, dizendo de outro modo, a probabilidade com que a hiptese experimental pode ser aceita (com confiana). Em conseqncia, decidimos pela rejeio da hiptese nula sempre que for muito pequena a probabilidade de que a diferena amostral tenha sua origem no erro de amostragem (por exemplo, 5 casos em 100). (LEVIN, 1987).

    Por uma questo de conveno, usamos o nvel de confiana (significncia) de 0,05 (= 5%). Em termos mais simples, estamos dispostos a rejeitar a hiptese nula se a diferena amostral obtida ocorrer por acaso somente 5 vezes ou menos em 100 (isto , 5% no mximo). O nvel de confiana de 0,05 foi indicado graficamente na Figura 8.6. Como ela bem ilustra, este nvel de confiana encontra-se nas reas pequenas das caudas da distribuio de diferenas entre mdias. Essas so as reas sob a curva que representam uma distncia de (mais ou menos) 1,96 desvios padres contados a partir de zero, que a mdia das diferenas.

    Os nveis de confiana no nos oferecem garantia absoluta quanto correo da hiptese nula. Sempre que decidimos rejeit-la a um certo nvel de significncia, expomo-nos ao risco e estar tomando a deciso errada. (LEVIN, 1987).

    NVEIS DE SIGNIFICNCIA Abordagem do valor Crtico Quando o valor de p no for calculado adotamos o modelo do valor crtico. Assim se o valor

    calculado do teste (t, z) se posiciona na regio de aceitao estabelecida pelo valor crtico (tabelado), para o nvel de significncia de 0,05 ou menor, aceitamos a hiptese nula. Caso contrrio (valor calculado cai na regio de rejeio) rejeitamos a hiptese nula.

    Rejeita Ho

    Rejeita Ho

    Aceita Ho

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 28

    3.1.2- QUI-QUADRADO O Qui-quadrado obtido somando-se a diferena ao quadrado entre as freqncias

    observadas e as esperadas, dividido pelas freqncias esperadas.

    O = nmero de casos observados na i-sina categoria; E = nmero de casos esperados na i-sina categoria quando H0 verdadeira; K = nmero de categorias; e Gl = (K 1) Das diversas utilidades do teste qui-quadrado uma delas comparar freqncias numa tabela

    de contingncia. O teste de Qui-Quadrado utilizado para comparao entre as freqncias observadas e as

    esperadas segundo um modelo probabilstico qualquer. utilizado para testar se existe diferena significativa entre o nmero observado de objetos,

    ou respostas, ocorrendo em cada categoria e um nmero esperado baseado na hiptese nula H0. Ele estabelece o grau de correspondncia entre as observaes e esperadas em cada

    categoria. O mais "popular" teste no-paramtrico de significncia utilizado em pesquisa chama-

    se qui-quadrado (2). A hiptese nula para o teste de qui-quadrado estabelece que as populaes no diferem

    relativamente freqncia com que ocorre uma caracterstica particular; por outro lado, a hiptese experimental estabelece que as diferenas amostrais refletem diferenas reais na populao matriz - a partir da freqncia relativa de uma dada caracterstica.

    Requisitos para o uso do qui-quadrado 1. "Comparao" entre duas ou mais amostras. 2. Dados pertencentes ao nvel nominal de mensurao. 3. Amostragem aleatria. 4. As freqncias esperadas (tericas) por casela no devem ser muito pequenas.

    3.1.3- TESTE Z: (TPICO COBRADO NAS PROVAS DO CESPE-UNB) Este teste utilizado quando conhecemos a varincia da populao, os dados so

    independentes e seguem uma distribuio normal. A hiptese nula define que (mdia populacional) possui um valor numrico especfico, 0. Seja X1, ...,Xn uma amostra aleatria de tamanho n da populao normal. Ento, a mdia amostral X possui uma distribuio normal com valor esperado = e desvio

    padro = / n A estatstica Z obtida pala padronizao de X sob a suposio de H0 ser verdadeira.

    n

    XZ

    =

    Da mesma maneira podemos dizer:

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 29

    Com base no que foi visto neste tpico voc poder responder a questo 3, itens 4 e 5.

    3.1.4- TESTE t (TPICO COBRADO NAS PROVAS DO CESPE-UNB) Teste de hiptese para a mdia atravs do uso da distribuio t de Student. A distribuio t, com n 1 gl, utilizada quando a distribuio amostral da mdia segue a

    distribuio normal, mas desconhecido. Para a abordagem do valor crtico, o procedimento idntico ao descrito para a distribuio

    Z, sendo que o teste estatstico dado por:

    e temos as seguintes hipteses: H0: No existe diferena significativa entre as mdias da populao e da amostra; H1: Existe diferena significativa entre as mdias da populao e da amostra;

    Da mesma maneira podemos dizer:

    Com base no que foi visto neste tpico voc poder responder a questo 7, item C.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 30

    3.1.5- ANLISE DA VARINCIA Para fazer uma anlise de varincia, a variao total de um conjunto de escores tratada

    como sendo divisvel em dois componentes: a distncia dos escores brutos com relao s mdias dos grupos a que pertencem - e a isto se chama variao dentro dos grupos -, e a prpria distncia existente entre as mdias dos vrios grupos o que recebe o nome de variao entre grupos. (LEVIN, 1987).

    De modo similar, a anlise de varincia comporta uma razo F, cujo numerador representa a variao entre os grupos comparados, e cujo denominador contm uma estimativa da variao dentro desses grupos. A estatstica F (razo F) indica o tamanho da diferena entre os grupos em funo do tamanho da variao dentro de cada grupo. Da mesma forma como era verdade para a estatstica t, quanto maior a estatstica F (quanto maior a variao entre os grupos com relao variao dentro dos grupos), maior a probabilidade de rejeitar-se a hiptese nula e aceitar-se a hiptese experimental. (LEVIN, 1987).

    Um F significante d-nos uma informao a respeito da diferena global existente entre os grupos (amostras) estudados. Se estivssemos pesquisando a diferena entre apenas duas mdias amostrais, nenhuma anlise adicional seria necessria para a interpretao de nosso resultado: em tal situao, a diferena obtida ou estatisticamente significante ou no, dependendo da magnitude de F. Entretanto, quando encontramos um F significante relacionado com diferenas entre trs ou mais mdias, pode ocorrer que seja importante determinar onde se situam essas diferenas. (LEVIN, 1987).

    Felizmente, estatsticos desenvolveram vrios outros testes que permitem fazer comparaes mltiplas a partir de um F significante e localizar onde se situam as diferenas significantes entre mdias. O teste DHS de Tukey um dos mais teis no terreno da comparao mltipla. (Obs.: DHS significa "diferena honestamente significante".)

    O DHS de Tukey usado apenas quando um F significante j foi obtido. Por este mtodo, o que fazemos comparar a diferena entre quaisquer duas mdias com a DHS. Uma diferena entre duas mdias diz-se estatisticamente significante s se for igual a ou maior que a DHS. (LEVIN, 1987).

    A anlise de varincia s deve ser feita depois de o pesquisador ter levado em conta as seguintes exigncias:

    1. Comparao entre trs ou mais mdias independentes - A razo F geralmente empregada para fazer-se uma comparao entre trs ou mais mdias extradas de amostras independentes. A estatstica F no se presta para testes em que o nmero de amostras menor que dois. Porm, no caso especfico de duas amostras, tanto faz usar F ou t.

    2. Dados intervalares - Ao fazer uma anlise de varincia, pressupomos ter atingido o nvel intervalar de mensurao. Por igual raciocnio, dados categorizados ou ordenados no devem ser usados.

    3. Amostragem casual - Nossas amostras devero ter sido extradas aleatoriamente, de uma dada populao de escores.

    4. Distribuio normal - Admitimos que a varivel em foco possui, na populao da qual se extraem as amostras, distribuio normal.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 31

    4. CORRELAO E REGRESSO

    4.1 CORRELAO DE PEARSON Com o auxlio do coeficiente de correlao (linear) de Pearson (r), podemos determinar a

    fora e o sentido da relao entre as variveis X e Y desde que elas tenham sido mensuradas no nvel intervalar. O r de Pearson reflete a extenso em que cada sujeito amostral consegue obter o mesmo escore z nas duas variveis (X e Y).

    Teste da Significncia do r de Pearson O coeficiente de correlao (linear) d-nos uma medida precisa da fora e do sentido da

    correlao (existente entre as variveis) na amostra estudada. Se tivermos extrado uma amostra aleatria de uma particular populao, podemos ainda querer verificar se a associao obtida entre X e Y existe de jato na populao, e no resulta meramente de erro amostral (= ao do acaso).

    Para testar a significncia de uma medida de correlao, geralmente estabelecemos a hiptese de que no existe correlao na populao. Com respeito ao coeficiente de correlao (linear) de Pearson, a hiptese nula (H0) fixa que

    r = 0 enquanto que a hiptese experimental (hiptese alternativa, Ha ou H1) estabelece que r 0 semelhana do que fizemos em captulos anteriores, testamos a hiptese selecionando um

    nvel de significncia igual a 0,05 ou 0,01, aplicando, a seguir, a prova adequada.

    Requisitos para o Uso do Coeficiente de Correlao de Pearson A fim de empregar-se corretamente o coeficiente de correlao de Pearson como medida de

    associao entre as variveis X e Y, os seguintes requisitos devem ser levados em conta: 1. Correlao linear - o r de Pearson s se aplica a correlaes lineares entre X e Y. No existe

    uma relao causal, apenas uma associao. 2. Dados intervalares - As variveis X e Y devem ser mensuradas, no mnimo, a nvel

    intervalar, de sorte que seja possvel trabalhar com escores. 3. Amostragem casual - Os sujeitos amos trais devem ter sido extrados aleatoriamente de

    uma dada populao. Se assim no for, no ter nenhum sentido a prova de significncia do coeficiente obtido.

    4. Variveis distribudas normalmente - Para que seja possvel testar a significncia do r de Pearson, necessrio que ambas as variveis, X e Y, tenham distribuio normal na populao. Quando as amostras so pequenas, qualquer descuido na observncia dessa normalidade de distribuio pode comprometer seriamente a validade do r de Pearson. Entretanto, esse requisito deixa de ter importncia to grande quando o tamanho das amostras igual a ou maior que 30.

    Fora da correlao Descobrir a existncia de uma relao no esclarece muito a respeito do grau de associao ou

    correlao entre duas variveis. Muitas so as relaes estatisticamente significantes; poucas expressam correlao perfeita ou exata. Ilustremos: sabemos que peso e estatura so variveis associadas, uma vez que, quanto mais alta a pessoa, maior tende a ser seu peso. H numerosas excees regra, entretanto. Algumas pessoas altas pesam muito pouco; algumas pessoas baixas pesam muito. Da mesma forma, uma relao entre orientao para estudos universitrios e uso de entorpecentes no prenuncia a possibilidade de encontrarmos centenas de no-viciados entre estudantes que pretendam continuar a vida acadmica ou muitos viciados entre os que no planejam freqentar a universidade.

    Convencionalmente, num diagrama de disperso, a varivel X localiza-se no eixo horizontal, enquanto que a varivel Y, no vertical.

    Podemos dizer que a fora de correlao entre X e Y aumenta medida que os pontos no diagrama de disperso, mais compactamente se agrupam em torno de uma reta imaginria. Portanto, a Figura (homens) representa uma correlao mais forte do que a (mulheres), muito embora ambos

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 32

    os diagramas indiquem que a renda tende a aumentar com o aumento dos anos de escolarizao. Tais dados, na verdade, sugerem fortemente que a renda das mulheres (com relao dos homens) est menos relacionada com o nvel de escolaridade por elas atingido.

    Diagrama de disperso

    0200400600800

    1000120014001600

    0 5 10 15 20Anos de e s tudo

    Ren

    da

    Diag rama de disp erso

    0200400600800

    1000120014001600

    0 5 10 15 20Anos de e s tudo

    Ren

    da

    Homens Mulheres Diagramas de Disperso Ilustrativos de Diferenas na "Fora da Relao" entre "Escolaridade" e "Renda"

    (Homens e Mulheres).

    Sentido da correlao. (LEVIN, 1987). A correlao pode ser classificada, quanto ao sentido, em positiva ou negativa. Uma

    correlao positiva indica que os respondentes que obtiveram escores altos na varivel X tendem a obter escores tambm altos na varivel Y. De forma recproca, respondentes que obtm escores baixos em X tendem a obter escores tambm baixos em Y (e, nesse caso, a correlao tambm positiva). A correlao positiva pode ser ilustrada a partir da relao entre escolaridade e renda. Como j vimos antes, respondentes com muitos anos de escolaridade tendem a apresentar rendas anuais maiores do que aqueles que freqentaram a escola por poucos anos.

    Diz-se que h correlao negativa quando, com relao aos mesmos respondentes, medida que se obtm escores altos na varivel X, h a propenso de se obterem escores baixos na Y. Reciprocamente, ocorrer tambm correlao negativa se, em correspondncia a valores baixos na varivel X, existir uma tendncia a valores altos na varivel Y.

    A relao ansiedade e rendimento acadmico exemplo caracterstico de correlao negativa. O desempenho tende a diminuir medida que a ansiedade aumenta.

    Diagrama de disperso

    05

    1015202530

    0 2 4 6 8 10

    Nota em m atem tica

    An

    sied

    ade

    Correlao entre ansiedade e desempenho acadmico.

    Coeficiente de correlao O procedimento que permite trabalhar com correlaes no lineares (curvilneas) situa-se

    alm do escopo deste texto. Por essa razo, vamos voltar nossa ateno para os chamados coeficientes de correlao linear, que expressam, numericamente, tanto a fora quanto o sentido da

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 33

    correlao linear. Tais coeficientes de correlao oscilam entre -1,00 e +1,00 conforme se segue:

    -1,00 correlao negativa perfeita -0,95 correlao negativa forte -0,50 correlao negativa moderada -0,10 correlao negativa fraca 0,00 ausncia de correlao +0,10 correlao positiva fraca +0,50 correlao positiva moderada +0,95 correlao positiva forte +1,00 correlao positiva perfeita

    Vemos, pois, que valores numricos negativos, tais como -1,00, -0,95, -0,50 e -0,10, indicam correlao negativa, enquanto que valores numricos positivos, como, por exemplo, +1,00, +0,95, +0,50 e +0,10, so indicativos de correlao positiva. Em termos de grau de associao, quanto mais prximo de 1,00 em ambos os sentidos, maior a fora da correlao. Como tal fora independente do seu sentido, podemos dizer que -0,10 e +0,10 so iguais quanto fora (ambos fracos); -0,95 e +0,95 tambm so iguais quanto a ela (ambos fortes). (LEVIN, 1987).

    J para Byrman e Cramer, se: 0,2 Correlao muito fraca e sem significncia 0,2 < r 0,39 Correlao fraca 0,4 < r 0,69 Correlao moderada 0,7 < r 0,89 Correlao forte 0,9 < r 1 Correlao muito elevada

    Propriedades do coeficiente de correlao: - Amplitude: vai de 1 at +1 (por causa do modo como definido) - Sinal: indica a direo (sinal negativo: direo negativa e vice-versa) - Magnitude: Quanto mais prximo dos extremos (-1 e 1), mais forte a associao linear. Valor de r prximo de zero significa que no h associao linear, podendo haver outro

    tipo de relao entre as variveis, como uma quadrtica, por exemplo. - O coeficiente de correlao uma quantidade adimensional. No afetada por mudanas

    de escala das variveis. - No se trata de uma percentagem.

    4.2 REGRESSO LINEAR SIMPLES O estabelecimento de uma correlao entre duas variveis pode ter utilidade na previso dos

    valores de uma delas (Y) a partir do conhecimento dos valores da outra (X). A tcnica empregada em tais previses conhecida por anlise de regresso.

    Vimos que a fora de uma correlao entre X e Y aumenta medida que os pontos do diagrama de disperso concentram-se em torno de uma reta imaginria. Podemos agora identificar essa curva pelo nome de reta de regresso, que uma reta interpolatriz obtida a partir da nuvem de pontos do diagrama de disperso.

    J foi salientado anteriormente que h poucas correlaes perfeitas (+ 1,00 ou -1,00) que a natureza apresenta. Este fato muito importante porque, como regra geral, as previses tomam-se mais acuradas medida que o coeficiente de correlao aproxima-se de 1,00. Quando a correlao entre duas variveis for forte, mas no perfeita, possvel, ainda assim, construir uma linha de regresso (previso) que se "ajuste bem" ao conjunto de pontos do diagrama. Isso verdadeiro mesmo que nem todos os pontos da nuvem caiam exatamente sobre a reta (o que, alis, o mais comum); no ficamos impedidos de fazer previses, mas devemos aceitar o fato de que a previso ser tanto mais imprecisa quanto mais distante o ponto estiver da linha de regresso.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 34

    Equao de Regresso A equao de regresso, em smbolos, resulta na seguinte frmula: Y' = r (sy/sx) x r (sy/sx) X + Y onde Y' = valor terico de Y (como se trata de uma previso, Y pode ser diferente de Y) r= coeficiente de correlao linear de Pearson (r) para a relao entre as variveis X e Y sy = desvio padro (amostral) da varivel Y sx = desvio padro (amostral) da varivel X x = um particular valor de x X = mdia aritmtica dos valores (amostrais) da varivel X Y = mdia aritmtica dos valores (amostrais) da varivel Y.

    Observem-se os aspectos importantes: Anlise de regresso no adivinhao. Tambm no um processo de "acertar a mosca". O

    conjunto de pontos do diagrama de disperso define uma tendncia. A reta interpolatriz (isto , de regresso) apenas "sintetiza" essa tendncia e permite uma generalizao, sob a forma de equao, como se todos os pontos cassem sobre ela.

    Do que ficou dito em (1), acima, decorre que: a) se Y = f(X) for funo matemtica, as previses sero pontuais, isto , por ponto, e a preciso ser grande; b) se Y = f(X) for funo estatstica, as previses sero intervalares, isto , os valores de y' pertencero a um intervalo. Da que (y' - Y) = erro de estimao.

    Num exemplo hipottico de uma anlise de regresso entre as variveis X e Y gerou a seguinte equao: Y = 0,45X + Y

    Isto significa que a cada aumento de uma unidade na varivel X, a varivel Y aumentar em 0,45 unidades.

    Coeficiente de determinao (R2): o quadrado do coeficiente de correlao de Pearson e expresso em porcentagem. o percentual explicado da variao da varivel dependente pela reta de regresso (modelo). O restante explicado pelo erro, que pode ser devido a ausncia de outras variveis, erros de mensurao das variveis e ao erro aleatrio.

    Coeficiente angular ou inclinao (da reta de regresso: Y = a + b * X): a variao de Y por cada variao de X. Representado pela letra b.

    Intercepto (da reta de regresso: Y = a + b * X): o valor de Y, quando X = 0. A maioria das vezes no faz sentido interpretar este valor. Representado pela letra a.

    Regressoy = 0,5603x - 3 ,8753

    R2 = 0 ,9222

    456789

    101112

    12 14 16 18 20 22 24 26 28

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 35

    BIBLIOGRAFIA BSICA: AYRES, M.; AYRES JR, M.; AYRES, D. L. & SANTOS, A. S. BioEstat 5.0: Aplicaes estatsticas nas reas das cincias biolgicas e mdicas. Sociedade Civil Mamirau. Par, 2008. BARROS, M.V.G.; REIS, R.S.; HALLAL, P.R.C & FLORINDO, A.A. Anlise de Dados em Sade. 2 Ed. Recife: EDUPE, 2005. BUSSAB, W. O. & MORETTIN, P.A Estatstica Bsica. 5 Ed. So Paulo:Atual, 2006. KERLINGER, F. N. Metodologia da pesquisa em cincias sociais. 9 reimpresso. So Paulo: Pedaggica e Universitria, 2003. LEVIN, J. Estatstica Aplicada a Cincias Humanas. 2 edio, Editora HARBRA, So Paulo SP. 1987. SPIEGEL, M. R. Estatstica. Rio de Janeiro: McGraw-Hill do Brasil. 1972 TRIOLA, M.F. Introduo Estatstica. 7 Ed. Rio de Janeiro: LTC, 1999. VIEIRA, S. Bioestatstica: Tpicos Avanados. 2 Ed. Rio de Janeiro: Elsevier, 2004.

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 36

    EXERCCOS

    1) Avalie as afirmaes a seguir a respeito do Coeficiente de Correlao (r) de Pearson entre duas variveis. I - Se r=1, as observaes esto todas sobre uma linha reta no diagrama de disperso. CERTO II - Se r>0, a varivel independente aumenta quando a varivel dependente aumenta. CERTO III -Se r

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 37

    (F) No possvel comparar a produtividade de ambos os tcnicos, devido ao fato de atuarem em reas distintas. (F) Pedro mais produtivo do que Joo, mas nada se pode afirmar sobre a sua posio relativa aos demais operrios do seu grupo. (V) A comparao da produtividade dos operrios em termos de graus brutos pode conduzir a concluses errneas.

    5) Se o coeficiente de correlao linear amostral para um conjunto de n pares de observaes de duas variveis aleatrias contnuas igual a 0,85, ento o coeficiente de determinao da reta de regresso ajustada aproximadamente igual a:

    A) 0,74; - ERRADO B) 0,42;- ERRADO C) 0,72;- CERTO D) 0,85;- ERRADO E) 0,95.- ERRADO

    6) Nveis de confiana para alguns valores de z

    Duas amostras de lcool combustvel - I e II - foram analisadas segundo o mtodo NBR5992, para a determinao do teor de lcool e do grau de hidratao pela medida da massa especfica a 20 C. Para um nvel de confiana de 95%, a amostra I apresentou o resultado de 810,6 0,8 kg/m3 e a amostra II apresentou o valor de 809,8 0,8 kg/m3. As anlises foram feitas em triplicata.

    De acordo com a norma pertinente, a especificao para lcool combustvel - lcool etlico hidratado combustvel (AEHC) - prev a faixa de aceitao entre 807,6 e 811,0 kg/m3. Com base na tabela acima e nos dados fornecidos, e considerando que 3 = 1,73, julgue os itens que se seguem.

    A- A amostra I encontra-se fora dos limites de aceitao especificados pela norma. CERTO B- A amostra II est fora dos limites da faixa de aceitao. ERRADO C- O nvel de confiana de 95% significa que a probabilidade de a massa especfica obtida para a amostra I estar entre os valores de 809,8 e 811,4 kg/m3 95%. ERRADO D- Sabendo-se que o valor obtido para a amostra II uma mdia calculada a partir das medidas feitas em triplicata de uma nica amostra, se o nvel de confiana desejado fosse de 99%, o valor obtido para a amostra II seria expresso por 809,8 1,1 Kg/m3. ERRADO E- Para 95%de nvel de confiana, a faixa de tolerncia para as amostras I e II corresponde a uma preciso na medida da ordem de 0,1%, a metade da preciso inserida na especificao da norma pertinente. ERRADO

  • Israel Souza Apostila de Bioestatstica [email protected]

    SOFEP Niteri Out/2009 38

    7) Um perito criminal recebeu em seu laboratrio, como principal evidncia em um caso criminal, pequenos fragmentos