65
 Pg. 41 4. Inferência estatística a. Eima de ame b. Tee de hiee. c. Alie da Vaicia. d. Rege liea imle e. Rege liea mlila. f. Cle da Qalidade. g. Id a laejame de eeime. O objetivo da inferência estatística é auxiliar a tomar decisões a respeito da população com base em uma amostra da mesma. Divide-se em: a) Estimação: quando nada se sabe a respeito da população; b) Testes de Hipóteses: quando se afirma algo sobre a população e vai-se verificar se é verdade. Independentemente de qual enfoque se aplique, as afirmações feitas sempre devem vir acompanhadas de um grau de confiança, ou grau de certeza; ou seja, o quanto se está certo ao comunicar uma informação, porque toda decisão tem um risco, que é probabilidade associada a uma decisão errada. Há dois tipos de erros (riscos): 1. Rejeitar como falso o que é verdadeiro: erro α (também chamado risco do produtor ou f ornecedor) 2. Aceitar (não rejeitar) como verdadeiro o que é falso : erro β (beta), também chamado risco do consumidor ou cliente É preciso considerar os dois riscos, e estipulá-los nos contratos , considerando a relação custo/benefício de uma decisão errada. Eles são inversamente relacionados, ou seja, quando um aumenta o outro diminui, embora não somem 100%. O 1º. Tipo de erro [de decisão]: erro α (alfa), conhecido como nível de significância. O 2º. Tipo de erro [ de decisão ] é o erro β. O que mais se emprega é (1- β ), chamado poder do teste de hipóteses.

Estatística IME (04)

Embed Size (px)

Citation preview

  • Pg. 4-1

    4. Inferncia estatstica a. Estimao de parmetros

    b. Testes de hipteses.

    c. Anlise da Varincia.

    d. Regresso linear simples

    e. Regresso linear mltipla.

    f. Controle da Qualidade.

    g. Introduo ao planejamento de experimentos.

    O objetivo da inferncia estatstica auxiliar a tomar decises a respeito da populao com base em uma amostra da mesma.

    Divide-se em:

    a) Estimao: quando nada se sabe a respeito da populao; b) Testes de Hipteses: quando se afirma algo sobre a populao e vai-se

    verificar se verdade. Independentemente de qual enfoque se aplique, as afirmaes feitas sempre devem vir acompanhadas de um grau de confiana, ou grau de certeza; ou seja, o quanto se est certo ao comunicar uma informao, porque toda deciso tem um risco, que probabilidade associada a uma deciso errada.

    H dois tipos de erros (riscos): 1. Rejeitar como falso o que verdadeiro: erro (tambm chamado risco do

    produtor ou fornecedor) 2. Aceitar (no rejeitar) como verdadeiro o que falso: erro (beta),

    tambm chamado risco do consumidor ou cliente

    preciso considerar os dois riscos, e estipul-los nos contratos, considerando a relao custo/benefcio de uma deciso errada. Eles so inversamente relacionados, ou seja, quando um aumenta o outro diminui, embora no somem 100%.

    O 1. Tipo de erro [de deciso]: erro (alfa), conhecido como nvel de significncia. O 2. Tipo de erro [ de deciso ] o erro . O que mais se emprega (1- ), chamado poder do teste de hipteses.

  • Pg. 4-2

    a. Estimao de parmetros

    a.1 Conceito de estimao de parmetros (caractersticas) da populao

    Na Estatstica, o nome parmetro refere-se a uma caracterstica da populao; os mais conhecidos so a mdia e o desvio-padro. Quando nada se sabe a respeito dos valores dos parmetros da populao pode-se estimar esses valores a partir de dados de uma amostra, ou seja, fazer uma estimao, que pode ser de dois tipos: pontual e por intervalo. Na estimao pontual, o valor da caracterstica da amostra considerado uma estimativa do valor do parmetro na populao.

    valor do parmetro na populao = valor na amostra Caso se retirasse uma outra amostra, esse valor seria diferente. Dificilmente o valor da amostra ser igual ao da populao, mais ainda por ser desconhecido o valor do parmetro da populao. Para que a estimao fornea uma idia melhor daquela caracterstica, faz-se uma estimao por intervalo, para a qual seja quase certo que o valor da populao esteja nele. Estimativas por intervalos so conhecidas como intervalos de confiana (IC). A idia do intervalo de confiana um refinamento da estimativa pontual. Desse modo, considera-se uma variao em torno do valor amostral e escreve-se que o valor da caracterstica da populao se situa entre dois limites, ou seja, est no intervalo

    Valor na amostra ( a estimativa pontual) [ erro de amostragem ] gerando o intervalo de confiana, no necessariamente simtrico. O conceito de intervalo de confiana ilustrado pela Figura 3.1.

    Figura 3.1 - O conceito de intervalo de confiana.

    O erro de amostragem diretamente proporcional ao grau de certeza de que o intervalo contenha o valor da caracterstica da populao, ou seja, confiana dos resultado. Se queremos um intervalo de confiana para o qual estejamos quase certos que contenha o valor da populao, esse intervalo deve ser tanto maior quanto mais se aumenta a certeza de que ele realmente conter o valor do parmetro da populao.

    O erro de amostragem diretamente proporcional disperso da populao (quanto mais dispersa a populao, maior ser a variao entre as amostras),

    Intervalo de confiana

    Valor amostral

    Limite inferiorde confiana

    Limite superiorde confiana

    Intervalo de confiana

    Valor amostral

    Limite inferiorde confiana

    Limite superiorde confiana

  • Pg. 4-3

    Finalmente, o erro de amostragem inversamente proporcional ao tamanho da amostra (quanto maior a amostra, mais esta se aproxima da populao e diminui o erro de amostragem). O objetivo do estudo das tcnicas estatsticas de estimao obter o menor intervalo que tenha uma confiana adequada ao tomador de deciso, ou seja, a estimao por intervalo consiste em encontrar um intervalo definido por dois limites, tal que a probabilidade do valor da populao estar contido nele seja igual a (1 ). Em porcentagem, essa probabilidade, chamada nvel ou grau de confiana, denotada por 100 (1 ) %.

    A2. A estimativa por intervalo mais popular: mdia da populao Para a estimao por intervalo da mdia da populao (a mais utilizada e representada pela letra grega ), a partir da estimativa pontual, que a mdia aritmtica amostral, deduziremos como relacionar o tamanho da amostra, a disperso e a confiana (influenciadores no erro de amostragem) em uma expresso matemtica para calcular os limites do intervalo de confiana (IC).

    A amplitude do intervalo de confiana no caso de estimao de mdia da populao igual a duas vezes o erro de amostragem e varia:

    a) diretamente em relao ao grau de certeza, ou seja, confiana; b) diretamente em relao disperso; c) inversamente em relao ao tamanho da amostra.

    Ento, pode-se escrever que:

    Mdia amostral confiana . amostra da tamanho

    disperso

    que fornece o seguinte intervalo:

    Mdia - confiana . amostra da tamanho

    disperso Mdia + confiana .

    amostra da tamanhodisperso

    Usualmente, tem-se uma amostra pequena; obviamente, sabe-se o tamanho n dela e podem ser calculados a mdia amostral ( X ) e o desvio-padro amostral (s).

  • Pg. 4-4

    No caso de se estimar a mdia da populao, usa-se o modelo estatstico denominado distribuio de Student (tambm conhecida como distribuio t de Student). Nesses casos, o intervalo de confiana dado pela seguinte expresso:

    n

    s t

    n

    s t + XX

    Observemos que a estrutura da expresso matemtica igual j vista:

    Mdia - confiana . amostra da tamanho

    disperso Mdia + confiana .

    amostra da tamanhodisperso

    Todavia, com fazer em relao ao erro que se admite cometer, ou seja, confiana que se deseja? A soluo a seguinte: escolhe-se o erro, usualmente 5% (equivalente a dizer que se tem uma confiana de 95%). Surge, agora, mais um problema, como expressar a confiana, como inclu-la na expresso matemtica?

    Ea-1

    Retiraram-se, aleatoriamente, 25 itens de um conjunto para constiturem uma amostra. Anotam-se 25 valores de uma caracterstica, cuja mdia aritmtica e o desvio-padro calculados foram, respectivamente, 50mg/L e 8 mg/L. Determinar, com uma confiana de 95%, o intervalo no qual pode estar o valor verdadeiro da mdia dessa caracterstica.

    RESPOSTA

    n

    s t

    n

    s t + XX

    258

    2,064 05 258

    2,064 05 +

    53,31mg/L 46,69mg/L

    Neste captulo, admite-se que o leitor tenha uma compreenso intuitiva de probabilidade, ou seja, da chance de alguma coisa acontecer.

  • Pg. 4-5

    Os modelos estatsticos relacionam probabilidades com fatores a serem colocados nas expresses matemticas. Para uma mesma probabilidade de acerto de deciso (confiana), h fatores que dependem do modelo estatstico. Entretanto, como se determinou o valor de t, fator associado probabilidade de acerto de deciso? Com o uso do Excel.

    No Excel, em Inserir Funo, escolhe-se a funo INVT, resultando na Figura 3.2.

    Figura 3.2 - A funo INVT Nele, digitam-se, em Probabilidade, o valor do erro que se admite cometer e, em Graus_liberdade, o tamanho da amostra menos 1, conforme Figura 3.3.

    Figura 3.3 - A funo com os dados do Exemplo 17

    Se desejarmos obter apenas o limite superior (ou apenas o limite inferior) do intervalo de confiana, para determinar o valor de t no Excel, em Probabilidade deve ser colocado o dobro do erro.

    Para a distribuio de Student, temos, por exemplo, os seguintes fatores para os tamanhos 25 e 38, e confianas de 90%, 95% e 99% (Tabela 3.1).

    erroerro

    n-1

  • Pg. 4-6

    Tabela 3.1 - Fatores associados a confianas com base na distribuio de Student

    Tamanho da amostra = 25

    Confiana Fator

    90% 1,710882316

    95% 2,063898137

    99% 2,796950866

    Tamanho da amostra = 38

    Confiana Fator

    90% 1,687094482

    95% 2,026190487

    99% 2,715405572

    Os fatores dependem do tamanho da amostra no apenas na distribuio de Student1, mas tambm em outras distribuies de probabilidades.

    Considerem-se os exemplos seguintes.

    SITUAO 5

    Na fase de Projeto Executivo de uma rodovia, explicar como deve ser estimado o valor do

    ndice de Suporte California CBR de um solo a ser utilizado na execuo de um aterro.

    SOLUO

    A Instruo de Servio IS-206 ESTUDOS GEOTCNICOS constante das Diretrizes Bsicas para

    Elaborao de Estudos e Projetos Rodovirios do DNIT Edio 2006 (Publicao IPR-726)

    estabelece os critrios estatsticos a serem empregados no estudo de ocorrncias de materiais

    empregados nos diversos servios de construo rodoviria. Segundo essa instruo, devem

    1 William Sealy Gosset (1876-1937) foi um qumico e estatstico, sendo mais conhecido pelo

    pseudnimo de Student. Ingls, trabalhou na destilaria Guiness, cujo dono proibiu que seus funcionrios publicassem artigos cientficos, e por essa causa conhece-se a distribuio t de Student e no distribuio de Gosset. No modelo de Gosset, tem-se uma distribuio para cada grau de liberdade. Desse modo, aquilo que se conhece publicado como tabela t de Student , na verdade, o extrato de vrias tabelas, onde cada linha parte da tabela geral, ou seja, cada linha o extrato da tabela para aquele grau de liberdade

  • Pg. 4-7

    ser realizados furos de sondagem nos vrtices de um reticulado com malha de 50m de lado,

    nos quais devero ser coletados exemplares de todos os horizontes identificados,

    submetendo-as aos ensaios de caracterizao, compactao e ndice de Suporte California

    CBR. Os valores obtidos nos ensaios so submetidos a tratamento estatstico, calculando-se os

    seguintes valores:

    Onde

    No caso especfico do ndice de Suporte California CBR, para fins de projeto, adotado o

    valor mnimo Xmin.

    Nas expresses acima esto incorporados os intervalos de confiana adotados pelo DNIT que

    so:

    - 80% na estimativa da mdia da populao

    - 50% na estimativa dos valores mximos e mnimos.

    b. Testes de hipteses. 4b A segunda parte da Inferncia Estatstica: testes de

    hipteses Considere-se um novo fornecedor que afirma ser melhor o produto dele: essencial que se compare esse novo produto com um outro, aquele sendo usado. Por exemplo, um produto apresenta, para certa caracterstica, a mdia 70. Uma amostra do novo fornecedor apresenta mdia 65. A diferena entre os valores 65 e 70 estatisticamente

    680291

    680291

    ,,

    ,,

    min

    max

    =

    ++=

    NXX

    NXX

    amostradapadrodesviosindividuaivaloresX

    amostradamdiaXexemplaresdenmeroN

    N

    XX

    N

    XX

    i

    N

    ii

    N

    ii

    =

    =

    =

    =

    =

    =

    =

    =

    1

    1

    2

    1

    )(

  • Pg. 4-8

    significante? Ou seja, essa variao devida ao acaso ou realmente os produtos so diferentes?

    A hiptese que os resultados dos mtodos podem ser considerados iguais, ou seja, a variabilidade ecistente devida somente natureza.

    O objetivo dos testes de hipteses verificar se uma determinada afirmao a respeito da populao verdade. Por exemplo, um determinado mtodo tem o mesmo comportamento de outro mtodo? Com base nos experimentos com um e com outro, realizam-se alguns clculos, chamados estatsticas de teste, a partir de amostras, e conclui-se a respeito.

    Em todo teste, so feitas duas hipteses: a hiptese de nulidade (usualmente chamada hiptese nula), representada por H0, e uma hiptese alternativa, representada por H1.

    A hiptese de nulidade o que se afirma (normalmente uma igualdade ou o status quo) a respeito do que est sendo testado e considerada verdadeira. Entretanto, tenta-se provar que H0 falsa com base em uma evidncia, ou seja, diz-se que a diferena estatisticamente significante.

    Definir o que vem a ser estatisticamente significante depende do erro que se admite cometer ao decidir-se pela veracidade, ou no, da hiptese de nulidade. O objetivo do teste estatstico tentar provar que tudo o que se afirma no verdade, ou seja, tentar rejeitar afirmao inicial.

    De modo esquemtico, temos que:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao valor numrico

    Esse um exemplo de teste bilateral, em que a hiptese alternativa estipulada para identificar afastamentos, em ambos os sentidos, do parmetro sendo testado. A regio englobando esses afastamentos denomina-se regio de no-rejeio (ou regio de aceitao). Graficamente, representa-se uma regio de no-rejeio de 100 (1 ) % de confiana para os testes bilaterais conforme a Figura 3.4, onde o erro que se admite cometer e que se divide em ambas as extremidades. A regio de no-rejeio limitada por valores crticos calculados e, desse modo, preciso determinar dois pontos de corte (os limites) entre as regies alm das quais a hiptese de nulidade ser rejeitada; se a hiptese de nulidade for verdadeira, a probabilidade de se decidir erradamente pequena, comumente 5%.

    Regio deno -rejeiorejeio rejei obilateral

  • Pg. 4-9

    Figura 3.4 - Representao da regio de no-rejeio no teste bilateral.

    Deve-se lembrar que o objetivo do teste de hipteses sempre tentar rejeitar a hiptese de nulidade com base em uma amostra; caso no se consiga em determinada retirada, conclui-se que aquela amostra no forneceu elementos suficientes para a rejeio desejada.

    Por outro lado, caso haja interesse em se determinar apenas se o parmetro excede determinado valor, as hipteses so formuladas como, por exemplo:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao > valor numrico

    Esse o caso de teste unilateral superior, em que a hiptese alternativa indica afastamentos do parmetro em relao a um valor no sentido da direita (Figura 3.5). Observamos que todo o erro est concentrado na extremidade superior.

    Figura 3.5 - Representao da regio de no-rejeio no teste unilateral superior.

    De modo semelhante, no teste unilateral inferior (Figura 3.6), o objetivo verificar se o parmetro menor que determinado valor, e as hipteses so formuladas como:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao < valor numrico

    Figura 3.6 - Representao da regio de no-rejeio no teste unilateral inferior.

    Nesse caso, todo o erro concentra-se na extremidade inferior. A situao que se for estudar definir o tipo de teste a ser selecionado. Por exemplo, em termos de carga mxima suportada por um elevador, o cuidado apenas no ultrapassar com o valor mximo da capacidade, no importando o valor mnimo da carga (teste unilateral superior). Por outro lado, ao se estimar o lucro de uma empresa, a preocupao com o faturamento mnimo e no com o mximo (teste unilateral inferior). Em todos os casos, a estatstica amostral deve ser comparada com um valor crtico para determinar a rejeio, ou no, da hiptese de nulidade.

    Regio deno-rejeiorejeio rejei oRegio deno-rejeiorejeiorejeio rejeiorejeio

    Regio de no-rejei o rejei o

    unilateral superiorRegio de

    no-rejei o rejei ounilateral superior

    Regio de no-rejei o rejei orejei o

    unilateral superior

    Regio de no-rejei orejei o

    unilateral inferiorRegio de

    no-rejei orejei orejei ounilateral inferior

  • Pg. 4-10

    Observemos que, ao contrrio do que usualmente apresentam os livros de Estatstica, no se deve ilustrar as regies de no-rejeio e rejeio como se fosse uma distribuio de deMoivre-Laplace-Gauss, porque os conceitos de regies de no-rejeio e rejeio independem da distribuio estatstica que modela o problema.

    A realizao de um teste de hipteses (modo clssico) da seguinte maneira: 1) estebelecem-se as hipteses de nulidade e alternativa; 2) a partir do modelo estatstico adequado ao problema, determinam-se os limites (no caso

    do teste bilateral) ou o limite (superior ou inferior, no caso de teste unilateral) da regio de no-rejeio;

    3) retira-se uma amostra e, com base nela, verifica-se o limite terico ultrapassado, ou no. Caso seja, rejeita-se a hiptese de nulidade.

    Usualmente, desejamos estudar se h diferenas entre dois conjuntos de resultados, e na ocasio da realizao dos ensaios, h duas situaes:

    a) amostras independentes, quando os dados so coletados de tal maneira que as observaes no so relacionadas umas s outras, e

    b) amostras dependentes (comumente chamadas de pareadas ou em par), quando uma mesma amostra analisada por dois mtodos diferentes.

    No caso de amostras independentes, faz-se, primeiramente o teste F2 para verificar se as varincias das amostras podem ser consideradas iguais; no de amostras dependentes, no necessrio.

    Em quaisquer dessas situaes, os resultados so comparados por meio do teste denominado t (de Student)3.

    3.3.1 Duas amostras Independentes Para comparar duas amostras, faz-se o teste t de Student. No Excel, em Anlise de Dados, h esse teste com o nome de Test-T: duas amostras presumindo varincias equivalentes e Test-T: duas amostras presumindo varincias diferentes

    2 F a letra inicial de Fisher (Ronald Fisher, 1890-1962), estatstico ingls considerado o pai da

    Estatstica moderna. O nome da distribuio foi atribudo por Snedecor (George Snedecor, 1881-1974) em homenagem a ele. 3 Estes dois testes pressupem que os dados possam ser modelados pelo modelo probabilstico

    conhecido como distribuio de Gauss (popularmente conhecida como distribuio normal) de acordo com o Teorema Central do Limite (mais detalhes no Anexo 3).

  • Pg. 4-11

    Figura 3.7 Opes resultantes da abertura da tela Anlise de Dados.

    Desse modo, deve-se fazer, antes, o teste F para igualdade de varincias. O teste F necessrio porque h dois Testes T, cada um adequado a uma situao de varincias (Figura 3.11).

    Fig. 3.11 - Tipos dos testes-T

    Comeando a testar hipteses: teste F para igualdade de varincias

    passo 1: primeiramente, digite em uma coluna os resultados do mtodo 1 e em outra coluna os resultados do mtodo 2.

    passo 2: no menu Ferramentas, escolha a opo Anlise de Dados... e a Ferramenta de Anlise Teste F: duas amostras para varincias (Figura 3.8).

    Figura 3.8 - Anlise de dados: passo 3:

    a) ao dar o OK, surge a tela da Figura 3.8, na qual se digitar, no retngulo Intervalo da varivel 1 (agora com um trao vertical intermitente), as clulas inicial e final dos resultados do mtodo 1, separadas por dois pontos ou, ento, selecionar o conjunto de valores clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar o boto esquerdo) at a ltima clula (no se preocupe com a notao incluindo o sinal $); neste ltimo caso, observar que em Intervalo da varivel 1 aparecem as colunas inicial e final onde foram digitados os valores.

  • Pg. 4-12

    Figura 3.8 - Teste F de igualdade para varincias de duas amostras

    b) Repetir, no Intervalo da varivel 2, com os resultados do mtodo 2. c) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por

    ser o erro mais usual admitido; mantenha esse valor ou altere-o de acordo com suas necessidades.

    d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de resumo de sada), em uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo em uma nova pasta de trabalho (para nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 4: clique em OK para surgir a tela do resultado do teste de hipteses.

    E3-2

    Dez amostras forem analisadas por um laboratrio, Lab 1, e outras dez amostras do mesmo produto foram analisadas por outro laboratrio, Lab 2.. Com base nos dados da Tabela 3.2 e admitindo-se um erro de deciso de 5%, pode-se considerar equivalentes os dois laboratrios?

    Tabela 3.2 Resultados de dez amostras

    Laboratrio 1 Laboratrio 2

    2,07 2,05

    2,42 2,43

  • Pg. 4-13

    2,81 2,85

    3,03 2,98

    3,30 3,26

    3,34 3,37

    3,55 3,50

    3,79 3,81

    4,05 4,01

    4,42 4,38

    RESPOSTA

    Aps a digitao dos resultados do Lab 1 na coluna A e do Lab 2 na coluna B, desejando-se os resultados na mesma planilha dos dados, o aspecto da tela do Excel o da Figura 3.9.

    Figura 3.9 Dados para o Teste F de igualdade para varincias

    Ao se dar o OK, surge a tela com os resultados, Figura 3.10.

  • Pg. 4-14

    Teste-F: duas amostras para varincias

    Varivel 1 Varivel 2Mdia 3,278 3,264Varincia 0,524062222 0,509826667Observaes 10 10gl 9 9F 1,027922344P(F

  • Pg. 4-15

    Figura 3.12 Anlise de dados passo 2:

    a) ao dar o OK, surge a tela da Figura 3.13, na qual se devem digitar, no retngulo Intervalo da varivel 1 (agora com um trao vertical intermitente), as clulas inicial e final dos resultados do Lab 1, separadas por dois pontos ou, ento, selecionar o conjunto de valores clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar o boto esquerdo) at a ltima clula (no se preocupe com a notao incluindo o sinal $); neste ltimo caso, observar que em Intervalo da varivel 1 aparecem as colunas inicial e final onde foram digitados os valores.

    Figura 3.13 - Teste T: duas amostras presumindo varincias equivalentes

    b) Fazer o mesmo no Intervalo da varivel 2 com os resultados do Lab 2. c) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por ser o erro mais usual

    admitido; mantenha esse valor ou altere-o de acordo com suas necessidades. d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste

    caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de resumo de sada), em uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo uma nova pasta de trabalho (para nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 3: clique em OK para surgir a tela da Figura 3.14 com o resultado do teste de hipteses.

  • Pg. 4-16

    Teste-t: duas amostras presumindo varincias equivalentes

    Varivel 1 Varivel 2Mdia 3,278 3,264Varincia 0,524062222 0,509826667Observaes 10 10Varincia agrupada 0,516944444Hiptese da diferena de mdia 0gl 18Stat t 0,043540268P(T

  • Pg. 4-17

    3.3.2 Um novo conceito

    Enquanto que no teste de hipteses clssico, a probabilidade de erro definida antes do teste, no conceito moderno denomina-se valor-p, que a probabilidade de retirar a amostra em mos SE a hiptese de nulidade verdadeira.

    A regra de deciso a seguinte: rejeitar a hiptese de nulidade SE o valor-p pequeno (usualmente, at 5%). Por exemplo, se o resultado dado pelo aplicativo computacional for o da Figura 3.15, como o valor-p pequeno (menor que 5%), 0,00026 [0,026%], deve-se rejeitar H0. Observamos tambm que o Excel informa o valor crtico (a partir do modelo conceitual) e o valor calculado (determinado a partir

    da amostra. Como F calculado maior que F crtico, ento tambm pelo enfoque clssico (no qual se estipulou 5% de erro), obviamente tambm se rejeita H0.

    Figura 3.15 Resultado do aplicativo computacional

    3.3.2 Amostras Dependentes

    Se a mesma amostra analisada por dois mtodos, faz-se o Teste-T: duas amostras em par para mdias (Figura 3.17).

  • Pg. 4-18

    Figura 3.17 - Teste T: duas amostras em par para mdias Os demais passos so semelhantes aos Testes T.

    E3-3

    Uma caracterstica de cinco amostras de um minrio foi medida por dois laboratrios, um deles de referncia.

    Amostra Resultados pelo Laboratrio 1

    Resultado pelo Laboratrio

    de referncia A 0,0134 0,0135

    B 0,0144 0,0156

    C 0,0126 0,0137

    D 0,0125 0,0137

    E 0,0137 0,0136

    Com uma confiana de 95%, o Laboratrio 1 pode ter seus resultados

    considerados equivalentes com relao a essa caracterstica?

    RESPOSTA

    Aps a digitao dos resultados do Laboratrio 1 na coluna A e do laboratrio de referncia na coluna B, desejando-se os resultados na mesma planilha dos dados, o aspecto da tela do Excel o da Figura 3.18.

  • Pg. 4-19

    Figura 3.18 Dados para o Teste T: duas amostras em par para mdias

    Ao se dar o OK, surge a tela com os resultados, Figura 3.19.

    Teste-t: duas amostras em par para mdias

    Varivel 1 Varivel 2Mdia 0,01332 0,01402Varincia 6,27E-07 0,000000787Observaes 5 5Correlao de Pearson 0,711073Hiptese da diferena de mdia 0gl 4Stat t -2,42974P(T

  • Pg. 4-20

    Estatisticamente significante = rejeitar a hiptese de nulidade (nula) = o valor amostral no compatvel com o valor da hiptese de nulidade (nula) = a variao amostral no uma explicao razovel da discrepncia entre os valores da hiptese de nulidade (nula) e os valores amostrais todas elas com o mesmo significado.

    c. Anlise da Varincia.

    Anlise da Varincia (ANOVA) A Anlise da Varincia (conhecida como ANOVA)4 testa a hiptese de que so iguais as mdias

    de todas as populaes de onde so retiradas as amostras; se no verdade, apenas se pode

    afirmar que, pelo menos, uma das mdias diferente das outras (mas no se sabe qual). Em

    notao estatstica:

    H0: 1 = 2 = ... = c

    H1: ao menos uma das mdias diferente

    Porque no usar vrios testes T, dois a dois? Porque a probabilidade de se cometer ao menos

    um erro do tipo I, usando testes t para comparar duas a duas todas as mdias de um

    experimento com k grupos dada na Tabela 3 .3

    Tabela A3.3 - Erros cometidos ao usar o teste de Student dois a dois

    Nmero de mdias Nvel de significncia do teste

    0,05 0,01 0,001

    2 0,05 0,01 0,001

    3 0,14 0,03 0,003

    4 0,26 0,06 0,006

    5 0,40 0,10 0,010

    Na Anlise da Varincia, o teste F o modelo usado para se testar a hiptese de que as

    amostras provem de populaes iguais, ou seja, cujas mdias no so significativamente

    diferentes umas das outras. A ANOVA se baseia nas propriedades da mdia e da varincia de

    que, para um conjunto de valores com mdia X , se somarmos uma constante a todos os valores originais, a nova mdia ser igual anterior acrescida dessa constante, mas a varincia

    4 ANOVA a abreviao de ANalysis Of VAriance.

  • Pg. 4-21

    no se altera. Considere o exemplo a seguir, em que os dados de entrada j induzem a que

    pelo menos uma das mdias diferente. A ANOVA baseia-se no seguinte:

    Variao total dos dados = Variao entre grupos + Variao dentro dos grupos

    Para que haja efeito diferencial entre os grupos, a variao entre deve ser maior que a

    variao dentro do mesmo grupo

    E-14.1

    A hiptese de nulidade (sempre IGUALDADE): que as mdias de A, B e C so

    iguais. Verificar se verdade, podendo-se errar em 5% das vezes.

    RESPOSTA

    O resultado apresentado pelo Excel o seguinte:

    Se decidir com F-calculado,

    F-calculado > F-crtico: 17,63 > 3,88 REJEITAR H0

    Se decidir com valor-p,

    valor-p pequeno: 0,00026 0,026% REJEITAR H0

    Concluso: Ao menos uma das mdias diferente

    Anlise da Varincia no Excel

    passo 1: coloque os valores em colunas, cada coluna referindo-se a um grupo;

    passo 2: v a Anlise de Dados..., surgindo a Figura A14.1,

  • Pg. 4-22

    Figura A14.1 ANOVA em Anlise de dados

    passo 3: clique em OK, surgindo a Figura A14.2, ANOVA: fator nico.

    Figura A14.2 - Tela para a entrada de dados da ANOVA: fator nico

    passo 4:

    a) digitar, no retngulo Intervalo de entrada (agora com um trao vertical

    intermitente), a clula superior esquerda e a clula inferior direita,

    separadas por dois pontos ou, ento, selecionar o conjunto de valores

    clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar

    o boto esquerdo) at a ltima clula (no se preocupe com a notao

    incluindo o sinal $); neste ltimo caso, observar que em Intervalo de

    entrada aparecem as colunas inicial e final onde foram digitados os

    valores.

    b) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por

    ser o erro mais usual admitido; mantenha esse valor ou altere-o de acordo

    com suas necessidades.

    c) Indicar a opo de sada: pode ser na mesma planilha onde os dados

    foram digitados (neste caso, digite a clula que ser a clula superior

    esquerda e deixe pelo menos sete colunas para a tabela de resumo de

    sada), em uma nova planilha (para nomear a nova planilha, digite um

  • Pg. 4-23

    nome no retngulo) ou mesmo em uma nova pasta de trabalho (para

    nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 5: clique em OK para surgir tela do resultado da ANOVA; dela somente

    interessam os valores de F e F-crtico.

    Interpretao do resultado

    Se o valor de F for maior que F-crtico, deve-se rejeitar a igualdade dos mtodos, e conclui-se que ao

    menos um deles tem desempenho diferente dos demais, afirmao que tem uma chance de erro de

    5%

    EA8-1

    Quatro analistas analisaram uma soluo de concentrao conhecida e encontraram

    os seguintes resultados:

    Analistas Determinaes (%)

    An1 10,2 9,9 10,1 10,4 10,2 10,4

    An2 9,9 10,2 9,5 10,4 10,6 9,4

    An3 10,6 10,5 10,7 10,6 10,8 11,0

    An4 10,1 9,9 10,2 9,9 11,1 10,0

    Pode-se afirmar que o desempenho dos analistas o mesmo, tendo-se uma chance

    mxima de erro de 5%?

    RESPOSTA

    Uma empresa utilizou trs combustveis com diferentes porcentagens de lcool, visando avaliar a alterao no desempenho de um equipamento.

    Grupos (ou tratamentos ou parcelas)

  • Pg. 4-24

    E3-6 Equipamentos (ou repeties) G1 G2 G3

    1 19 40 39

    2 31 35 27

    3 15 46 20

    4 30 41 29

    5 33 35

    6 30

    RESPOSTA

    O resultado apresentado pelo Excel o seguinte:

    Anova: fator nico

    RESUMOGrupo Contagem Soma Mdia Varincia

    Coluna 1 4 95 23,75 63,58333333Coluna 2 5 195 39 26,5Coluna 3 6 180 30 43,2

    ANOVAFonte da variao SQ gl MQ F valor-P F crtico

    Entre grupos 534,5833333 2 267,2916667 6,255485129 0,013769699 3,885293835Dentro dos grupos 512,75 12 42,72916667

    Total 1047,333333 14

    Como F-calculado > F-crtico: 6,255 > 3,88, rejeita-se a hiptese de nulidade e ao menos uma das mdias diferente.

    Entretanto, todos os grupos diferem entre si? Para responder, necessrio realizar a comparao mltipla entre mdias para determinar quais grupos diferem entre si:

    Teste de Tukey Teste de Student-Newman-Keuls (SNK) Correo de Bonferroni

    Nesta publicao, usar-se- o teste de Tukey.

    3.5 Teste de Tukey

  • Pg. 4-25

    O teste de Tukey passo-a-passo para o exemplo E3-:

    passo 1. Ordenar as mdias em ordem decrescente, anotando o grupo e o tamanho da amostra correspondente:

    Grupo: G2 G3 G1

    Mdia: 39,00 30,00 23,75

    n: 5 6 4

    passo 2. Calcular as diferenas entre as mdias dos grupos: (39,00-30,00) = 9,00; (39,00-23,75) = 15,25; (30,00-23,75) = 6,25

    Passo 3. Estimar o erro-padro (EP) de cada diferena entre mdias, usando a frmula

    EP =

    +

    BnAnQMresduo 11

    2, onde QMresduo a MQ dentro dos

    grupos.

    Desse modo, temos

    EP =

    +

    61

    51

    273,42

    = 2,7989

    EP =

    +

    41

    51

    273,42

    = 3,1007

    EP =

    +

    41

    61

    273,42

    = 2,9836

    Passo 4. Para cada diferena de mdias, calcular a estatstica de teste Q

  • Pg. 4-26

    EPBA

    calcQ XX

    =

    Desse modo, temos

    7989,200,3000,39

    =calcQ = 3,22

    9836,275,2300,39

    =calcQ = 5,11

    1007,375,2300,30

    =calcQ = 2,02

    Passo 5. Verificar o valor de crtico de Q (Anexo 4) Q; nmero de mdias; gl dentro dos grupos Q0,05; 3; 12 = 3,773

    Passo 6. Aplicar a regra de deciso: Se o valor de Qcalc para cada par de mdias for maior que Q0,05; 3; 12 = 3,773, ento os grupos diferem entre si

    Qcalc =3,22 < Q0,05; 3; 12 = 3,773, portanto G3 = G2

    Qcalc =5,11 > Q0,05; 3; 12 = 3,773, portanto G3 G1

    Qcalc =2,02 < Q0,05; 3; 12 = 3,773, portanto G2 = G1

    d. Regresso linear simples 4.1 Regresses Linear e No-Linear

    H diversas maneiras de se utilizar uma equao de regresso, entre as quais aquela em que as duas variveis referem-se ao mesmo elemento sendo estudado, mas uma delas relativamente dispendiosa, ou difcil de lidar, enquanto a outra, no.

  • Pg. 4-27

    Por exemplo, a resistncia e a dureza de um metal podem estar inter-relacionadas, de modo que conhecendo-se a dureza, pode-se estimar a resistncia. Se o teste de resistncia destri o metal, enquanto que o teste de dureza no o destri, uma pessoa interessada em estimar a resistncia confia nos resultados do teste de dureza para estimar a resistncia. Assim sendo, a finalidade de uma equao de regresso estimar valores de uma varivel com base em valores conhecidos da outra varivel. Outra utilizao da equao de regresso explicar valores de uma varivel em termos da outra varivel, isto , pode-se suspeitar de uma relao de causa e efeito entre duas variveis. Por exemplo, um psiclogo pode tentar explicar as variaes de comportamento em funo de uma pessoa estar ou no empregada. Entretanto, deve-se notar que a lgica de uma relao causal deve provir de teorias externas ao campo da Estatstica. Ainda uma terceira aplicao da regresso: predizer valores de uma varivel. Por exemplo, costuma-se aplicar testes psicolgicos a empregados ou estudantes, para avaliar o potencial de sucesso no emprego ou na escola. Pode-se presumir que haja um relacionamento matemtico entre o resultado do teste e o potencial futuro. Embora tais relaes possam assumir uma grande diversidade de formas, este tpico se limitar s equaes lineares (cujos grficos so linhas retas) que so importantes porque servem para modelar muitas relaes da vida real, e so relativamente fceis de lidar e de interpretar. A regresso linear compreende a anlise de dados amostrais para saber se e como duas ou mais variveis esto relacionadas uma com a outra de maneira proporcional em uma populao.

    A anlise de regresso linear apresenta como resultado uma equao matemtica que descreve um determinado relacionamento com base em uma linha reta. A equao pode ser usada para estimar, ou predizer, valores de uma varivel quando se conhecem ou se supem conhecidos valores da outra varivel. A equao que relaciona duas variveis, por exemplo, resposta medida e varivel modificada, :

    Y = a X + b

    onde:

    Y = resposta medida

    X = varivel modificada

    a = coeficiente angular (inclinao) da reta b = interseo da reta com o eixo Y (ou seja, a ordenada quando X = 0)

    O mtodo mais usado para determinar a linha reta que melhor representa um conjunto de pontos conhecido como MMQ, mtodos dos mnimos quadrados. A reta resultante (chamada reta de regresso) tem a propriedade de conter o ponto ( YX , ) onde X a mdia aritmtica dos valores de X, e Y a mdia aritmtica dos valores Y.

    Um modo de apresentar os resultados por meio de um diagrama de disperso, isto , de um grfico em que cada observao representada por um ponto. As coordenadas de cada ponto no eixo horizontal (X) e no eixo vertical (Y) representam os valores dessas variveis. Examinando-se o conjunto de pontos, obtm-se uma impresso visual de como as duas variveis se relacionam.

  • Pg. 4-28

    Regresso Linear no EXCEL, a partir do grfico de disperso:

    passo 1: primeiramente, digite em uma coluna os valores das concentraes e em outra coluna os resultados da resposta medida.

    passo 2: selecione as duas colunas

    passo 3: clique no cone Assistente de Grfico (Figura 4.6); surge a tela Assistente de Grfico etapa 1 de 4 (Figura 4.7). Escolha o grfico Disperso (X, Y) e clique Avanar, preenchendo, se desejar, o solicitado em cada uma das etapas. Finalize, clicando em Concluir qualquer das etapas.

    Figura 4.6 - Assistente de grfico

    Figura 4.7 - Assistente de grfico etapa 1 de 4

    Para compreender melhor o procedimento, observe o exemplo para a determinao da reta no Exemplo E4-2.

  • Pg. 4-29

    E4-2

    Os dados observados durante 5 anos para uma determinada demanda foram os seguintes:

    Ano 1 2 3 4 5

    Demanda 10,4 17,3 27,1 33,8 41,5

    a) Faa um grfico mostrando os dados experimentais. b) Determine a equao da reta dos mnimos quadrados, usando o

    Excel. c) Indique a demanda terica na metade do terceiro ano.

    RESPOSTA

    1. Aps a digitao dos resultados do ano na coluna A e da demanda na coluna B, escolha o grfico Disperso (XY), que resulta na Figura 4.8. .

    05

    1015202530354045

    0 2 4 6Ano

    Dem

    an

    da

    Figura 4.8 Reta relacionando Ano e Demanda

    2. Ao se clicar com o boto direito em qualquer um dos pontos do grfico, abre-se um novo menu (Figura 4.9).

  • Pg. 4-30

    Figura 4.9 Menu para determinar a linha de tendncia

    3. Clicar em Adicionar linha de tendncia..., surgindo a Figura 4.10, onde a tendncia Linear j est selecionada.

    Figura 4.10 Aba Tipo de Adicionar linha de tendncia

    5. Clicar na aba Opes e marcar a quadrcula referente a Exibir equao no grfico e Exibir valor de R-quadrado no grfico (Figura 4.11)

  • Pg. 4-31

    Figura 4.11 Aba Opes de Adicionar linha de tendncia

    O objetivo de se determinar o valor de R2 para verificar o quanto a modelagem adequada, e quanto mais prximo do valor 1, melhor.

    5. Aps dar o OK, surge a tela da Figura 4.12.

    y = 7,87x + 2,41R2 = 0,9968

    05

    1015202530354045

    0 2 4 6Ano

    Dem

    an

    da

    Figura 4.12 Resultado final

  • Pg. 4-32

    As respostas so: a) A equao da rota Y = 7,87X + 2,41, onde

    X = ano e

    Y = demanda

    b) para o tempo de 3,5 anos, a demanda calculada a partir da equao por: Y = 7,87 x 3,5 + 2,41, o que nos fornece o valor de 29,955 para a demanda.

    A anlise de regresso apenas indica qual relacionamento matemtico pode existir, se existir algum. Em outras palavras, a regresso no pode mostrar que uma varivel tenda a causar certos valores de outra varivel, ou seja, no garante que exista relao de causa e efeito.

    Alm do grfico de disperso, pode-se fazer a Regresso Linear no EXCEL com a Ferramenta de Anlise Regresso.

    passo 1: primeiramente, digite em uma coluna os valores do ano e em outra coluna os resultados da demanda.

    passo 2 v ao menu Ferramentas e escolha Anlise de dados...; surge a respectiva tela (Figura 4.13).

    Figura 4.13 - Anlise de dados.

    passo 3: por meio da barra de rolagem da direita, procure, entre as Ferramentas de Anlise, Regresso (Figura 4.14);

  • Pg. 4-33

    Figura 4.14 - Regresso em Ferramentas de Anlise.

    passo 4: clique OK no extremo superior direito do quadro, surgindo a tela Regresso (Figura 4.15);

    Figura 4.15 Tela de Regresso

    passo 5: a) em Intervalo Y de entrada (agora com um trao vertical intermitente),

    digitar as clulas inicial e final das demandas, separadas por dois pontos ou, ento, selecionar o conjunto de valores clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar o boto esquerdo) at a ltima clula (no se preocupe com a notao incluindo o sinal $); neste ltimo caso, observe-se que em Intervalo Y de entrada aparecem as clulas inicial e final onde foram digitados os valores.

    b) Fazer o mesmo com os anos no Intervalo X de entrada. c) Observar que o valor do nvel de confiana aparece preenchido e bloqueado

    com o valor usual (95%); mantenha esse valor ou altere-o de acordo com suas necessidades, clicando na quadrcula esquerda e colocando o valor desejado.

    d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de sada), uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo uma nova pasta de trabalho (Para nomear a nova pasta de trabalho, digite um nome no retngulo).

    e) No marque as outras quadrculas. passo 6: dar um OK e observar o resultado.

  • Pg. 4-34

    E4-3

    Os dados observados durante 5 anos para uma determinada demanda foram os seguintes:

    Ano 1 2 3 4 5

    Demanda 10,4 17,3 27,1 33,8 41,5

    Determine a equao da reta dos mnimos quadrados Y = AX + B com a variao dos coeficientes A e B.

    RESPOSTA

    passo 1: primeiramente, digitar em uma coluna os valores do Anoe em outra coluna os resultados da Demanda:

    passo 2: ir ao menu Ferramentas e escolha Anlise de dados...; surgindo a respectiva tela (Figura 4.16).

    Figura 4.16- Anlise de dados.

    passo 3: por meio da barra de rolagem da direita, procurar, entre as Ferramentas de Anlise, Regresso (Figura 4.17);

    Figura 4.17- Regresso em Ferramentas de Anlise.

  • Pg. 4-35

    passo 4 clicar OK no extremo superior direito do quadro, surgindo a tela Regresso.

    passo 5: Digitar ou selecionar os dados, e marcar as quadrculas referentes a resduos (Figura 4.18).

    Figura 4.18 Tela com os dados de entrada e opes de sada passo 6: ao dar OK, aparece parte dos resultados completos (Figura 4.14).

    Coeficientes Erro padro Stat tInterseo 2,41 0,851841143 2,829166Varivel X 1 7,87 0,256839768 30,64167

    Figura 4.19 Parte dos resultados do Exemplo E4-2 Observe-se que tanto para a interseo quanto para a Varivel X1, aparecem os seguintes valores: Coeficientes, Erro padro; Stat t; valor-P; 95% inferiores; 95% superiores; Inferior 95,0% e superior 95,0%. O que realmente nos interessa, no momento, so os valores de 95% inferiores e superiores cujos resultados aparecem duas vezes. Essa repetio porque o EXCEL sempre coloca o resultado para 95% de confiana, alm da confiana escolhida pelo analista. Dessa parte dos resultados, sero vistos apenas os da Figura 4.20.

    Coeficientes 95% inferiores 95% superioresInterseo 2,41 -0,300938699 5,120938699Varivel X 1 7,87 7,052621228 8,687378772

    Figura 4.20 Resultados do Exemplo 4.1 a serem analisados

    A resposta a seguinte: Y = 7,87X + 2,41

    A inclinao A pode variar entre 7,05 e 8,68.

    A ordenada B pode variar entre 0,30 e 5,12.

    Para a varivel X1, no exemplo, tem-se que 95% inferiores = 7,05 e 95% superiores = 8,68, o que significa que o valor de a pode variar entre esses dois resultados. Desse modo, a verdadeira inclinao estimada, com 95% de confiana, como estando entre 7,05 e 8,68. Uma vez que esses valores esto acima de 0, pode-se concluir que existe relao linear significativa em termos estatsticos, ou seja, h 95% de probabilidade de ser verdade haver um

  • Pg. 4-36

    relacionamento entre protenas e as absorbncias. Por outro lado, se o valor 0 (zero) estivesse contido no intervalo, no haveria relao entre protena e concentrao.

    A combinao dessas variaes dos coeficientes a e b resulta no que se denomina corredor de confiana, conforme a Figura 4.21.

    Figura 4.21 Corredor de confiana

    Os modelos de regresso que no so uma funo afim dos parmetros se chamam modelos de regresso no-linear. possvel, com as mesmas expresses utilizadas em regresso linear, realizar

    1

    outros tipos de regresses que, embora no sejam lineares, podem se tornar lineares mediante transformaes simples como, por exemplo, aplicar logaritmos a ambos os termos.

    Entretanto, modelos lineares nem sempre so adequados para representar algumas situaes, mas podem ser mais facilmente resolvidos, em parte devido ao seu fcil ajuste sem o uso de computadores, do que os modelos no-lineares. Antes do surgimento dos aplicativos computacionais, transformavam-se os dados para uma forma linear e, em seguida, analisava-se por esse tipo de regresso linear. Ocorre que estas transformaes poderiam trazer resultados imprecisos se realizada com dados transformados como se fosse uma regresso linear, podendo tambm distorcer o erro experimental e alterar a real relao entre os valores de X e de Y. Portanto, um mtodo que no deve ser utilizado por causa de sua impreciso; ao invs disso, para

    Reta de regresso

    Corredor de 99%

    de confiana

    Corredor de 95%

    de confiana

  • Pg. 4-37

    dados que no so descritos por uma funo linear, deve-se implementar um protocolo que far o ajuste dos dados com o uso de uma funo no linear.

    Um modelo no-linear um modelo que no se enquadra em nenhum dos outros dois casos: no um modelo linear e tambm no possvel transform-lo em um deles.

    De modo semelhante aos modelos lineares, o processo de estimao dos parmetros pode ser obtido por meio da minimizao da soma de quadrados dos resduos. A diferena que se obtm um sistema de equaes normais no-lineares, o qual no apresenta uma soluo explicita. O mtodo dos mnimos quadrados utilizado na estimao dos parmetros em modelos no-lineares, da mesma maneira que em modelos lineares.

    Nos casos mais simples, o Excel, tem a soluo imediata (Figura 4.22)

    Figura 4.22 Aba Tipo de Adicionar linha de tendncia

  • Pg. 4-38

    1. Mtodos dos mnimos quadrados ordinrios (MQO) Este mtodo devido ao matemtico alemo Johann Carl Friedrich Gauss (1777-1855), que o

    descreveu aos dezoito anos (1795). Mais tarde, Adrien-Marie Legendre (1805) introduziu

    contribuies ao mtodo em seu Nouvelles mthodes pour la dtermination des orbites des

    comtes .

    3.1 Explicao conceitual

    Quando se faz uma regresso linear, os valores observados (xi,yi) esto dispersos ao redor da

    reta de regresso.. Quanto menor for essa disperso, melhor a reta de regresso representa o

    conjunto de valores observados. Em 1809, Carl Friedrich Gauss (1777-1855) demonstrou que a

    melhor maneira de determinar um parmetro desconhecido de uma equao minimizar a

    soma dos quadrados dos resduos, ou seja, diferenas entre os valores reais e os do modelo

    (Figura 3.1)

    Figura 3.1 Ilustrao do resduo

    Adrien-Marie Legendre (1752-1833) denominou este mtodo de Mnimos Quadrados e, em abril de 1810, Pierre-Simon, marqus de Laplace (1749-1827) generalizou o problema.

    Deseja-se minimizar a seguinte soma:

    ( )=

    =

    n

    iiiS yy

    1

    2 , onde

    valores de y observados

    valor de y estimado pela reta de regresso y=ax+b

    ou seja, mnimos quadrados consiste em minimizar a soma dos quadrados dos resduos,

    Analisando:

  • Pg. 4-39

    Suponha-se que os valores de y no sejam influenciados pelos valores de x. Se y no depende de x, graficamente, tem-se y constante ( , dado que a=0 e y=b). Ento, est-se admitindo

    que os valores observados yi so flutuaes ao acaso ao redor de um valor mdio y . Tem-se que

    )( YYi : Variao de Y em torno de sua mdia;

    )( YYi : Variao de Y explicada pelas variaes de X: (Yi = b + aXi).

    )( YYi : Mede o grau de disperso entre os valores observados e o estimado (no explicado por X - o resduo). X causa impacto em Y, mas existem impactos causados pelos erros, e a variao dos pontos observados nem sempre pertencem reta de regresso. (Figura 3.2)

    Figura 3.2 Ilustrao das diferenas entre o modelo, os dados reais e a mdia das

    observaes y

    Quanto, ento, a reta de regresso (valores ) difere deste valor mdio ? Isto fornecido

    pela soma dos quadrados das distncias entre e ( ), o que corresponde a

    . Tambm se pode medir a disperso dos valores observados em relao

    reta, o que corresponde a , dado pela soma dos quadrados das distncias entre

    e ( ) (Figura 2).

  • Pg. 4-40

    Por esta razo, diz-se que corresponde o quanto da variao de

    "justificado" pela reta ajustada e a o quanto resta para ser explicado.

    Se o modelo representar adequadamente os dados, as observaes estaro prximas da reta

    de regresso.

    Ou seja,

    Variao Total = Variao Explicada pela Variao de X + Variao Residual

    Matematicamente, como ( ) ( ) ( )yyyy iiyiyi += ento

    , onde

    valores de y observados

    valor mdio de y

    valor de y estimado pela reta de regresso y=ax+b

    3.2 Medida de qualidade do ajuste, o coeficiente de determinao R2

    O objetivo determinar se o modelo representa adequadamente os dados coletados.. Se se fizer

    SQTsSQ

    SQTgSQ

    SQTSQT ReRe

    +=

    ento

    ( )( ) ( )

    +

    = 2

    2

    2

    2

    1YY

    e

    YY

    YY

    i

    i

    i

    i

    Denomine-se a proporo explicada pela varivel X de R2, igual a SQTgSQ Re

    . Da que:

    1 = R2 + SQTsSQ Re

    , ou seja, R2 = 1 - SQTsSQ Re

    Assim, 10 2 R , e indica o percentual de variao de Y explicada pela varivel independente X. O coeficiente de determinao representa a proporo (ou porcentagem) da variao total em Y explicada pelo modelo de regresso. Por exemplo, se R2 = 0,57, ento 57% das variaes de Y so atribudas apenas variao de X.

    R2 uma funo no decrescente do nmero de variveis explicativas do modelo, o que faz

    com que o aumento do nmero de regressores aumente quase invariavelmente o R2. Como:

  • Pg. 4-41

    22 i

    2i

    eSQ Re g SQ Re sR 1 1SQT SQT y

    = = =

    e 2iy independente do nmero de variveis explicativas, mas

    2ie depende do nmero de

    variveis explicativas presentes no modelo (conforme aumenta o nmero de variveis

    explicativas, provavelmente 2ie ir diminuir, fazendo com que o R

    2 aumente).

    Ao comparar dois modelos de regresso com a mesma varivel dependente e diferente

    nmero de variveis dependentes, a escolha do modelo, pelo R2 mais alto, deve ser feita com

    cautela.

    Para comparar os dois R2, deve-se considerar o nmero de variveis explicativas presentes no

    modelo, por meio do R2 Ajustado( 2R ), dado por

    22 i

    2i

    e ( n k )R 1y ( n 1 )

    =

    onde: k o nmero de parmetros do modelo.

    Em sntese, R2 representa uma medida de intensidade da relao linear entre as variveis.

    3.3 Teste F para regresso linear simples:

    Pode-se tambm verificar se Y relaciona-se com X, por meio de um teste de hipteses

    H0: a=0 versus H1: a0

    A hiptese de nulidade a de que a variao de y no depende de x, portanto rejeitando-se H0

    est-se admitindo que y funo de x. Para esse teste, poder-se-ia usar o teste de Student,

    mas como toda a explicao baseia-se em soma de quadrados, e sabendo-se que t2 = F, ento

    faz-se o teste-F, anlise da varincia, comparando-se a varincia da regresso com a dos

    resduos.

    que, sob H0, uma distribuio F com graus de liberdade (1,n-2). Portanto rejeita-se H0 quando

    MQregresso for significativamente maior que a MQresduos.

    O Quadro 3.1 apresenta a ANOVA com a identificao de cada uma das clulas.

  • Pg. 4-42

    Quadro 3.1. ANOVA DE UMA REGRESSO SIMPLES

    g.l.SQ MQ F valo r pRegresso 1 SQregresso MQ regresso SQ regresso / MQresd uos Resduos n-2 SQresduos MQ resduos Total n-1 SQt otal

    A SQregressa tem apenas um grau de liberdade porque tanto yi quanto y so fixos para cada xi.

    A SQtotal tem (n-1) graus de liberdade pela definio de varincia amostral.

    A SQresduos tem (n-2) graus de liberdade porque a reta de regresso tem dois parmetros, a e b, que devem ser fixos para cada amostra

    3.4. Explicaes adicionais

    A regresso linear simples busca estabelecer uma funo matemtica afim para descrever o

    relacionamento entre a varivel resposta e uma varivel explicativa em estudo. A EQ. 1 mostra

    o exemplo de uma modelagem de regresso linear simples, na qual os valores dos parmetros da regresso 1 e 2 foram estimados pelo mtodo dos mnimos quadrados.

    yt = 1 + 2 xt. EQ. 3.1 Caso a regresso pelo modelo linear no tenha se apresentado adequada para descrever o

    relacionamento entre as variveis com os dados observados, pode-se empregar a regresso no-linear

    como, por exemplo, a polinomial (EQ. 2).

    ...xxy 3321 +++= EQ. 3.2

    Conforme sejam adicionadas potncias crescentes de x, a curva tornar-se- cada vez mais

    complexa numa tentativa de ajustarem os pontos representativos do relacionamento entre as

    duas variveis.

    Considerando o caso de se ter um modelo de regresso linear simples, o modelo geral est

    representado pela EQ. 3.3. Observe a existncia do termo referente ao erro, que diferencia o

    modelo estatstico do modelo matemtico.

    yt = 1 + 2x t + et EQ. 3.3

    Onde 1 e 2 so constantes a serem determinadas, denominadas parmetros da regresso e

    et representa toda fonte de variabilidade em yt no explicada por xt.

  • Pg. 4-43

    Alm de no considerar a influncia da posio na modelagem, os modelos de regresso linear simples apresentam alguns pressupostos:

    1. yt = 1 + 2x t + et

    2. E (et ) = 0 E(yt) = 1 + 2x t

    3. var(et) = 2 = var(yt)

    4. cov(ei,ej) = cov(yi,yj) = 0

    5. x t c (cte) para toda observao

    6. et ~ N(0,2) yt ~ N[( 1 + 2x t ),

    2 ] (opcional)

    onde 2 representa um valor constante para a varincia.

    comum que o termo et seja numericamente mais importante que a explicao motivada pela

    varivel xt. Nesse caso, recomendvel introduzir-se mais variveis ao modelo de forma a

    explicar o comportamento de yt. A anlise passa a ser ento denominada de anlise de

    regresso linear mltipla.

    A regresso mltipla utilizada para testar dependncias acumuladas de uma nica varivel

    dependente em relao a diversas variveis independentes. Cada varivel isolada e mantida

    constante enquanto que as restantes variam sistematicamente, de modo a que se possa

    verificar os seus efeitos sobre a varivel dependente.

    O modelo geral representado pela EQ. 3.4.

    yt = 1 + 2x t2 + 3x t3++ nx tk + et EQ. 3.4

    Onde os coeficientes 1, 2, , k so parmetros desconhecidos. O parmetro k mede o

    efeito de uma modificao na varivel xtk sobre o valor esperado de yt, E(yt), mantidas

    constantes todas as outras variveis. O parmetro 1 o termo intercepto, cuja varivel xt1=1.

    O erro aleatrio et representa todos os fatores considerados na regresso como variveis

    explicativas. O clculo do valor das estimativas e das varincias pelo mtodo dos mnimos

    quadrados apresenta o mesmo raciocnio que para a regresso linear simples, porm seus

    valores sero numericamente diferentes.

    2. Valores extremos na regresso linear

    Na regresso linear, o tratamento de valores extremos feito a partir do grfico dos resduos

    da regresso versus os nveis de concentrao. Duas linhas horizontais correspondentes a

  • Pg. 4-44

    resduosn

    St)2,

    21(

    So traadas para indicar uma faixa de variao aceitvel para os resduos da regresso

    representados no grfico, sendo os casos de pontos fora destes limites percebidos como

    tendenciosidades. Compara-se a disposio dos pontos no grfico dos resduos da regresso

    com padres para identificar valores extremos ou no adequabilidade do modelo original.

    Cnicas indicam heteroscedasticidade, e formas em U ou U invertido sugerem desvio de

    linearidade.

    Esses valores extremos so avaliados pelo mtodo dos resduos padronizados Jackknife, cuja

    estatstica o resduo padronizado Jackknife eiJ , calculado para cada ponto da curva analtica por

    r iiei

    pn

    pnrJ 2

    1

    =

    onde

    p o nmero de parmetros do modelo,

    ei

    ii S

    re

    = o resduo padronizado,

    iresduosei hSs = 1 o erro padro do resduo. Nessa expresso,

    xx

    ii S

    xx

    nh

    2)(1 += e

    =

    =

    n

    iixx xxS

    1

    2)(

    Os resduos padronizados Jackknife seguem a distribuio de Student, e valores eiJ maiores

    que o valor do t crtico )1,2

    1( pnt so considerados extremos e removidos, exceto quando a

    porcentagem de dados tratados for superior a 22,2 % do nmero original de dados ou quando

    o ponto for a terceira e ltima replicata do nvel de concentrao estudado. Para cada retirada,

    recalcula-se a reta de egresso.

    No Excel, tem-se:

  • Pg. 4-45

    Regresso Linear no EXCEL com a Ferramenta de Anlise Regresso

    passo 1: primeiramente, digite em uma coluna os valores das concentraes

    e em outra coluna os resultados da resposta medida.

    passo 2 v ao menu Ferramentas e escolha Anlise de dados...; surge a

    respectiva tela (Figura 2.17).

    Figura 2.17. Anlise de dados.

    passo 3: por meio da barra de rolagem da direita, procure, entre as

    Ferramentas de Anlise, Regresso (Figura 2.18);

    Figura 2.18. Regresso em Ferramentas de Anlise.

    passo 4: clique OK no extremo superior direito do quadro, surgindo a tela

    Regresso (Figura 2.19);

  • Pg. 4-46

    Figura 2.19. Tela de Regresso

    passo 5:

    e) em Intervalo Y de entrada (agora com um trao vertical

    intermitente), digitar as clulas inicial e final das respostas medidas,

    separadas por dois pontos ou, ento, selecionar o conjunto de valores

    clicando na primeira clula e arrastando o ponteiro do mouse (sem

    soltar o boto esquerdo) at a ltima clula (no se preocupe com a

    notao incluindo o sinal $); neste ltimo caso, observe-se que em

    Intervalo Y de entrada aparecem as clulas inicial e final onde foram

    digitados os valores.

    f) Fazer o mesmo com as concentraes no Intervalo X de entrada.

    g) Observar que o valor do nvel de confiana aparece preenchido e

    bloqueado com o valor usual (95%); mantenha esse valor ou altere-o

    de acordo com suas necessidades, clicando na quadrcula esquerda e

    colocando o valor desejado.

    h) Indicar a opo de sada: pode ser na mesma planilha onde os dados

    foram digitados (neste caso, digite a clula que ser a clula superior

    esquerda e deixe pelo menos sete colunas para a tabela de sada),

    uma nova planilha (para nomear a nova planilha, digite um nome no

    retngulo) ou mesmo uma nova pasta de trabalho (Para nomear a

    nova pasta de trabalho, digite um nome no retngulo).

    f) MARCAR TODAS as outras quadrculas.

    Passo 6: dar um OK e observar o resultado.

    Exerccio 1: Verificar possveis valores extremos pelo mtodo Jackknife , considerando os

    dados e resultados a seguir.

  • Pg. 4-47

    X Y

    1 2,9

    2 5,4

    3 6,8

    4 8,7

    5 10,8

    6 13,2

    7 14,9

    RESULTADOS DE RESDUOS

    Observao Y previsto Resduos Resduos padro

    1 3 -0,1 -0,401918476

    2 4,985714 0,414285714 1,66509083

    3 6,971429 -0,171428571 -0,689003102

    4 8,957143 -0,257142857 -1,033504653

    5 10,94286 -0,142857143 -0,574169252

    6 12,92857 0,271428571 1,090921578

    7 14,91429 -0,014285714 -0,057416925

    desvpad= 0,248806676

    mdia= 0

    -0,5

    0

    0,5

    0 2 4 6 8Re

    sd

    uo

    s

    Varivel X 1

    Varivel X 1 Plotagem de resduos

    Exerccio 2: Verificar possveis valores extremos pelo mtodo Jackknife , considerando os

    dados e resultados a seguir.

  • Pg. 4-48

    X Y

    1 2,9

    2 5,4

    3 6,8

    4 8,7

    5 10,8

    6 13,2

    7 14,9

    8 57

    RESULTADOS DE RESDUOS

    Observao Y previsto Resduos Resduos padro

    1 -3,683333333 6,583333333 0,568599047

    2 1,644047619 3,755952381 0,324399637

    3 6,971428571 -0,171428571 -0,014806196

    4 12,29880952 -3,598809524 -0,310827291

    5 17,62619048 -6,826190476 -0,589574491

    6 22,95357143 -9,753571429 -0,842410848

    7 28,28095238 -13,38095238 -1,155705839

    8 33,60833333 23,39166667 2,020325981

    desvpad= 11,57816456

    mdia= 8,88178E-16

    5. Regresso Linear anlise dos pressupostos A anlise dos resduos revela:

    a. se a presuno de normalidade da distribuio dos resduos se confirma. Se o grfico dos resduos mostra uma tendncia sistemtica positiva ou negativa significa que uma outra funo (no linear) deve ser escolhida.

    Resduos

    X

    0

    b. pode revelar se a varincia dos resduos realmente constante, ou seja, se a disperso

    dos dados em torno da reta de regresso uniforme; A varincia dos resduos indicada pela amplitude da disperso dos resduos, quando o valor de x aumenta. Se essa amplitude aumenta ou diminui quando o valor de x aumenta, a varincia no constante. Este problema denominado heterocedasticidade Quando existe heterocedasticidade o mtodo dos mnimos

  • Pg. 4-49

    quadrados no pode ser usado para estimar a regresso, devendo ser usado um mtodo mais complexo chamado mnimos quadrados geral.

    Resduos

    X

    0

    Resduos

    X

    0

    Resduos parecem aleatrios, sem padro A varincia residual est crescendo

    c. se a presuno de que os resduos no so correlacionados est satisfeita

    5a. Teste de Ryan-Joner para verificar se os resduos dos dados podem ser modelados pela distribuio de Gauss A questo mais importante no "Os dados podem ser modelados pela distribuio de

    Gauss? ou, popularmente falando, A populao normal?", porque j se sabe que nenhuma

    populao real pode ser modelada pela distribuio de Gauss. Entretanto, a pergunta deve ser

    Quanto no Gauss a populao? ou Quanto no ser Gauss vai influenciar no resultado?

    A estatstica Ryan-Joiner (RJ) pode ser utilizada para indicar a resposta primeira dessas

    perguntas.

    Por ser um o coeficiente de correlao, a hiptese de nulidade rejeitada quando os

    coeficientes de correlao calculados so menores que os valores crticos estabelecidos para

    esses coeficientes.

    Os passos so os seguintes:

    1) Ordenar os resduos.

    2) Determinar, a partir dos valores desses resduos, os percentis estimados para uma

    distribuio de Gauss padronizada, percentis denominados, popularmente, quantis

    normais, a partir da seguinte expresso

    +

    = )4/1()8/3(1

    n

    iqipara i = 1, ..., n

  • Pg. 4-50

    onde qi a probabilidade acumulada associada ao valor

    +

    )4/1()8/3(

    n

    i, i a ordem da

    resduo ordenado, e n, o tamanho da amostra.

    3) Construir o grfico dos valores desses resduos e dos qi. tconhecido como grfico

    quantil-quantil (Q-Q). Se os dados pertencerem a uma distribuio de Gauss, o

    grfico o uma linha reta. No entanto, se os dados forem provenientes de uma

    outra distribuio, haver alguma curvatura ou uma distribuio aleatria.

    4) Calcular o coeficiente de correlao entre os valores desses resduos e dos qi pela

    expresso

    SSS

    qqee

    eqeq

    xR =

    Onde

    ))((1

    qqeeS in

    iieq =

    =

    2

    1)( eeS

    n

    iiee =

    =

    2

    1)( qqS

    n

    iiqq =

    =

    n

    e

    e

    n

    ii

    ==

    1

    n

    qq

    n

    ii

    ==

    1

    .

    5) Determinar o valor do coeficiente de correlai crtico Rcrtico(n) para um erro de 5%

    pela expresso:

    23505,06118,01288,00063,1)(nnn

    nRcrtico +=

    6) Se o coeficiente de correlao5 calculado for maior que Rcrtico(n), no se rejeita a hiptese nula de normalidade dos resduos, ou seja, os resduos podem ser considerados como podendo ser modelados pela distribuio de Gauss6.

    5 Quanto maior o coeficiente de correlao, ou seja, quanto mais perto de 1, melhor. 6 Quando o teste de Ryan-Joiner indicar que os dados apresentam desvio da distribuio de Gauss, aps transformarem-se as variveis, por meio da raiz quadrada, logaritmos e inverso da varivel dependente, nessa prioridade, avalia-se novamente. Se o desvio de linearidade

  • Pg. 4-51

    5b. Avaliao da Homoscedasticidade teste de Brown-Forsythe Quando uma ANOVA-fator nico realizada, assume-se que as varincias dos grupos so

    estatisticamente iguais. Se esta suposio no vlida, ento o teste F no vlido. O teste de

    Brown-Forsythe um teste estatstico para a igualdade de varincias do grupo baseado na

    realizao de uma ANOVA em uma transformao da varivel resposta. A estatstica de teste

    Brown-Forsythe a estatstica F resultante de uma simples ANOVA dos desvios absolutos a

    partir da mediana.

    A varivel de resposta transformada construda para medir a variabilidade em cada grupo.

    Seja

    yyz jijij~

    = onde y~ a mediana do grupo j.

    A estatstica de teste Brown-Forsythe a estatstica F a partir de uma ANOVA fator nico em

    zij .

    5c. Avaliao da independncia teste de Durbin-Watson

    H0: No existe correlao serial dos resduos H1: Existe correlao serial dos resduos

    Calcula-se a estatstica DW =

    =

    =

    =n

    i

    n

    ii

    e

    ee

    d

    11

    2

    21

    21)(

    O valor de d sempre se encontra entre 0 e 4.

    Se a estatstica de Durbin-Watson substancialmente menor do que 2, h evidncia de

    correlao serial positiva. Como regra emprica, se Durbin-Watson inferior a 1,0, pode haver

    motivo para alarme. Pequenos valores de d indicam que os termos de erro sucessivos so, em

    mdia, prximos um do outro, ou positivamente correlacionados.

    persistir aps aplicao do teste de Ryan-Joiner s variveis transformadas, recomenda-se utilizar mtodos robustos.

  • Pg. 4-52

    Se d> 2, os termos sucessivos de erro so, em mdia, muito diferentes uns dos outros, isto ,

    negativamente correlacionados. Em regresses, isto pode implicar uma subestimao do nvel

    de significncia estatstica.

    Para testar para auto-correlao positiva com nvel de significncia , a estatstica de teste

    comparada com os valores crticos inferiores e superiores (dL e dU).

    Se d dU, no h nenhuma evidncia estatstica de que os termos de erro so positivamente

    autocorrelacionados.

    Extrato da tabela para o teste de Durbin-Watson para alfa = 5%

    N dL dU

    15 1,08 1,36

    20 1,20 1,71

    25 1,29 1,45

    30 1.35 1,49

    40 1,44 1,54

    50 1,50 1,59

    60 1,55 1,62

    80 1,61 1,66

    100 1,65 1,69

    Graficamente, tem-se:

  • Pg. 4-53

    EXERCCIOS

    1. Explique o relacionamento entre ANOVA e regresso linear. 2. Explique o uso de todas as opes (resduos etc.) do quadro Regresso no

    Excel. 3. Probleminha:

    Calculou-se a mdia e o desvio-padro de uma amostra com 67 elementos, todos diferentes. Ao se retirar um valor igual mdia aritmtica, a consequncia para os valores da mdia aritmtica e do desvio-padro a seguinte, respectivamente:

    a) aumenta - permanece b) diminui - permanece c) permanece diminui d) permance - aumenta

    e. Regresso linear mltipla.

    f. Controle da Qualidade. Um grfico de controle um meio de controlar um processo. Valores dos dados so coletados e determina-se, por exemplo, a mdia amostral, a amplitude da amostra ou o

    desvio-padro amostral, baseados na caracterstica da qualidade de interesse que se deseja

    controlar, caracterstica colocada em um grfico. Se esse valor estiver entre determinados

    limites e no exibir qualquer padro sistemtico ou previsvel, o processo pode ser

    considerado sob controle estatstico. Se os limites so calculados a partir de dados recentes, o

  • Pg. 4-54

    grfico informa que o processo est, no momento, sob controle. Entretanto, se os limites de

    controle foram calculados a partir de dados anteriores, baseados em um processo inicialmente

    sob controle, o grfico pode ser usado para determinar se, aps ltima coleta de dados, o

    processo saiu ou no de controle.

    Os grficos de controle so chamados, algumas vezes, de grficos de Shewhart, porque Walter

    A . Shewhart foi quem primeiro props sua teoria geral.

    H dois tipos principais de grficos de controle: por variveis e por atributos. Nos grficos de

    controle por variveis, o valor de uma caracterstica da qualidade medida em escala

    numrica e so construdos para uma medida de representatividade (normalmente a mdia

    aritmtica) e para uma medida de disperso (normalmente a amplitude ou o desvio-padro),

    os quais devem ser utilizados de modo conjunto. Os grficos de controle para variveis

    informam a respeito da mdia da amostra, da amplitude da amostra, do desvio padro da

    amostra, dos valores individuais e da mdia mvel. Nos grficos de controle por atributos,

    indica-se a presena ou falta de uma determinada condio. Por exemplo, nos grficos por

    atributos indica-se a frao de itens no conformes, o nmero de no conformidades, o

    nmero total de no conformidades e o nmero total de no conformidades por unidade.

    A caracterstica da qualidade a ser acompanhada colocada o eixo vertical, enquanto que, no

    eixo horizontal, representam-se as amostras ou os subgrupos7. A figura 8.1 mostra um tpico

    grfico de controle.

    10

    15

    20

    25

    30

    0 1 2 3 4 5 6 7 8 9 10

    Nmero da amostra

    Val

    or

    da ca

    ract

    erst

    ica

    FIGURA 8.1 - Grfico de controle.

    7 Define-se como subgrupo o nmero de itens de uma determinada amostra

  • Pg. 4-55

    Trs linhas so indicadas no grfico de controle. A linha central (LC) representa o valor mdio

    da caracterstica em estudo, sendo uma indicao da medida central do processo. A linha

    central geralmente definida a partir de dados das amostras ou de uma especificao. Para a

    tomada de deciso a respeito do processo, utilizam-se dois limites, o limite superior de

    controle (LSC) e o limite inferior de controle (LIC).

    Se os pontos representando os valores observados das caractersticas encontram-se dentro

    dos limites de controle e no exibem nenhuma disposio regular, o processo considerado

    sob controle estatstico. Se algum ponto situa-se fora dos limites de controle ou se uma

    disposio no-aleatria existe (como, por exemplo, inmeros pontos sucessivos acima da

    linha mdia), o processo considerado fora de controle estatstico.

    8.2. Determinao dos limites de controle

    Considere uma caracterstica de interesse e sua estimativa. Por exemplo, pode ser uma determinada medio em um ensaio e a medio em uma amostra de escolhida no

    processo. Sendo DP( ) o desvio padro, a linha central e os limites de controle so dados por:

    LC = valor mdio de

    LSC = valor mdio de + k. DP( )

    LIC = valor mdio de - k DP( )

    onde k representa o nmero de desvios padro para limites de controle a partir da linha

    central. Tradicionalmente, o valor de k escolhido 3 (origem da expresso limites 3, Six-

    sigma e Seis Sigma).

    Os valores apresentados em um grfico de controle so considerados, aproximadamente,

    como sendo modelados pela distribuio de deMoivre-Laplace-Gauss ( tambm conhecida

    como distribuio normal). Para as mdias amostrais, o teorema central do limite garante que

    a distribuio de probabilidade tende para a distribuio de deMoivre-Laplace-Gauss, mesmo

    que a populao original no seja modelada por essa distribuio. Como, na maioria dos casos,

    utiliza-se a mdia amostral dos valores de determinadas caractersticas, considera-se vlida a

    distribuio de DeMoivre-Laplace-Gauss para a determinao dos erros associados s

    decises.

  • Pg. 4-56

    Desse modo, k=3 significa que existe a probabilidade de que, caso o processo esteja sob

    controle, somente 0,27% dos valores encontrarem-se fora dos limites de controle.

    8.3. Limites de advertncia

    Os limites de advertncia so aqueles em que os limites de controle so calculados para k=2.

    Se um ponto estiver fora dos limites de advertncia, mas dentro dos limites de controle, o

    processo no considerado fora de controle, mas serve como uma advertncia para o usurio.

    g. Introduo ao planejamento de

    experimentos. (exemplo simples com

    base no Montgomery)

    Conceitos iniciais definies etc.

  • Pg. 4-57

  • Pg. 4-58

  • Pg. 4-59

  • Pg. 4-60

  • Pg. 4-61

  • Pg. 4-62

    Finalmente, mais aplicaes

    (continua no Captulo 5)

  • Pg. 4-63

    EXERCCIOS

    Caso encontre algum exerccio que no tem um texto que o responda, pesquise a respeito e incorpore o que descobriu ao corpo do material.

    A.A.A.A. EXERCCIOS CONCEITUAISEXERCCIOS CONCEITUAISEXERCCIOS CONCEITUAISEXERCCIOS CONCEITUAIS

    Antes de resolver um problema, PENSE!

    Fonte: http://rpcriativo.blogspot.com/2010/04/pensar-fora-da-caixa-pode-ser-muito.html

    1.

    2. .

    B.EXERCCIOS de habilidade B.EXERCCIOS de habilidade B.EXERCCIOS de habilidade B.EXERCCIOS de habilidade (resolver problemas)(resolver problemas)(resolver problemas)(resolver problemas)

    A repetio at a exausto leva perfeio!

    Passo 1: Faa exerccios at completar 10 (dez) SEM ERRAR NENHUM

    Passo 2: Chegou ao final?

    a. SIM: refaa todos mais uma vez e v ao Passo 3

    b. NO: v ao Passo 1

    Passo 3: Faa os exerccios computacionais

  • Pg. 4-64

    1) Exerccios do Companion cap

    2) Faa os exerccios a seguir na ordem em que aparecem. 1.

    C.C.C.C. ExerExerExerExerccios de uso de aplicativos ccios de uso de aplicativos ccios de uso de aplicativos ccios de uso de aplicativos computacionaiscomputacionaiscomputacionaiscomputacionais

    1) Crie um anexo ao captulo 1 com os passos bsicos para usar o aplicativo R.

    2) Inclua no texto como fazer para gerar o feito no Excel dgitos pseudoaleatrios com o aplicativo R.

    D.D.D.D. Exerccios deExerccios deExerccios deExerccios de

    interpretao de resinterpretao de resinterpretao de resinterpretao de resultadosultadosultadosultados

    Ao longo do texto.

    E.EXERCCIOS de pesquisaE.EXERCCIOS de pesquisaE.EXERCCIOS de pesquisaE.EXERCCIOS de pesquisa

    Liste e comente endereos na rede mundial de computadores, relacionados aos assuntos vistos neste captulo como, por exemplo, em:

    1. www.youtube.com

    a.

    b.

    2. www.youtube.com/edu (Category: University)

    a.

    b.

    FFFF.... QUESTES: ENADE E PROVO QUESTES: ENADE E PROVO QUESTES: ENADE E PROVO QUESTES: ENADE E PROVO

    1.

    2.

    G. Para descontrair:G. Para descontrair:G. Para descontrair:G. Para descontrair:

    3. http://www.youtube.com/watch?v=H6syI3xiBBg

  • Pg. 4-65

    4.