7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 1/176
Estadistica Inferencial
2013
1
Instituto Tecnológico Superior De Jesús Carranza(I T S J C)
CLAVE DE LA MATERIA: GEC 9013
ANTOLOGÍA: ESTADISTICA INFERENCIAL
PRESENTA: ING. JUAN FRANCISCO GÓMEZ VALENCIA
SEMESTRE: 403.-A
INGENIERÍA: EN GESTIÓN EMPRESARIAL
JESÚS CARRANZA VERACRUZ 7 DE ENERO DEL 2013
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 2/176
Estadistica Inferencial
2013
2
UNIDAD 1 INTRODUCCIÓN A LA ESTADISTICA INFERENCIAL
1.1 Breve historia de la estadística………………………………………………….4
1.2 Concepto de estadística………………………………………………………….51.3 Estadística descriptiva…………………………………………………………….51.4 Estadística inferencial……………………………………………………………..51.5 Breve introducción a la inferencia estadística………………………………...71.6 Teoría de decisión en estadística……………………………………………….111.7 Componentes de una investigación estadística…………………………......161.8 Recolección de datos………………………………………………………… ..…191.9 Estadística paramétrica (población y muestra aleatoria)………………..…271.10 Aplicaciones………………………………………………………………………. 33
UNIDAD 2 INFERENCIA ESTADÍSTICA
2.1 Conceptos Básicos………………………………………………………………382.2 Distribuciones de muestreo……………………………………………………412.3 Estimación puntual………………………………………………………………472.4 Estimación de intervalo…………………………………………………………472.5 Intervalos de confianza para medias…………………………………………492.6 Intervalos de confianza para diferencia entre medias…………………….522.7 Intervalos de confianza para proporciones…………………………………572.8 Intervalos de confianza para diferencias entre proporciones……………622.9 Intervalos de confianza para varianzas………………………………………662.10 Intervalos de confianza para razones de dos varianzas…………………70
UNIDAD 3 PRUEBA DE HIPOTESIS CON UNA MUESTRA
3.1 Metodología para la prueba de hipótesis……………………………………743.2 Hipótesis nula y alternativa……………………………………………………753.3 Error tipo I y error tipo II…………………………………………………….….763.4 Pruebas de hipótesis Z para la media (desviación estándar poblacionalconocida)………………………………………………………………………………763.5 Pruebas para proporciones……………………………………………………763.6 Selección del tamaño de muestra ( para estimar la media poblacional)783.7 Selección del tamaño de muestra (para estimar la proporciónpoblacional)……………………………………………………………………… ..….80
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 3/176
Estadistica Inferencial
2013
3
UNIDAD 4 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMERICOS
4.1 Introducción………………………………………………………………………914.2 Distribuciones normal y t de Student………………………………………..944.3 Pruebas de significancia……………………………………………………….984.4 Comparación de dos muestras independientes: Pruebas t para lasdiferencias entre dos medias………………………………………………………1044.5 Prueba de Fisher para varianzas y deigualdad de las varianzas de dospoblaciones normales……………………………………………………………….1064.6 Comparaciones de dos muestras pareadas…………………………………1154.7 Modelo totalmente aleatorio: análisis devarianza de un factor …………………………………………………………………1224.8 Selección del tamaño de muestra parareadasestimar la diferencia de dos medias………………………………………………1234.9 Aplicaciones………………………………………………………………………130
UNIDAD 5 PREUBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE NÚMEROS CATEGORICOS
5.1 Prueba Z para la diferencia entre dos proporciones………………………1405.2 Prueba para la diferencia entre dos proporciones…………………………1445.3 Prueba para la diferencia en n proporciones Z……………………………..1525.4 Prueba de independencia (ji-cuadrada)………………………………………1525.5 Pruebas de contingencia (ji-cuadrada)…………………………………….…1565.6 Pruebas de bondad de ajuste……………………………………………….…1645.7 Aplicaciones…………………………………………………………………… ...174
BIBLIOGRAFÍA……………………………………………………………………….176
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 4/176
Estadistica Inferencial
2013
4
1.1.-Breve historia de la estadistica
INFERENCIA ESTADÍSTICA
INTRODUCCIÓN.
El empleo de encuestas es uno de los métodos de investigación másutilizados en la actualidad. La realidad, en continuo cambio y con muchísimasopciones diferentes, es muy difícil de abarcar en su totalidad. Por este motivo sehace necesario seleccionar una parte lo más pequeña posible, pero representativadel total, en la que sea posible medir las características deseadas. Esta necesidadha obligado a crear un instrumento matemático que llamamos muestreo.
Las muestras que se elijan para hacer un estudio deben ser lo máspequeñas posible por exigencias de tiempo y coste. Además, el aumento delnúmero de datos no siempre acarrea una mayor certeza, ya que más importanteque escoger muchos datos es que los datos estén bien seleccionados, con el finde que sean representativos de la población que se desea estudiar. Se verá comoel azar juega un papel importante en la elección de la muestra para que ésta searepresentativa.
En este tema estudiaremos dos parámetros de una población: la media deuna determinada característica numérica y la proporción o porcentaje de lapoblación que comparte un determinado rasgo común.
La inferencia estadística se basa en resultados de la teoría de laprobabilidad, los cuales nos aseguran, que al estudiar la media o la proporción demuestras, tomadas adecuadamente en la población, estas características seránmuy similares a las de la población total.
El método de inferencia estadística hace estimaciones de lo que ocurre entoda la población estudiando lo que ocurre en una parte de la misma (la muestra).Como se pretende sacar conclusiones sobre el total de la población a partir de unamuestra de la misma, estas conclusiones estarán sujetas a error. La teoría de laprobabilidad permite también acompañar a la estimación muestral de una media ode una proporción, en una población, de la probabilidad de que el error cometidono exceda de un determinado valor, o del riesgo (probabilidad de equivocación)que se corre al aceptar o al rechazar una hipótesis sobre los valores de la media ode la proporción de la población.
Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas. Por esta razón trataremos previamente a los métodos dela inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar las inferencias,controlando el posible error.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 5/176
Estadistica Inferencial
2013
5
Para trabajar este tema se necesita el manejo de los númeroscombinatorios como herramienta de cálculo y el conocimiento y uso de ladistribución normal y sus propiedades.
Finalmente, insistir en la importancia de la inferencia estadística comodisciplina fundamental en todas las áreas científicas, tanto naturales comosociales.
1.2.-Concepto de estadística
La estadística es el conjunto de técnicas que se emplean para la recolección,organización, análisis e interpretación de datos. Los datos pueden ser cuantitativos, con valores expresados numéricamente, o cualitativos, en cuyo casose tabulan las características de las observaciones. La estadística sirve enadministración y economía para tomar mejores decisiones a partir de lacomprensión de las fuentes de variación y de la detección de patrones yrelaciones en datos económicos y administrativos.
1.3.-Estadistica descriptiva.
La estadística descriptiva comprende las técnicas que se emplean para resumir ydescribir datos numéricos. Estos métodos pueden ser gráficos o implicar análisiscomputacional.
Ejemplo. El volumen mensual de ventas de un producto durante el año anterior puede describirse y cobrar significado elaborando un diagrama de barras o unagráfica de líneas. Las ventas relativas por mes pueden resaltarse calculando unnúmero Índice para cada mes, con lo que la desviación respecto de 100 decualquier mes indicaría la desviación porcentual de ventas de ese mes encomparación con las ventas mensuales promedio durante todo el año.
1.4.-Estadistica inferencial
La estadística inferencial comprende las técnicas con las que, con baseúnicamente en una muestra sometida a observación, se toman decisiones sobreuna población o proceso estadísticos. Dado que estas decisiones se toman encondiciones de incertidumbre, suponen el uso de conceptos de probabilidad.Mientras que a las características medidas de una muestra se les llamaestadísticas muestrales, a las características medidas de una poblaciónestadística, o universo, se les llama parámetros de la población. El procedimientopara la medición de las características de todos los miembros de una poblacióndefinida se llama censo. Cuando la inferencia estadística se usa en el control deprocesos, al muestreo, le interesa en particular el descubrimiento y control de lasfuentes de variación en la calidad de la producción.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 6/176
Estadistica Inferencial
2013
6
Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivoeléctrico, una muestra de estos dispositivos puede someterse a voltajes crecienteshasta que falle cada uno de ellos. Con base en estos resultados muestrales puedeestimarse la probabilidad de falla a varios niveles de voltaje de los demásdispositivos de la población muestreada.
La población es un agregado de unidades individuales, compuesto de personas ocosas que se hallan en una situación determinada. Las unidades individuales sellaman unidades elementales. Definir una población es determinar sus unidadeselementales de acuerdo con el interés que se tiene respecto a algunacaracterística de aquélla.
Tanto la definición de una población como la característica por observar de susunidades elementales dependen de la naturaleza del problema. Por ejemplo, si elproblema es "Camisas para personas adultas de El Salvador", se trata dedeterminar la cantidad adecuada de producción de camisas de acuerdo con lasdiversas medidas. La población son todas las personas adultas de El Salvador. Lacaracterística de interés son las medidas del cuello de las personas adultas endicho país.
Veamos otro ejemplo: las cuotas diferenciadas para alumnos de la UES(Universidad de El Salvador). El problema por resolver es la asignación de lascuotas a los estudiantes. La población son los alumnos (o sus padres) de la UES;la característica de interés es el monto de los ingresos de dichos estudiantes.
Las poblaciones pueden ser infinitas o finitas. Una población infinita es la quecontiene un número infinito de unidades elementales; por ejemplo, el conjunto depiezas que se obtienen en un proceso productivo; en el sentido de que se siguenproduciendo indefinidamente. Otro ejemplo son todos los posibles resultados allanzar una moneda sin cesar.
Una población es finita cuando tiene un número finito de unidades elementales.Por ejemplo, los estudiantes de una determinada universidad; el número deescuelas que existen en una determinada ciudad, el número de árboles de cocosembrados en una determinada parcela, etcétera. El número de unidadeselementales de una población se denota con la letra N.
Una muestra es una parte de la población; por ejemplo, cuando se desea hacer unestudio relativo al rendimiento académico de los alumnos de cierta universidad, ypara esto se toma sólo un grupo de estudiantes de la misma. Todos losestudiantes de ella son la población y el grupo escogido constituye la muestra. Esimportante hacer notar que para hacer una investigación mediante el análisis deuna muestra, ésta tiene que ser, necesariamente, representativa. Larepresentatividad de la muestra implica que cada unidad de la población debetener igual probabilidad de ser seleccionada. En estas condiciones, se dice que lamuestra es aleatoria. La obtención de una muestra representativa es uno de losaspectos más importantes de la teoría estadística. Incluye preguntas como, ¿qué
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 7/176
Estadistica Inferencial
2013
7
tan grande debe ser la muestra?, ¿qué tipo de datos deben ser recolectados?,¿cómo se recogerán éstos? Estas preguntas serán contestadas más adelante. (Elnúmero de unidades elementales de una muestra se denota con la letra n).
1.5.-Breve introducción a la estadística inferencial
El empleo de encuestas es uno de los métodos de investigación más utilizados enla actualidad. La realidad, en continuo cambio y con muchísimas opcionesdiferentes, es muy difícil de abarcar en su totalidad. Por este motivo se hacenecesario seleccionar una parte lo más pequeña posible, pero representativa deltotal, en la que sea posible medir las características deseadas. Esta necesidad haobligado a crear un instrumento matemático que llamamos muestreo.
Las muestras que se elijan para hacer un estudio deben ser lo máspequeñas posible por exigencias de tiempo y coste. Además, el aumento delnúmero de datos no siempre acarrea una mayor certeza, ya que más importanteque escoger muchos datos es que los datos estén bien seleccionados, con el finde que sean representativos de la población que se desea estudiar. Se verá comoel azar juega un papel importante en la elección de la muestra para que ésta searepresentativa.
En este tema estudiaremos dos parámetros de una población: la media deuna determinada característica numérica y la proporción o porcentaje de lapoblación que comparte un determinado rasgo común.
La inferencia estadística se basa en resultados de la teoría de laprobabilidad, los cuales nos aseguran, que al estudiar la media o la proporción demuestras, tomadas adecuadamente en la población, estas características seránmuy similares a las de la población total.
El método de inferencia estadística hace estimaciones de lo que ocurre entoda la población estudiando lo que ocurre en una parte de la misma (la muestra).Como se pretende sacar conclusiones sobre el total de la población a partir de unamuestra de la misma, estas conclusiones estarán sujetas a error. La teoría de laprobabilidad permite también acompañar a la estimación muestral de una media ode una proporción, en una población, de la probabilidad de que el error cometidono exceda de un determinado valor, o del riesgo (probabilidad de equivocación)que se corre al aceptar o al rechazar una hipótesis sobre los valores de la media ode la proporción de la población.
Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas. Por esta razón trataremos previamente a los métodos dela inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar las inferencias,controlando el posible error.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 8/176
Estadistica Inferencial
2013
8
Para trabajar este tema se necesita el manejo de los númeroscombinatorios como herramienta de cálculo y el conocimiento y uso de ladistribución normal y sus propiedades.
Finalmente, insistir en la importancia de la inferencia estadística como
disciplina fundamental en todas las áreas científicas, tanto naturales comosociales.
POBLACIÓN Y MUESTRA.
En el campo de la Estadística el concepto de población se encuentrapróximo a la noción general de grupo o conjunto.
Definición.
POBLACIÓN.Se llama población o universo a cualquier conjunto, colectivo o
colección finita o infinita de individuos o elementos.
Una población puede ser, no sólo un conjunto de personas, sino también unconjunto de animales, objetos, fenómenos, medidas, .....
Ejemplo: Si pasamos un test a todos los alumnos españoles de una determinada
edad, los resultados obtenidos constituyen una población de medidas de lacapacidad a la que se derige el test.
Definición.
CENSO. Se da el nombre de censo a la enumeración y anotación de ciertas
características de todos los elementos de una población.
Ejemplo: El profesor-tutor de un grupo de un instituto realiza un listado de los
alumnos/as de su tutoría, en la incluye, nombre y apellidos, nombre de los padres,domicilio, teléfono, número de hermanos y asignaturas pendientes del cursoanterior. Este sería un ejemplo de censo de la población formada por el alumnadodel grupo en cuestión.
Las poblaciones en Estadística pueden ser finitas o infinitas. Una poblaciónes finita cuando consta de un número limitado de unidades, y una población esinfinita cuando su tamaño es indefinidamente grande.
Ejemplo: - Si consideramos el número de hermanos que tienen los alumnos/as de
un curso de un instituto determinado, estaríamos hablando de una
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 9/176
Estadistica Inferencial
2013
9
población finita. Habría tantos valores como alumnos/as haya en dichocurso.
- Si obtenemos una serie de medidas del tiempo que tarda un alumno enresolver una división de dos cifras, estas medidas pueden consideradasparte de un conjunto mucho mayor, de tamaño indefinidamente grande,
constituido por todas las medidas que obtendríamos si repitiésemos laexperiencia una y otra vez.- Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos
el valor de la cara superior. Tal experiencia puede ser repetidamentehasta el infinito, por lo que cualquier conjunto de resultados podría ser considerado una parte extraída de una población indefinidamentegrande.
En definitiva, con frecuencia, las poblaciones en Estadística suelen ser consideradas infinitas.
El gran tamaño que presentan algunas poblaciones es precisamente laprincipal razón que hace recomendable reducir su estudio a muestras obtenidasde ellas.
Definición.
MUESTRA. Se define muestra como una parte o subconjunto de una población,
debidamente elegida, que se somete a observación científica enrepresentación de la misma, con el propósito de obtener resultados válidospara el total de la población.
Para que una muestra se considere válida debe cumplir que:
Su tamaño sea proporcional al tamaño de la población. No haya distorsión en la elección de los elementos de la muestra. Sea representativa.
Un estudio exhaustivo cuyos datos se utilizan para multitud detrabajos e investigaciones es el Censo de Población. Requiere un granesfuerzo tanto económico como de medios y en él se recaba información detodos los habitantes de un país. Sin embargo, para el conocimiento dealgunas características de la población, se utilizan métodos alternativos quereducen el costo y el tiempo. Los modelos reducidos de la población,
constituidos por las muestras, tienen como finalidad obtener resultados quepuedan ser aplicables (extrapolables) a la población.
Las principales razones que inducen a tomar muestras son:
a) El coste temporal. Estudiar una población de tamaño considerable exigeuna dedicación de tiempo que retrasaría enormemente lasinvestigaciones en marcha y prolongaría en exceso la realización de los
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 10/176
Estadistica Inferencial
2013
10
estudios. A veces, esto último podría entrar además en conflicto con elcarácter vivo, cambiante, en continua evolución de las realidades queocupan el interés de los investigadores en el campo de las cienciassociales, cuyo estudio desde una perspectiva sincrónica, requiere laconcreción en segmentos temporales limitados. Por ejemplo, si
queremos saber cómo ha afectado a la intención de voto de losespañoles determinadas declaraciones de un destacado líder político nodisponemos de un tiempo indefinido, porque otros hechos odeclaraciones posteriores influirían en las opiniones y tendencias de lapoblación. En este caso, sería necesario recurrir a un muestreo quepermita abordar el estudio con un bajo coste temporal.
b) El coste económico. La inversión en recursos temporales y humanosnecesaria para abordar algunos problemas de investigación seríaelevada si pretendiéramos abarcar a la población. La recogida de losdatos que posteriormente van a ser analizados estadísticamenterequiere desplegar estrategias que exigen disponer de recursos. Elenvío de cuestionarios por correo, la realización de entrevistas por partede personas especializadas, el desplazamiento de observadores a loslugares estudiados, etc., suponen un coste económico que quedareducido si nos limitamos al estudio de una muestra extraída de lapoblación.
c) El impacto sobre la realidad estudiada. Cuando el estudio realizadopudiera provocar efectos en los sujetos, parece adecuado limitar larealización de experimentos a ámbitos reducidos. Por ejemplo, lamedición de los resultados de un nuevo método de aprendizaje de lalectura habría de hacerse sobre un número reducido de alumnos, sinextender a toda la población la nueva metodología hasta no confirmar los resultados positivos de la misma.
d) Una población homogénea. Si la población es homogénea se puedenobtener muy buenos resultados a partir de cualquier muestra.
e) La falta de personal. Si no se dispone de suficiente personal preparadopara llevar a cabo un estudio exhaustivo, también resulta aconsejableshacer un muestreo.
Por otro lado, el uso del muestreo presenta limitaciones, entre estasdestacamos:
a) El riesgo que supone la toma de una muestra que pueda no ser representativa.
b) Cuando es necesaria información de todos los elementos de lapoblación.
c) Cuando no se domina bien la técnica de muestreo.d) Cuando la población esté formada por un número muy pequeño de
elementos, ya que una ligera equivocación en la toma de la muestrapuede originar grandes errores.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 11/176
Estadistica Inferencial
2013
11
Para el investigador tienen especial interés las muestras en la medida en que
permiten generalizar los resultados de un estudio a las poblaciones de las que
fueron extraídas. Para que ello sea posible es necesario que el muestreo se
realice siguiendo determinados procedimientos que garanticen la
representatividad de la muestra y, por tanto, las posibilidades de generalización.
1.6.-Teoría de la desición estadística.
Cuando buscamos información acerca de una población, pero sólo disponemos de datos de unamuestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa población. Los conceptos ytécnicas que satisfacen esta necesidad constituyen la Inferencia Estadística.
1. ESTIMACIÓN DE PARÁMETROS
Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a través de unestadístico calculado en la muestra. La inferencia en los distintos niveles de medición se realizará através de P y.
Un estimador es un procedimiento expresado a manera de fórmula por medio del cuál se obtieneun valor numérico denominado estimación.
1.1. Estimación intervalar
Consta de dos puntos definidores de un intervalo (límites de confianza), que según nuestrasestimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos estimar el parámetro ó P
dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo aun nivel de confianza determinado.El principal objetivo de la estadística inferencial consiste en precisar el valor desconocido de los
parámetros poblacionales a partir de los resultados obtenidos en muestras aleatorias.Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre valores
muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del parámetro poblacional.
Estudiando el estadístico obtenido en la muestra y su error típico podemos determinar por laspropiedades de la curva normal a qué distancia máxima se encontrará el verdadero valor; dichadistancia constituirá el intervalo dentro del cual podemos asegurar que se encuentra el valorpoblacional.
2. LA DISTRIBUCIÓN MUESTRAL
Una distribución muestral es una distribución probabilística teórica de estadísticospertenecientes a muestras, p.e. medias ó proporciones.
Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias simples (cada unade ellas con al menos un elemento diferente) de tamaño N de una misma población, se calcula un estadístico
por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadísticos alrededor del parámetroque estiman. Ej.: de una nación se coge una muestra de 2000 y se calcula la de edad, si repetimos con todaslas muestras posibles de 2000, obtendremos una distribución muestral de medias de edad.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 12/176
Estadistica Inferencial
2013
12
2.1. El teorema del límite central
Es muy importante en estadística. La suma de gran cantidad de variables aleatorias independientessiempre tiene una distribución aproximadamente normal. La distribución de dicha suma será tanto más
parecida a la normal cuanto mayor sea el número de variables aleatorias. El teorema central del límite expresacuantitativamente la rapidez de esta convergencia.
Lo que nos dice el teorema es que las medias de las muestras aleatorias simples extraídas de una población que se distribuye normalmente, darán lugar a una distribución muestral que también es normal,aunque N sea pequeño.
1.3. La Ley de los grandes números
Según esta ley la diferencia entre una población dada y una muestra decrece conforme aumenta eltamaño muestral.
A partir de cierto tamaño muestral, el error muestral se hace tan pequeño que un aumento del tamañomuestral no compensaría el incremento de los costos.
La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se utiliza en las pruebas de significación, ello quiere decir que cuando N es suficientemente grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la población, pudiendo aplicar las propiedades dela curva normal, ya que la distribución muestral tiende a aproximarse a la normalidad.
Gracias al teorema del límite central y la ley de los grandes números podemos afirmar que ladistribución de los estimadores en el muestreo será una distribución normal.
3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIÓNMUESTRAL
La tendencia central de una distribución muestral se denomina valor esperado de un estadístico y serepresenta por E().
Si el promedio o valor esperado de un estadístico es el parámetro que estima, entonces se dice que elestadístico es un estimador no sesgado del parámetro. Cualquier diferencia que se produzca entre unestadístico concreto y su parámetro es atribuible por ello más bien a un error aleatorio.
4. DISTRIBUCIONES MUESTRALES DE MEDIAS
La medida de error muestral que indica la magnitud de las desviaciones de los estadísticos sedenomina error típico, para distinguirlo de otras desviaciones típicas.
Según la ley de los grandes números al aumentar la muestra disminuye el error típico, e.d, que alaumentar N los estadísticos se agrupan con mayor proximidad alrededor de sus respectivosparámetros.
PROPIEDADES:
1. La distribución muestral de medias se aproxima a la curva normal (por el teorema del límitecentral y la ley de los grandes números). En la práctica pensaremos que n 30 para servirnos de las
medidas de la curva normal.2. Al ser una distribución de frecuencias es posible calcular medidas de tendencia central,variación, etc.
3. La de una distribución muestral de medias es igual a la verdadera de la población.4. La es menor que la de la población; esto se debe a que tomamos valores medios,
eliminando los valores extremos.
Podemos decir que entre
1 68,26%
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 13/176
Estadistica Inferencial
2013
13
2 95,45% 3 99,73%
e.d., entre la más o menos una desviación típica de esa distribución muestral de se encontrarán el68,26% de las medias muestrales de la distribución muestral de medias.
Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan para la
distribución muestral de medias:x - -
Z = ------ = Z = --------S
= media muestral = = media de población o media de medias = desviación típica de la distribución muestral de medias; error típico de la media.
4.1. ERROR TÍPICO DE LA
El investigador rara vez escoge más de 1 ó 2 muestras, que espera poder generalizar a la población,
pues el procedimiento de completar una distribución muestral de medias sería tan costoso como analizar acasi todos los miembros de la población. No se tiene pues un conocimiento real de la , pero sí un buen método para estimar la desviación
típica de la distribución muestral de medias sobre la base de datos recogidos en una sola muestra.Con la ayuda del error típico podemos encontrar el rango de valores de la, dentro del cuál es
probable que fluctúe nuestra verdadera poblacional.Cuanto más pequeño sea el error típico, más fiable es el estadístico. La cuantía del error típico depende
del tamaño de la muestra; al aumentar la muestra disminuye el error típico => las muestras grandes engendranestadísticos más fiables que las pequeñas.
A todo estadístico le corresponde una distribución muestral y un error típico.La media de una muestra es una estimación insesgada de la media de la población, e.d., la de la
muestra puede ser mayor ó menor que la de la población. Si se extraen muchas muestras y se promedian susmedias, el resultado tiende a la media de la población al aumntar el tamano de la muestra.
* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C OD E L A M E D I A * * *
4.2. INTERVALOS DE CONFIANZA
El intervalo de confianza se define como el valor de las puntuaciones directas entre las cuálesafirmamos, a un nivel de confianza dado, que se encuentra el parámetro que consideramos. El intervalode confianza tiene un límite inferior y un límite superior, que son los límites de confianza.
Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y 99,73%, por mediode los cuáles se estima la media poblacional, sabiendo p.e. que hay 95 oportunidades entre 100 de estar en locierto y un 5 de equivocarse, e.d., el nivel de confianza sería la parte de la distribución muestral que yo tomo
para hacer la estimación.Al realizar una estimación pienso que la media muestral a través de la cuál hago la inferencia caerá en
ese intervalo con un 95% de probabilidades, aunque sé que hay un 5% de que quede fuera.Cuanto más amplio sea el intervalo, tanto menos se acerca a dicho parámetro, e.d., al aumentar el nivel
de confianza se sacrifica también en grado de precisión al señalar la media poblacional.
Estimaciones de la a partir de una sola muestra
Según la adaptación de la distribución muestral de la media a la curva normal, sabemos que con unnivel de confianza de 99% y conociendo la , la verdadera media de la población no se apartará de en másde 2,58 .
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 14/176
Estadistica Inferencial
2013
14
(-) 2,58
Como formulación general de la estimación de parámetros tendremos:
Estimador factor de confiabilidad x error típico del estimador
Zo
P ( - Z < < + Z) = Nc ó Ns
Zo nos dará la distancia máxima entre y . Z depende del nivel de confianza dado.Conociendo el error típico del estadístico en la distribución muestral, el intervalo será el producto del
Nc por dicho error.
5. DISTRIBUCIÓN T DE STUDENT
Cuando las muestras son pequeñas (n < 30) en la estimación de medias deberemos utilizar ladistribución t de Student, que depende del Ns y de los grados de libertad. El intervalo viene dado por:
t t = Z
La distribución t correspondiente se asemeja mucho a la distribución normal, y veremos que se aplicauna distribución t de la misma manera en la que se hace con una distribución normal.
Características:
1. Hay una familia de distribución t (una distinta para cada valor de n).2. Cada curva t es simétrica a los dos lados de 0.3. = 0; 2 es algo superior a 14. el punto más alto de la curva viene dado por t = 0.5. Debe calcularse la puntuación t para trabajar con la distribución t:
- t = --------
S = -------
n
6. El área bajo la curva es igual a 1.7. Para la estimación intervalar la fórmula será:
t P ( - t < < + t) = Nc ó Ns
t = error absoluto; distancia máxima entre y .
Grados de libertad
El número de grados de libertad de un estadístico es denominado generalmente por la letra v. Se definecomo el número de observaciones independientes en la muestra (e.d. el tamaño muestral) menos el nº de H
parámetros de la población que deben estimarse a partir de las observaciones de la muestra.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 15/176
Estadistica Inferencial
2013
15
v = gl = N - Hv = gl = N-1 (para parámetros)
Tablas de distribución t de Student
Aparecen Ns para 1 ó 2 colas, llamadas pruebas unilaterales o bilaterales. Para estimaciones de parámetros se utilizan pruebas bilaterales. A la izquierda se sitúan gl (df), que son lo grados de libertad.
6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES
La proporción es una frecuencia relativa:
nP = ---
N
La suma de todas las proporciones es igual a 1; cada proporción es 1. El porcentaje es la proporción* 100. P = población; p = muestras.
Estimaremos proporciones igual que acabamos de estimar las medias.
Todos los estadísticos, tanto las medias como las proporciones, tienen su propias distribucionesmuestrales; lo dicho para la distribución muestral de medias vale para la distribución muestral de
proporciones.Muchas veces el investigador busca presentar una estimación de una proporción poblacional con base
en la proporción que obtiene en una muestra aleatoria, p.e. ¿cuál es la proporción de los votos que irán a un partido?
La distribución muestral de proporción 'p' está calculada con base en muestras aleatoriassimples de tamaño 'n', sacadas de una población en la que la proporción poblacional es 'P'. Estádistribuida normalmente si 'n' es grande.
Si extraemos distintas muestras y calculamos su proporción podemos realizar una distribuciónmuestral de proporción.
PROPIEDADES:
1. la media de la distribución muestral de proporción es igual a la proporción poblacional
p = P
2. La distribución muestral de proporción es aproximadamente normal si np ó nq > 5.Si p = 0,50 la distribución es aproximadamente normal si n > 30. Pero si P está cercade 0 ó de 1 la distribución muestral de proporción tenderá a tener un extremo máslargo a la izquierda o a la derecha, y deberá aumentar para tener una aproximación a lacurva normal. Al ser una distribución de frecuencias podemos calcular entoncestendencia central, variación, etc.
3. Ps 1 p 68, 26%
Ps 2 p 95,45%Ps 3 p 99,73%
Entre la proporción muestral Ps y 1 p, 2 p y 3 p se encuentran respectivamente el 68,26%, 95,45%y 99,73% de proporción de esta distribución muestral de proporción.
5. Hay que estandarizar las unidades Z:
Ps - P Z = --------
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 16/176
Estadistica Inferencial
2013
16
p
Ps = proproción muestral; P = proporción poblacionalp = desviación típica de la distribución muestral de proporción.
6.1. ERROR TÍPICO DE LA PROPORCIÓN
Es la desviación típica de esa distribución muestral que nos da la fiabilidad del estadístico. Cuantomenor sea, mejor será la estimación.
* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C OD E L A P R O P O R C I Ó N * * *
4.2. INTERVALOS DE CONFIANZA
Estimador factor de confiabilidad + error típico del estimador
P Zp
P(Ps - Zp < P < Ps + Zp) = Nc ó NsP (p - Zp < P < p + Zp) = Nc ó NS
Deberán utilizarse en general muestras grandes para la estimación de proporciones, pues sino da unosintervalos excesivamente amplios que poco pueden decirnos como información.
1.7.-Componentes básicos de una investigación estadistica
ESTIMACIÓN POR INTERVALOS.
En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].
Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el
estadístico X , estimador de . Sabemos que si extraemos muestras de una población en la
que la media es y la varianza 2 , la distribución muestral de X tiene como media y
como varianzan X
22
. Si el tamaño n de las muestras es suficientemente grande, la
distribución muestral del estadístico X tiende al modelo normal
n N
, .
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 17/176
Estadistica Inferencial
2013
17
ERROR MUESTRAL.
Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestral
no nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.
Sea x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media
x de cada una, se obtiene una distribución normal, llamada distribución muestral de las
medias o distribución de las medias muestrales X .
La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,
obteniéndose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .
Definición.
ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica
de la distribución muestral de las medias o de las proporciones.
Recordamos que, para la distribución de las medias muestrales y para la distribución
de las proporciones muestrales, respectivamente:
Cuando la población es finita y la extracción es con reemplazamiento, o cuandola población es infinita:
n
q p
pn X
·,
Cuando la población es finita y la extracción es sin reemplazamiento:
1··,
1· N
n N n
q p p N n N
n X
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 18/176
Estadistica Inferencial
2013
18
ERROR MÁXIMO ADMISIBLE.
La distribución muestral de las medias sigue una ley normal
n N
, y
su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.
Definición.
NIVEL DE CONFIANZA. Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .
Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.
Definición.
NIVEL DE SIGNIFICACIÓN.Se denomina nivel de significación o nivel de riesgo a la diferencia entre la
certeza y el nivel de confianza deseado. Por tanto, se expresa por .
Definición.
ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran enmenos de la cantidad “d ” con el nivel de confianza elegido (1 - ):
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 19/176
Estadistica Inferencial
2013
19
1d x p
De lo anterior se deduce:
1d xd p
O lo que es lo mismo:
1d xd x p
Si:
6826.0entonces X X X
x x pd
9544.022entonces2 X X X
x x pd
9973.033entonces3 X X X
x x pd
Es decir: X
d para un nivel de confianza del 68.26 %.
X d 2 para un nivel de confianza del 95.44 %.
X d 3 para un nivel de confianza del 99.73 %.
1.8.-Recolección de datosTIPOS DE MUESTREO.
Definición.
MUESTREO.Se llama muestreo al procedimiento mediante el cual elegimos a las
unidades estadísticas que forman la muestra, dentro del conjunto que constituye la población.
Diremos que el muestreo es probabilístico cuando todos los elementos de la población poseen un probabilidad conocida (o calculada de antemano), no nula, deser elegidos para formar parte de la muestra. Se contrapone al llamado muestreo noprobabilístico, en el que, o bien no se conoce la probabilidad de que los elementosde la población sean seleccionados para la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a cabo inferencias estadísticas.
Lógicamente, el muestreo que se encuentra en la base de la mayoría de los métodosde la Estadística Inferencial es el muestreo probabilístico. Para llevarlo a cabo es necesarioque la selección pueda considerarse como una prueba o experimento aleatorio o de azar, delos que constituyen la base de la teoría de la probabilidad en la cual se fundamenta laestadística matemática.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 20/176
Estadistica Inferencial
2013
20
Las generalizaciones de resultados, a partir del estudio de muestras extraídasmediante procedimientos de muestreo no probabilístico, nos impiden conocer el margen deerror con el que hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite hacer inferencias sobre la población, y gracias a los procedimientosde la Estadística Inferencial podemos conocer el error con el que se realizan las
generalizaciones.En las páginas siguientes, se describen muestreos probabilísticos (muestreo
aleatorio con y sin reposición, muestreo aleatorio sistemático, muestreo estratificado,muestreo por conglomerados, muestreo polietápico) y muestreos no probabilíticos(muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dosconceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevación yfracción de muestreo.
Definiciones.
FACTOR DE ELEVACIÓN.Se denomina factor o coeficiente de elevación al cociente entre el tamaño
de la población y el tamaño de la muestra,n
N . Representa el número de elementos
que hay en la población por cada elemento de la muestra.
FRACCIÓN DE MUESTREO. Se denomina fracción de muestreo al cociente entre el tamaño de la
muestra y el tamaño de la población, N
n. Si se multiplica por 100, representa el
porcentaje de la población que representa la muestra.
A) MUESTREOS PROBABILÍSTICOS.
Muestreo aleatorio simple con y sin reposición. Se denomina muestreo aleatoriosimple a aquel en que todos los elementos de la población tienen la misma probabilidad deformar parte de la muestra y ésta es determinada únicamente por el azar. Se trata de un tipode muestreo probabilístico que permite con facilidad llevar a cabo inferencias estadísticas ycalcular la probabilidad de error asociada a las mismas.
Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con osin reemplazamiento de entre los N elementos que componen la población, de tal modo quetodas las muestras de tamaño n que se puedan formar tengan la misma probabilidad de ser elegidas.
Si la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento hasido extraído queda descartado de cara a la siguiente extracción) se habla de muestreoaleatorio sin reposición, también llamado muestreo irrestrictamente aleatorio.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 21/176
Estadistica Inferencial
2013
21
Si la muestra se selecciona con reemplazamiento (es decir, el elemento elegido encada extracción vuelve a ser incluido en la población antes de extraer el siguiente elemento)se habla de muestreo aleatorio con reposición, también llamado generalmente muestreoaleatorio simple.
Si bien los dos métodos son distintos, cuando el tamaño de la población es infinito otan grande que pueda considerarse como infinito, ambos métodos llegan a las mismas
conclusiones. Si la fracción de muestreo N
nes mayor de 0.1 (se muestrea más del 10 % de
la población) la diferencia entre ambos métodos puede ser apreciable, llegando aconclusiones contradictorias según se aplique un método u otro.
Ejemplo: En el muestreo aleatorio sin reposición, el número de muestras de tamaño n que se
pueden formar es:
n
N , y, por tanto, la probabilidad de elegir una muestra determinada es:
!
!·!1
N
nn N
n
N p
.
La probabilidad de que un elemento determinado de la población forme parte de la
muestra viene dada por N
n p .
En efecto:
N
n
N nn N
nn N N
n
N
n
N
p
!·!1·!
!·!·!11
1
posiblescasos
favorablescasos.
En la práctica el procedimiento de muestreo aleatorio consiste en extraer al azar loselementos que constituyen la muestra, obteniendo la muestra unidad a unidad. Para ello, sila población es finita, se enumeran los elementos de la población desde 1 hasta N , y seextraen a continuación n elementos usando una urna o un bombo. Este procedimiento,aunque sencillo, requiere tener unos medios materiales: un bombo o una urna, papelesnumerados o bolas numeradas, etc., por lo que se suelen utilizar otras alternativas como lastablas de números aleatorios o la generación de números aleatorios con la calculadora.
Las tablas de números aleatorios son tablas de números colocados de tal forma queno exista ninguna relación entre ellos sea cual sea el sentido en que los leamos. Al final delos contenidos teóricos de este tema aparece una tabla de números aleatorios.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 22/176
Estadistica Inferencial
2013
22
Ejemplo: Si en una población de 834 individuos deseamos extraer una muestra de 42,
asignaríamos un número a cada uno de los 834 elementos de la población. Para determinar los 42 elementos de la muestra, marcaríamos un número en la tabla de números aleatoriosal azar y a partir de éste leeríamos en dicha tabla números de tres dígitos en cualquier
dirección, desestimando los que superen 834.También podríamos encontrar estos 42 números generando números de forma
aleatoria con la calculadora. Así:- Con la calculadora Texas Instruments TI-92, utilizando la orden “rand(834)”,
obtendríamos números entre 1 y 834.- Con la calculadora CASIO fx-180P, debemos utilizar la sucesión de teclas,
“INV” “(·) RAN”, y descartamos los números que superen 834.
Muestreo aleatorio sistemático. El muestreo aleatorio sistemático resulta ser un procedimiento más cómodo que el muestreo aleatorio, con o sin reposición, cuando la población o la muestra que vamos a extraer son grandes. En lugar de recurrir a papeletas, bolas, tablas de números aleatorios o calculadora, puede determinarse la muestra eligiendosistemáticamente, en una relación ordenada de los individuos de la población, aquellos quese encuentren a una distancia determinada. Suponiendo que el tamaño de la muestra es N yque la muestra que queramos extraer constara de n individuos, procederíamos del siguientemodo:
a) Calculamos el coeficiente de elevación,n
N k .
b) Elegimos aleatoriamente un número m comprendido entre 1 y k .c) Determinamos la muestra sumándole repetidamente k al número, m,
elegido.La muestra estará constituida por los individuos:
k nmk mk mk mm 1........,,3,2,,
Para que la muestra conserve el carácter aleatorio, debemos procurar que laordenación de los individuos de la población no presente tendencias que hagan recaer laelección sistemática sobre unidades que no sean representativas de la heterogeneidad de la población.
Ejemplo: Supongamos que queremos hacer una investigación en un instituto de 720 alumnos
y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar,ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación.Sin embargo, disponer los alumnos situando una tras otra las listas de los alumnos/as decada clase, en las que estos aparezcan por orden de calificaciones, podría llevar a que seseleccionaran sistemáticamente los alumnos/as con calificaciones altas y no los de lascalificaciones bajas, o viceversa.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 23/176
Estadistica Inferencial
2013
23
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación
980
720 . Elegimos aleatoriamente un número entre 1 y 9 (tabla de números aleatorios,
calculadora, .....). Si el número obtenido fuese 6, los individuos seleccionados serían:{6, 15 (= 6+9), 24 (= 6+2 · 9), 33 (=6+3 · 9), ........, 717 (=6+79 · 9)}
Evidentemente, k no suele ser un número entero. Si se desprecian los decimalesocurrirá que una parte de los sujetos que se encuentran al final de la ordenación pierdentoda posibilidad de ser elegidos. Una solución podría consistir en mantener los decimalesdel coeficiente k y redondear el resultado de las sumas al número entero más próximo, unavez que se han realizado todas ellas. Otra sería, sumar alternativamente las cantidades Ent (k ) y Ent (k ) +1.
Además del procedimiento que acabamos de exponer, existen otras formas demuestreo que también se consideran muestreos sistemáticos. Por ejemplo, para elegir unamuestra de personas, podemos seleccionar una o varias letras del abecedario y tomar como
muestra todos los sujetos cuyo apellido comience por esa(s) letra(s).Muestreo estratificado. El muestreo estratificado se realiza cuando queremosgarantizar cierta representatividad de la muestra respecto de alguna característica. Para ello,en función de esa característica, dividimos la población de tamaño N en K estratos osubpoblaciones de tamaños respectivos K N N N N ........,,,, 321 y elegimos de forma
aleatoria (mediante sorteo, tablas, procedimientos sistemáticos, .....) submuestras detamaños k nnnn ........,,,, 321 en cada estrato, asegurándonos de este modo de que todas
las subpoblaciones estarán representadas en la muestra. La muestra total será la suma de lassubmuestras elegidas en cada estrato, es decir, k nnnnn ........321 .
Cabe diferenciar entre muestreo estratificado con asignación proporcional o deafijación proporcional, muestreo estratificado con asignación constante o de afijación igualy muestreo estratificado con asignación óptima.
En el muestreo estratificado con asignación proporcional, o de afijaciónproporcional, se respeta la importancia cuantitativa de cada estrato, asignando en lamuestra un número de individuos proporcional al tamaño del estrato en la población.
N
n
N
n
N
n
N
n
N
n
k
k ............3
3
2
2
1
1
En el muestreo estratificado con asignación constante, o de afijación igual,todos los estratos contribuyen a la muestra con idéntico número de individuos, conindependencia de cual sea la importancia numérica de dicho estrato.
Finalmente, se habla de muestreo estratificado con asignación óptima cuando lacontribución de cada estrato se determina a partir de parámetros ya conocidos de la población.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 24/176
Estadistica Inferencial
2013
24
Ejemplo: Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en el
que hay 500 matriculados, de los que 300 son niños y 200 son niñas, para estimar laestatura media.
Si se utiliza un muestreo estratificado de afijación igual deberíamos seleccionar
30 niños y 30 niñas. Si se utiliza un muestreo estratificado de asignación proporcional deberíamosescoger 36 niños y 24 niñas.
Si conocemos la variabilidad de la característica considerada, y sabemos que lavarianza en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la proporción de alumnos a alumnas sería de 3 : 1, y usando un muestreoestratificado de asignación óptima, los tamaños de las submuestras deberían ser de 45 niños y 15 niñas.
Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado es el deasignación constante, ya que asigna el mismo tamaño a cada estrato, y como consecuencia se favorece alos estratos de menor tamaño y perjudica a los grandes, en cuanto a la precisión de los resultados que
obtengamos.
Muestreo por conglomerados. El muestreo por conglomerados se utiliza cuandolas unidades de la población presentan alguna forma de agrupamiento, que permite elegir grupos en lugar de individuos. De esta forma, el acceso a la muestra queda facilitadoconsiderablemente, al quedar reunidos en una serie de grupos los individuos que laconstituyen. Al realizar el muestreo, seleccionaríamos aleatoriamente una serie de grupos oconglomerados, tratando de reunir el número total de individuos que pretendemos incluir enla muestra. Los conglomerados deben ser lo más representativos posible de la población, es
decir, deben representar la heterogeneidad de la población del estudio y ser entre síhomogéneos.
Este procedimiento no requiere construir censos o listados completos de loselementos de la población, que son sustituidos en este caso por los censos deconglomerados. En realidad, el muestreo por conglomerados no es más que la aplicación delos muestreos aleatorios con o sin reposición, sistemático o estratificado al caso en que launidad de muestreo no son los individuos sino los grupos de individuos. Usando este procedimiento se evita la dispersión de unidades a la que conducen otros tipos de muestreo,y se reducen los costes y el tiempo de un trabajo de recogida de datos.
Cuando los conglomerados se corresponden con zonas geográficas, y se define elconglomerado como un área o parte bien limitada del terreno, se denomina muestreo poráreas.
Ejemplo: Si queremos hacer un estudio sobre la influencia de un determinado pienso en el
engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 25/176
Estadistica Inferencial
2013
25
luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cadagranja o de una muestra representativa de la población de cerdos de la misma.
Muestreo polietápico. En el muestreo polietápico las unidades que finalmente
componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular delmuestreo por conglomerados, en el que la unidad final no son los conglomerados sinosubdivisiones de éstos. Por tanto, será interesante aplicarlo cuando los conglomeradoscontengan un elevado número de individuos y resulte aconsejable hacer una selección entreellos.
Si únicamente desarrollamos dos etapas, muestreo bietápico, el procedimientoconsistiría en la selección de los conglomerados en la primera etapa, y la selección de losindividuos en la segunda.
No obstante, el muestreo polietápico puede extenderse a más de dos etapas dandolugar a una selección sucesiva de unidades cada vez menores, que están jerarquizadas de talmodo que la unidades de la primera etapa son divisibles en unidades de la segunda etapa,éstas a su vez en unidades de la tercera etapa, y así hasta alcanzar las unidades quefinalmente constituirán la muestra. Estas unidades finales no necesariamente han de ser losindividuos.
En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientosde muestreo aleatorio, sistemático o estratificado.
Ejemplo: En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de todaEspaña. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una seriede provincias; en segundo lugar, en cada una de las provincias seleccionar tambiénaleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cadacomarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar todos los cerdos o una muestra de ellos elegida adecuadamente.
B) MUESTREOS NO PROBABILÍSTICOS.
Muestreo intencional u opinático. En el muestreo intencional u opinático larepresentatividad depende de la intención u opinión de la persona que selecciona lamuestra, y que, según su criterio, procura que sea representativa. Por tanto, la evaluación dela representatividad es subjetiva. En este caso, la composición de la muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del individuo que laobtiene, y no sólo por factores objetivos que son los que deben tenerse en cuenta de modoriguroso, como ocurre en el muestreo probabilístico.
Ejemplo:Se pretende hacer una encuesta en un instituto, entre los alumnos de 4º de E.S.O., para saber
la modalidad de Bachillerato que seguirán los que continúen estudiando. El Jefe de Estudios pregunta a
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 26/176
Estadistica Inferencial
2013
26
unos cuantos alumnos de cada grupo de 4º de E.S.O., con el único criterio de que piensa que esosseguirán estudiando.
Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de locual su uso está bastante generalizado, especialmente el llamado muestreo por cuotas.
Muestreo por cuotas. En el muestreo por cuotas, el investigador establece estratosde la población, determina el número de individuos a seleccionar en cada uno de ellos yelige intencionadamente individuos para completar las cuotas establecidas. Se asemeja almuestreo por estratos en cuanto que supone un conocimiento previo de la población, que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquel por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cadaestrato no son determinados aleatoriamente, sino en función de otros criterios(accesibilidad, comodidad, economía, etc.). La única condición impuesta es que losindividuos cumplan los requisitos fijados en las cuotas.
Ejemplo: El agente visitador o entrevistador recoge información de personas o familias en
número proporcional al de las que cumplen determinadas condiciones en la población, y puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos nivelessocioeconómicos. Así, se podría fijar que el 15 % de la muestra ha de constar de mujeresque tengan menos de 40 años, sean de clase media y habiten en determinado barrio, y estasería la única condición para seleccionar este 15 % de la muestra.
El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permitellevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.
Muestreo incidental. En el muestreo incidental el investigador determinadeliberadamente qué individuos formarán parte de la muestra, tratando de recoger a loscasos considerados típicamente representativos de la población. Los criterios de elecciónsuelen basarse generalmente en el conocimiento teórico sobre el tema de estudio. Pero, endefinitiva, a pesar de la posible buena intención y conocimiento del tema y de la poblaciónque tenga el investigador, la muestra no servirá para hacer inferencias a toda la poblaciónya que siempre cabe que pueda estar distorsionada por tendencias o preferenciassubconscientes o inconscientes del investigador.
Ejemplo: Para estimar el problema de absentismo escolar, un investigador puede seleccionar
los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que hande desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro residencial, dado que por suconocimiento teórico del problema sabe que éstos representan los diferentes tipos decomportamientos en relación con la asistencia a clase.
Muestreo accidental. En el muestreo accidental, también llamado sin norma,circunstancial o errático, se seleccionan determinados individuos o grupos de individuos
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 27/176
Estadistica Inferencial
2013
27
sin que exista ningún criterio aparente. La muestra se toma de cualquier manera, a laaventura, por razones de comodidad o por las circunstancias que rodean al proceso o acapricho. Este tipo de muestreo se considera el más alejado de la posibilidad de generalizar a la población los resultados obtenidos.
Sólo si la población es homogénea la representatividad de la muestra puede ser satisfactoria. A veces la uniformidad puede sustituirse por una buena mezcla antes de tomar muestras, como en el caso de los avisos “agítese antes de usar”, o bien cuando se barajan
los naipes o se hacen girar las bolas dentro de un bombo.
Ejemplo: Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a losartículos completos. Por otra parte, influye en la adopción de este procedimiento en estascuestiones de la realidad cotidiana el hecho de que, en caso de equivocación, lasconsecuencias no serían demasiado graves.
Una broma final.El uso de un muestreo no probabilístico podría llevarnos a consecuencias curiosas.
Imaginemos un investigador que hace un estudio sobre la respuesta anímica ante la lluvia.Este investigador está de vacaciones en un complejo turístico de Vera, durante una semanade principios de otoño. Sabe que en Almería la probabilidad de que llueva es mínima.Curiosamente, aparecen las nubes y empieza a llover. Decide aprovechar para recoger unasentrevistas de personas de una zona muy seca en la que llueve. Pero como no tenía previstoque lloviera, no ha traído paraguas, y pregunta a las personas que están en el bar social delcomplejo turístico. Todos se quejan de la lluvia. “En Almería no debería llover”. Le
sorprende la respuesta.... No ha tenido en cuenta que la muestra ha de ser tomadaaleatoriamente. Y, los turistas que vienen a Almería esperan que el Sol forme parte del paisaje como el “desierto” de Tabernas.
1.9.-Estadistica paramétrica
ESTIMACIÓN POR INTERVALOS.
En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalo
de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].
Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el
estadístico X , estimador de . Sabemos que si extraemos muestras de una población en la
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 28/176
Estadistica Inferencial
2013
28
que la media es y la varianza 2 , la distribución muestral de X tiene como media y
como varianzan X
22
. Si el tamaño n de las muestras es suficientemente grande, la
distribución muestral del estadístico X tiende al modelo normal
n
N
, .
ERROR MUESTRAL.
Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestralno nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.
Sea x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media
x de cada una, se obtiene una distribución normal, llamada distribución muestral de las
medias o distribución de las medias muestrales X .
La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,
obteniéndose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .
Definición.
ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica
de la distribución muestral de las medias o de las proporciones.
Recordamos que, para la distribución de las medias muestrales y para la distribuciónde las proporciones muestrales, respectivamente:
Cuando la población es finita y la extracción es con reemplazamiento, o cuando
la población es infinita:
n
q p
pn X
·,
Cuando la población es finita y la extracción es sin reemplazamiento:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 29/176
Estadistica Inferencial
2013
29
1·
·,
1·
N
n N
n
q p
p N
n N
n X
ERROR MÁXIMO ADMISIBLE.
La distribución muestral de las medias sigue una ley normal
n N
, y
su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.
Definición.
NIVEL DE CONFIANZA. Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .
Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.
Definición.
NIVEL DE SIGNIFICACIÓN.Se denomina nivel de significación o nivel de riesgo a la diferencia entre la
certeza y el nivel de confianza deseado. Por tanto, se expresa por .
Definición.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 30/176
Estadistica Inferencial
2013
30
ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran enmenos de la cantidad “d ” con el nivel de confianza elegido (1 - ):
1d x p
De lo anterior se deduce:
1d xd p
O lo que es lo mismo:
1d xd x p
Si:
6826.0entonces X X X x x pd 9544.022entonces2
X X X x x pd
9973.033entonces3 X X X
x x pd
Es decir:
X d para un nivel de confianza del 68.26 %.
X d 2 para un nivel de confianza del 95.44 %.
X d 3 para un nivel de confianza del 99.73 %.
En general: 1
X X k xk x p
Para una variable tipificada, el valor de k se obtiene así:
1k Z k p k Z pk Z pk Z k p
1121 k Z pk Z pk Z p
De donde:
21 k Z p
cuyo valor lo podemos obtener en la tabla N (0 , 1) para una valor dado .
Valores de k , más usuales, según el nivel de confianza 1 -
1 - 50 % 68’2 % 90 % 95 % 95’5 % 99 % 99’7 %
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 31/176
Estadistica Inferencial
2013
31
K 0.67 1 1.65 1.96 2 2.58 3
En el caso de las proporciones:
1
··
n
q pk
n
f p
n
q pk
n
f p
El error máximo admisible “d ” y el error muestral x
o p están relacionados por
el valor k obtenido a partir del nivel de confianza (1 - ). Así:
Error máximo admisible para la estimación de la media poblacional:
n
k k d X
·· (población infinita o finita con reemplazamiento).
1
···
N
n N
n
k k d X
(población finita sin reemplazamiento).
Error máximo admisible para la estimación de la proporción poblacional:
n
q pk k d p
··· (población infinita o finita con reemplazamiento).
1
··
··
N
n N
n
q pk k d p (población finita sin reemplazamiento).
TAMAÑO DE LA MUESTRA.
Las encuestas se realizan en una muestra representativa de la población. Su tamañovaría de unas encuestas a otras y viene recogido en la llamada ficha técnica. En dicha fichatécnica debe aparecer: el tamaño de la muestra, el nivel de confianza y el margen de error.El tamaño “n” de la muestra depende del tamaño N de la población, del nivel de confianza(1 - ) adoptado y del error máximo admisible “d ”.
DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES:
Para una población infinita, o finita con reemplazamiento, a partir de laexpresión que relaciona el error máximo admisible o margen de error d y el error
muestral p se tiene:
2
··2···
d
q pk n
n
q pk
pk d
Cuando no se conoce la proporción “ p”, se estima para el caso más desfavorable, es decir, que tanto “ p” como “q” sean el 50%.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 32/176
Estadistica Inferencial
2013
32
Para una población finita y muestreo sin reemplazamiento se tiene, a partir de laexpresión del error máximo admisible:
q pk d N
q p N k n
N
n N
n
q pk
pk d
··
22
·1
···2
1·
···
DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.
Para poblaciones infinitas o poblaciones finitas con reemplazamiento, laexpresión que relaciona el error máximo admisible d y el error muestral
x nos
permite obtener el tamaño de la muestra:
2
2·2··
d
k n
nk
X k d
Si la población es finita y el muestreo es sin reemplazamiento, el tamaño sería:
2·21·2
2·2·
1···
k N d
k N n
N
n N
nk
X k d
INTERVALO DE CONFIANZA DE LA MEDIA.
En una población cuya distribución es conocida, pero con algún parámetrodesconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.
El intervalo de confianza [a , b] debe contener a la media poblacional con un
nivel de confianza 1-
1)( ba p
El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor
real del parámetro estimado , se elige previamente, siendo un número real comprendidoentre 0 y 1. El valor 1- se expresa en porcentaje.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 33/176
Estadistica Inferencial
2013
33
Sea X una variable aleatoria con distribución ),( N y x1, x2, ......, xn, una muestra
aleatoria de tamaño n. La distribución muestral de las medias X sigue una ley normal
n N
, y la variable tipificada
n
X Z
es una distribución N(0,1).
Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.
1.10.-Aplicaciones de la estadística inferencial
Supongamos que tenemos la estatura, medida en centímetros, de un grupo de diez jóvenes:{170, 172, 180, 175, 178, 194, 178, 165, 170, 178}. La estatura media es de 176centímetros y la desviación típica es (aproximadamente) de 7.5 centímetros. La media y ladesviación típica son valores que describen al conjunto de estaturas, y serían ejemplos de parámetros.
En cambio, en la Estadística Inferencial se estudian conjuntos de puntuaciones, lasmuestras, con el fin de generalizar los resultados a conjuntos de puntuaciones más amplios,las poblaciones, de las que fueron extraídos.
Para ilustrar este concepto, construiremos la distribución muestral del estadístico media, X , cuando extraemos muestras aleatorias de tamaño 2 en una población constituida por losvalores {1, 2, 3}. La muestra estará formada por los valores de las dos variables aleatorias:
1 x (resultado de la primera selección) y 2
x (resultado de la segunda elección). A su vez, la
media muestral X es también una variable aleatoria, puesto que se obtiene por combinación lineal de las dos variables aleatorias 1 x y 2
x .
Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:
a) Procedimiento empírico.- Seleccionamos al azar una muestra con reposición de2 elementos y calculamos su media. Repetimos el proceso hasta un total de 20veces. Los resultados de este proceso podrían ser, por ejemplo:
1 x 1 1 2 2 2 1 2 3 3 1
2 x 2 3 1 3 2 3 1 1 3 1
x 1.5 2 1.5 2.5 2 2 1.5 2 3 1
1 x 1 2 3 3 2 1 1 3 3 1
2 x 2 3 3 2 1 2 2 2 1 3
x 1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 34/176
Estadistica Inferencial
2013
34
La distribución de frecuencias para los valores de la media obtenidosquedaría tal y como muestra la siguiente tabla:
x in i f
1 1 0.05
1.5 7 0.352 6 0.30
2.5 4 0.203 2 0.10
Así habremos construido una distribución muestral empírica.
b) Procedimiento teórico.- Sin tener que extraer repetidas muestras para calcular lamedia de los valores que las componen, podemos construir una distribuciónmuestral teórica, valiéndonos de conceptos probabilísticos. Así podemosdeterminar las 9 muestras aleatorias posibles con reposición a partir de la
población considerada y calcular las respectivas medias.
1 x 1 1 1 2 2 2 3 3 3
2 x 1 2 3 1 2 3 1 2 3
x 1 1.5 2 1.5 2 2.5 2 2.5 3
Teniendo en cuenta las medias de las nueve muestras posibles, todasellas equiprobables, puedo construir la función de probabilidad para la
variable aleatoria X .
x in i f 1 1 1/9 = 0.11
1.5 7 2/9 = 0.222 6 3/9 = 0.33
2.5 4 2/9 = 0.223 2 1/9 = 0.11
Conociendo esta distribución muestral teórica, se tiene que la probabilidad de
obtener el valor 1 X para la media de una muestra extraída al azar de la población es
11'01 X p , mientras que la probabilidad de obtener el valor 2 X es 33'02 X p
. Es decir, en un 11 % de los casos, la muestra tendrá como media 1 y en un 33 % de los
casos, el valor de la media de la muestra será 2.
Como afirmábamos anteriormente, la distribución muestral empírica de unestadístico se aproxima a la distribución muestral teórica a medida que aumenta el númerode muestras extraídas. Las frecuencias relativas obtenidas empíricamente llegan a coincidir con las probabilidades teóricas cuando el número de muestras crece indefinidamente.
Veamos someramente otro ejemplo.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 35/176
Estadistica Inferencial
2013
35
Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (enhoras diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican alestudio.
Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:a) El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos
diferentes.
Medias de las muestras de tamaño 2.1 2 3 5
1 1 1.5 2 32 1.5 2 2.5 3.53 2 2.5 3 45 3 3.5 4 5
La información que da la tabla anterior se puede organizar en una tabla dedistribución de frecuencias del siguiente modo:
Distribución de medias muestrales (n = 2)
x in
1 11.5 22 3
2.5 23 3
3.5 24 25 1
Hemos construído la distribución muestral de medias de tamaño 2. Esadistribución, igual que toda distribución, tiene gráfica de una determinada forma,una media, una desviación típica, etc.
b) El conjunto de muestras de tamaño 3 de la población P tiene 64 elementosdiferentes. Y procediendo de un modo análogo podemos obtener la siguientetabla:
Distribución de medias muestrales (n = 3)
x in
1 14/3 35/3 62 7
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 36/176
Estadistica Inferencial
2013
36
7/3 98/3 93 10
10/3 611/3 6
4 313/3 35 1
Así hemos construido la distribución muestral de medias de tamaño 3.
c) Igual podemos hacer la distribución muestral de medias de tamaño 4. En estecaso hay 256 muestras diferentes.
Distribución de medias muestrales (n = 4)
x in
1 15/4 46/4 107/4 162 23
9/4 2810/4 3411/4 32
3 3113/4 2414/4 2215/4 12
4 1017/4 418/4 4
5 1T= 256
En resumen, se han construido las tres distribuciones muestrales de medias,
asociadas con la población P. Las características de la población P y de las tresdistribuciones muestrales se exponen a continuación.
Tamaño Media Desviación TípicaPoblación 4 2.75 1.479016Distribución muestral de medias, n = 2 16 2.75 1.045825Distribución muestral de medias, n = 3 64 2.75 0.853912Distribución muestral de medias, n = 4 256 2.75 0.73509
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 37/176
Estadistica Inferencial
2013
37
Distribución de la población.
Distribución de las medias de las muestras de tamaño 2.
Distribución de las medias de las muestras de tamaño 3.
Distribución de las medias de las muestras de tamaño 4.
Al observar las gráficas anteriores se comprueba que la gráfica de la población esuniforme y los diagramas de las distribuciones muestrales van aproximándose a la curvanormal a medida que el tamaño de las muestras se aumenta.
También vemos que las medias de las cuatro distribuciones coinciden, y en cambio,
las desviaciones típicas disminuyen a medida que aumenta el tamaño de las muestras.
Veamos como se relacionan la desviación típica de la población con la desviacióntípica de la distribución muestral y con el tamaño de las muestras. Obsérvese que:
479019945.12045825033.1
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 38/176
Estadistica Inferencial
2013
38
479019948.13853912565.0
479019944.14739509972.0
Los tres productos dan, prácticamente, el mismo resultado que el valor de ladesviación típica de la población. En realidad, el producto entre la desviación típica de ladistribución muestral de las medias y la raíz cuadrada del tamaño de las muestras es igual ala desviación típica de la población (la inexactitud de los resultados anteriores se debe a lasaproximaciones tomadas).
2.1.-Conceptos básicos.
ESTIMACIÓN POR INTERVALOS.
En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].
Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el
estadístico X , estimador de . Sabemos que si extraemos muestras de una población en la
que la media es y la varianza 2 , la distribución muestral de X tiene como media y
como varianzan X
22
. Si el tamaño n de las muestras es suficientemente grande, la
distribución muestral del estadístico X tiende al modelo normal
n N
, .
ERROR MUESTRAL.
Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestralno nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.
Sea x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 39/176
Estadistica Inferencial
2013
39
x de cada una, se obtiene una distribución normal, llamada distribución muestral de las
medias o distribución de las medias muestrales X .
La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,
obteniéndose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .
Definición.
ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica
de la distribución muestral de las medias o de las proporciones.
Recordamos que, para la distribución de las medias muestrales y para la distribución
de las proporciones muestrales, respectivamente:
Cuando la población es finita y la extracción es con reemplazamiento, o cuandola población es infinita:
n
q p
pn X
·,
Cuando la población es finita y la extracción es sin reemplazamiento:
1·
·,
1·
N
n N
n
q p p N
n N
n X
ERROR MÁXIMO ADMISIBLE.
La distribución muestral de las medias sigue una ley normal
n N
, y
su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 40/176
Estadistica Inferencial
2013
40
Definición.
NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .
Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.
Definición.
NIVEL DE SIGNIFICACIÓN.
Se denomina nivel de significación o nivel de riesgo a la diferencia entre lacerteza y el nivel de confianza deseado. Por tanto, se expresa por .
Definición.
ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran enmenos de la cantidad “d ” con el nivel de confianza elegido (1 - ):
1d x p
De lo anterior se deduce:
1d xd p
O lo que es lo mismo: 1d xd x p
Si:
6826.0entonces X X X
x x pd
9544.022entonces2 X X X
x x pd
9973.033entonces3 X X X
x x pd
Es decir:
X d para un nivel de confianza del 68.26 %.
X d 2 para un nivel de confianza del 95.44 %.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 41/176
Estadistica Inferencial
2013
41
X d 3 para un nivel de confianza del 99.73 %.
2.2.-Distribuciones de muestreoDISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.
Para poblaciones infinitas o poblaciones finitas con reemplazamiento, laexpresión que relaciona el error máximo admisible d y el error muestral
x nos
permite obtener el tamaño de la muestra:
2
2·2··
d
k n
nk
X k d
Si la población es finita y el muestreo es sin reemplazamiento, el tamaño sería:
2·21·2
2·2·
1···
k N d
k N n
N
n N
nk
X k d
INTERVALO DE CONFIANZA DE LA MEDIA.
En una población cuya distribución es conocida, pero con algún parámetrodesconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.
El intervalo de confianza [a , b] debe contener a la media poblacional con unnivel de confianza 1-
1)( ba p
El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor real del parámetro estimado , se elige previamente, siendo un número real comprendido
entre 0 y 1. El valor 1- se expresa en porcentaje.
Sea X una variable aleatoria con distribución ),( N y x1, x2, ......, xn, una muestra
aleatoria de tamaño n. La distribución muestral de las medias X sigue una ley normal
n N
, y la variable tipificada
n
X Z
es una distribución N(0,1).
Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 42/176
Estadistica Inferencial
2013
42
Gráficamente:
1
22
z Z z p
Sustituyendo:
1
22
z
n
X z p
o bien:
1
22
z
n
X z p
de donde:
1·
2
·
2n
z X n
z X p
En la práctica no se suelen tomar distintas muestras para calcular el intervalo de
confianza, se toma una sola, de ahí que x X .
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 43/176
Estadistica Inferencial
2013
43
El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo enuna muestra de tamaño n y mediante una estimación se obtiene un intervalo que cuenta conuna probabilidad del 95%, del 90%, etc., es decir, (1-)% de contener el parámetrodesconocido media poblacional .
CUANDO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.
En este caso, el intervalo de confianza de la media poblacional es:
n
z xn
z x
·
2
,·
2
CUANDO NO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.
En este caso, cuando la muestra está formada por 30 o más de 30 individuos uobservaciones, se puede obtener el intervalo de confianza de la media poblacional a partir de la expresión:
n
s z x
n
s z x ·
2
,·
2
siendo s la desviación típica de la muestra.
Observaciones.
Para establecer los intervalos de confianza:
Cuando no se conoce la desviación típica de la población, siendo rigurosos sedebe usar el parámetro muestral raíz cuadrada de la cuasi varianza, 2
1n s , para
estimar dicha desviación típica poblacional.
Recordamos la expresión de la cuasivarianza:
1
·2
2
1
n
n x x s
ii
n , de donde
se tiene:
1
·2
1
n
n x x s
ii
n , que sería el valor que debería sustituir a la
desviación típica poblacional. No obstante, si 30n se puede utilizar la desviacióntípica muestral.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 44/176
Estadistica Inferencial
2013
44
En el caso de que el muestreo no sea con reemplazamiento y la población sea
finita, se debe multiplicar el error muestral por el factor 1
N
n N , donde N es el
tamaño de la población y n el tamaño de la muestra. Así, el intervalo deconfianza sería:
1
··
2
,1
··
2
N
n N
n z x
N
n N
n z x
INTERVALO DE CONFIANZA DE LA PROPORCIÓN.
Para estimar la proporción “ p” de elementos que posee una característica de una
población, lo hacemos mediante una muestra de tamaño n en donden
f p ' es la
proporción de elementos que poseen la característica determinada y q’ = 1 - p’ la proporción de elementos que no la poseen.
La distribución de las proporciones muestrales se distribuye de acuerdo a una
normal
n
pq p N , , lo que permite tipificar la variable
n
pq
p p Z
' que sigue una
distribución N(0,1) y obtener con un nivel de confianza (1-), el intervalo de confianza para el parámetro poblacional p, a partir de la expresión:
1
2
'
2
z
n
pq
p p z p
o lo que es igual:
1
2
'
2
z
n
pq
p p z p
de donde:
1·
2
'·
2
'n
pq z p p
n
pq z p p
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 45/176
Estadistica Inferencial
2013
45
El error máximo admisiblen
q p z d
··
2
, tiene el grave inconveniente de que
está dado en función de p. Por tanto, una vez extraída la muestra y obtenida la proporciónmuestral p’, debemos estimar los valores de p y q, mediante: p = p’ y q = q’.
Cuando n es grande, 30n , (y, además, 5· pn y 5· qn ) para determinar el
intervalo de confianza se puede sustituir el parámetro p por n
f p ' de la muestra,
resultando:
1
''·'
''·'
22n
q p z p p
n
q p z p p
Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos enhistoria de una población de varios miles de estudiantes. Sabemos que ladesviación típica poblacional es de 2.3 puntos. Nos proponemos estimar lamedia poblacional, , pasando una prueba a 100 alumnos, con un nivel deconfianza del 95 %. Calculamos la media en la muestra, resultando ser de6.32. Para hacer esta estimación vamos a construir el intervalo de confianzade con un nivel de confianza del 95 %.El intervalo de confianza para la media en poblaciones infinitas o finitas
con reemplazamiento, caso que suponemos (de varios miles), es:
n
z xn
z x
·
2
,·
2
En nuestro ejemplo:
Como: 975.0
2
05.01
2
12
z Z p , tenemos 96.1
2
z , y así:
100
3.2·96.132.6,
100
3.2·96.132.6
De donde, operando, tenemos el intervalo de confianza buscado:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 46/176
Estadistica Inferencial
2013
46
77.6,87.5
- Para estimar la media de los resultados que obtendrían al resolver un ciertotest los alumnos de 4 % de E.S.O. de toda una comunidad autónoma, se lespasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos en
dicha muestra dan una media de 3.25 con una desviación típica de 1.12. Apartir de ellos, pretendemos estimar el valor de la media de la poblacióncon un nivel de confianza del 95 %. En este caso se procedería como en elcaso anterior, sólo que deberemos utilizar el valor de desviación típicamuestral en lugar de la poblacional, cosa que se puede hacer ya que eltamaño de la muestra es superior a 30. En definitiva, el intervalo deconfianza para la media poblacional sería:
n
s z x
n
s z x ·
2
,·
2
400
12.1·96.125.3,
400
12.1·96.125.3
Y así el intervalo buscado es: 36.3,14.3
- De la duración de un proceso sabemos que la desviación típica poblacionales 0.5 segundos. ¿Cuál es el número mínimo de medidas que hay que
realizar para que, con un nivel de confianza del 99 %, el error deestimación no exceda de 0. 1 segundos?.
Al nivel de confianza del 99 % ( = 0.01),2
12
z Z p , corresponde
un 575.22
z .
Obtenemos el tamaño n de la muestra a partir de la relación: d n
z
·
2
,
de donde:
2
2
·
d
z
n
. Es decir, 76.1651.0
5.0·575.22
n y el tamaño
de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 47/176
Estadistica Inferencial
2013
47
- Un monitor de un gimnasio quiere estimar la estatura media de todos losasociados al mismo, con un error menor de 0.5 cm, utilizando una muestrade 30 asociados. Sabiendo que la desviación típica = 5.3 cm, ¿cuál sería elnivel de confianza con el que se realiza la estimación?.
Como, el error d es:n
z d
·
2
, tenemos:30
3.5·5.0
2
z , y de aquí
deducimos: 52.02
z . Ahora bien, 2
152.0
Z p , que nos permite
despejar el coeficiente de significación: 52.01·2 Z p , y al
sustituir, 6030.03015.0·26985.01·2 . Y finalmente, el nivel de
confianza, 3970.06030.011 , sería del 39.7 %.
- Tomada una muestra de 300 personas mayores de 15 años en una granciudad, se encontró que 104 de ellas leían el periódico regularmente. Conestos datos queremos hallar, con un nivel de confianza del 90 %, unintervalo de confianza para la proporción de lectores de periódicos entre losmayores de 15 años.Un nivel de confianza del 90 % nos da un 645.1
2
z , y la proporción
muestral obtenida es 347.0
300
104' p . Así, el error máximo admisible sería
045.0300
653.0·347.0·645.1
'·'·
2
n
q p z d , y con este dato tenemos
que el intervalo buscado se obtendrá como: 045.0347.0,045.0347.0 , o
lo que es lo mismo el intervalo de confianza es: 392.0,302.0 . O sea, con
un nivel de confianza del 90 %, la proporción de lectores de periódicos, en
el colectivo total, está entre el 30.2 % y el 39.2 %.
- Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetirla experiencia para conseguir una cota de error de 0.01 con el mismo nivelde confianza del 90 %. ¿Cuántos individuos debe tener la muestra?.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 48/176
Estadistica Inferencial
2013
48
De la expresión del error,n
q p z d
'·'·
2
, podemos despejar el tamaño de
la muestra: 6.613101.0
653.0·347.0·645.1'·'·
2
2
2
2
2
d
q p z
n
. Es decir, la
muestra debe contar con un mínimo de 6132 individuos. Con esta muestra,
se volvería a calcular la proporción muestral de lectores de periódicos p’’ , y
con ella se determinaría el intervalo de confianza (p ’’- 0.01 , p ’’ + 0.01).
2.3.-Estimación puntual
La estimación puntual consiste en obtener un único valor del parámetro poblacional a partir de las observaciones muestrales, y se llama así porque se le puede asignar un punto sobre larecta real. Mientras que en la estimación por intervalo se obtienen dos puntos, que definenun intervalo en la recta real que contendrá el valor del parámetro desconocido con ciertaseguridad.
2.4.-Estimación por intervalo.
ESTIMACIÓN POR INTERVALOS.
En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].
Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el
estadístico X , estimador de . Sabemos que si extraemos muestras de una población en la
que la media es y la varianza 2 , la distribución muestral de X tiene como media y
como varianzan X
22
. Si el tamaño n de las muestras es suficientemente grande, la
distribución muestral del estadístico X tiende al modelo normal
n N
, .
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 49/176
Estadistica Inferencial
2013
49
2.5.-Intervalo de confianza para medias
INTERVALO DE CONFIANZA DE LA MEDIA.
En una población cuya distribución es conocida, pero con algún parámetro
desconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.
El intervalo de confianza [a , b] debe contener a la media poblacional con un
nivel de confianza 1-
1)( ba p
El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor real del parámetro estimado , se elige previamente, siendo un número real comprendido
entre 0 y 1. El valor 1- se expresa en porcentaje.
Sea X una variable aleatoria con distribución ),( N y x1, x2, ......, xn, una muestra
aleatoria de tamaño n. La distribución muestral de las medias X sigue una ley normal
n N
, y la variable tipificada
n
X Z
es una distribución N(0,1).
Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.
Gráficamente:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 50/176
Estadistica Inferencial
2013
50
1
22
z Z z p
Sustituyendo:
1
22
z
n
X z p
o bien:
1
22
z
n
X z p
de donde:
1·
2
·
2n
z X n
z X p
En la práctica no se suelen tomar distintas muestras para calcular el intervalo de
confianza, se toma una sola, de ahí que x X .
El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo enuna muestra de tamaño n y mediante una estimación se obtiene un intervalo que cuenta conuna probabilidad del 95%, del 90%, etc., es decir, (1-)% de contener el parámetrodesconocido media poblacional .
CUANDO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.
En este caso, el intervalo de confianza de la media poblacional es:
n
z xn
z x
·
2
,·
2
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 51/176
Estadistica Inferencial
2013
51
CUANDO NO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.
En este caso, cuando la muestra está formada por 30 o más de 30 individuos uobservaciones, se puede obtener el intervalo de confianza de la media poblacional a partir de la expresión:
n
s z x
n
s z x ·
2
,·
2
siendo s la desviación típica de la muestra.
Observaciones.
Para establecer los intervalos de confianza:
Cuando no se conoce la desviación típica de la población, siendo rigurosos sedebe usar el parámetro muestral raíz cuadrada de la cuasi varianza, 2
1n s , para
estimar dicha desviación típica poblacional.
Recordamos la expresión de la cuasivarianza:
1
·2
2
1
n
n x x s
ii
n, de donde
se tiene:
1
·2
1
n
n x x s
ii
n , que sería el valor que debería sustituir a la
desviación típica poblacional. No obstante, si 30n se puede utilizar la desviacióntípica muestral. En el caso de que el muestreo no sea con reemplazamiento y la población sea
finita, se debe multiplicar el error muestral por el factor 1
N
n N , donde N es el
tamaño de la población y n el tamaño de la muestra. Así, el intervalo deconfianza sería:
1
··
2
,
1
··
2 N
n N
n
z x
N
n N
n
z x
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 52/176
Estadistica Inferencial
2013
52
2.6.-Intervalo de confianza para diferencia entre medias
En vez de estimar el valor de un parámetro, a veces se debe decidir si una afirmación relativa a un parámetro es verdadera o
falsa. Es decir, probar una hipótesis relativa a un parámetro. Se realiza una prueba de hipótesis cuando se desea probar una
afirmación realizada acerca de un parámetro o parámetros de una población.
Una hipótesis es un enunciado acerca del valor de un parámetro (media, proporción, etc.).
Prueba de Hipótesis es un procedimiento basado en evidencia muestral (estadístico) y en
la teoríade probabilidad (distribución muestral del estadístico) para determinar si una hipótesis es razonable y no debe
rechazarse, o si es irrazonable y debe ser rechazada.
La hipótesis de que el parámetro de la población es igual a un valor determinado se conoce como hipótesis nula. Una
hipótesis nula es siempre una de status quo o de no diferencia.
En toda prueba de hipótesis se presentan 3 casos de zonas críticas o llamadas también zonas de rechazo de la hipótesis nula,estos casos son los siguientes:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 53/176
Estadistica Inferencial
2013
53
En toda prueba de hipótesis se pueden cometer 2 tipos de errores:
Prueba medias de una muestra
Se utiliza una prueba de una muestra para probar una afirmación con respecto a una media de una población única.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 54/176
Estadistica Inferencial
2013
54
Nota: Se considera práctico utilizar la distribución t solamente cuando se requiera que el tamaño de la muestra sea menor de
30, ya que para muestras más grandes los valores t y z son aproximadamente iguales, y es posible emplear la distribución
normal en lugar de la distribución t.
Ejemplos ilustrativos:
1) La duración media de una muestra de 300 focos producidos por una compañía resulta ser de 1620 horas.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 55/176
Estadistica Inferencial
2013
55
Como se tiene como dato el tamaño de la población se tiene que verificar si cumple con la condición para utilizar el factor
finito de corrección.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 56/176
Estadistica Inferencial
2013
56
Los cálculos en Excel se muestran en la siguiente imagen:
El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 57/176
Estadistica Inferencial
2013
57
2) La duración media de lámparas producidas por una compañía han sido en el pasado de 1120 horas. Una muestra de 8
lámparas de la producciónactual dio una duración media de 1070 horas con una desviación típica de 125 horas.
2.7.-Intervalo de confianza de proporciones
INTERVALO DE CONFIANZA DE LA PROPORCIÓN.
Para estimar la proporción “ p” de elementos que posee una característica de una
población, lo hacemos mediante una muestra de tamaño n en donden
f p ' es la
proporción de elementos que poseen la característica determinada y q’ = 1 - p’ la proporción de elementos que no la poseen.
La distribución de las proporciones muestrales se distribuye de acuerdo a una
normal
n
pq p N , , lo que permite tipificar la variable
n
pq
p p Z
' que sigue una
distribución N(0,1) y obtener con un nivel de confianza (1-), el intervalo de confianza para el parámetro poblacional p, a partir de la expresión:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 58/176
Estadistica Inferencial
2013
58
1
2
'
2
z
n
pq
p p z p
o lo que es igual:
1
2
'
2
z
n
pq
p p z p
de donde:
1·
2
'·
2
'
n
pq z p p
n
pq z p p
El error máximo admisiblen
q p z d
··
2
, tiene el grave inconveniente de que
está dado en función de p. Por tanto, una vez extraída la muestra y obtenida la proporciónmuestral p’, debemos estimar los valores de p y q, mediante: p = p’ y q = q’.
Cuando n es grande, 30n , (y, además, 5· pn y 5· qn ) para determinar el
intervalo de confianza se puede sustituir el parámetro p por n
f p ' de la muestra,
resultando:
1
''·'
''·'
22n
q p z p p
n
q p z p p
Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos enhistoria de una población de varios miles de estudiantes. Sabemos que la
desviación típica poblacional es de 2.3 puntos. Nos proponemos estimar lamedia poblacional, , pasando una prueba a 100 alumnos, con un nivel deconfianza del 95 %. Calculamos la media en la muestra, resultando ser de6.32. Para hacer esta estimación vamos a construir el intervalo de confianzade con un nivel de confianza del 95 %.El intervalo de confianza para la media en poblaciones infinitas o finitas
con reemplazamiento, caso que suponemos (de varios miles), es:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 59/176
Estadistica Inferencial
2013
59
n
z xn
z x
·
2
,·
2
En nuestro ejemplo:
Como: 975.02
05.01
21
2
z Z p , tenemos 96.1
2
z , y así:
100
3.2·96.132.6,
100
3.2·96.132.6
De donde, operando, tenemos el intervalo de confianza buscado:
77.6,87.5
- Para estimar la media de los resultados que obtendrían al resolver un ciertotest los alumnos de 4 % de E.S.O. de toda una comunidad autónoma, se lespasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos endicha muestra dan una media de 3.25 con una desviación típica de 1.12. Apartir de ellos, pretendemos estimar el valor de la media de la poblacióncon un nivel de confianza del 95 %. En este caso se procedería como en el
caso anterior, sólo que deberemos utilizar el valor de desviación típicamuestral en lugar de la poblacional, cosa que se puede hacer ya que eltamaño de la muestra es superior a 30. En definitiva, el intervalo deconfianza para la media poblacional sería:
n
s z x
n
s z x ·
2
,·
2
400
12.1
·96.125.3,400
12.1
·96.125.3
Y así el intervalo buscado es: 36.3,14.3
- De la duración de un proceso sabemos que la desviación típica poblacionales 0.5 segundos. ¿Cuál es el número mínimo de medidas que hay que
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 60/176
Estadistica Inferencial
2013
60
realizar para que, con un nivel de confianza del 99 %, el error deestimación no exceda de 0. 1 segundos?.
Al nivel de confianza del 99 % ( = 0.01),2
12
z Z p , corresponde
un 575.22
z .
Obtenemos el tamaño n de la muestra a partir de la relación: d n
z
·
2
,
de donde:
2
2
·
d
z
n
. Es decir, 76.1651.0
5.0·575.22
n y el tamaño
de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).
- Un monitor de un gimnasio quiere estimar la estatura media de todos losasociados al mismo, con un error menor de 0.5 cm, utilizando una muestrade 30 asociados. Sabiendo que la desviación típica = 5.3 cm, ¿cuál sería elnivel de confianza con el que se realiza la estimación?.
Como, el error d es:n
z d
·
2
, tenemos:30
3.5·5.0
2
z , y de aquí
deducimos: 52.02
z . Ahora bien, 2
152.0
Z p , que nos permite
despejar el coeficiente de significación: 52.01·2 Z p , y al
sustituir, 6030.03015.0·26985.01·2 . Y finalmente, el nivel de
confianza, 3970.06030.011 , sería del 39.7 %.
- Tomada una muestra de 300 personas mayores de 15 años en una granciudad, se encontró que 104 de ellas leían el periódico regularmente. Conestos datos queremos hallar, con un nivel de confianza del 90 %, unintervalo de confianza para la proporción de lectores de periódicos entre losmayores de 15 años.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 61/176
Estadistica Inferencial
2013
61
Un nivel de confianza del 90 % nos da un 645.12
z , y la proporción
muestral obtenida es 347.0300
104' p . Así, el error máximo admisible sería
045.0300
653.0·347.0·645.1
'·'·
2
n
q p z d , y con este dato tenemos
que el intervalo buscado se obtendrá como: 045.0347.0,045.0347.0 , o
lo que es lo mismo el intervalo de confianza es: 392.0,302.0 . O sea, con
un nivel de confianza del 90 %, la proporción de lectores de periódicos, en
el colectivo total, está entre el 30.2 % y el 39.2 %.
- Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetirla experiencia para conseguir una cota de error de 0.01 con el mismo nivelde confianza del 90 %. ¿Cuántos individuos debe tener la muestra?.
De la expresión del error,n
q p z d
'·'·
2
, podemos despejar el tamaño de
la muestra: 6.613101.0
653.0·347.0·645.1'·'·
2
2
2
2
2
d
q p z
n
. Es decir, la
muestra debe contar con un mínimo de 6132 individuos. Con esta muestra,
se volvería a calcular la proporción muestral de lectores de periódicos p’’ , y
con ella se determinaría el intervalo de confianza (p ’’- 0.01 , p ’’ + 0.01).
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 62/176
Estadistica Inferencial
2013
62
2.8.-Intervalo de confianza para diferencia de proporciones.
INTERVALOS DE CONFIANZA
INTRODUCCIÓN
Para indicar el estudio de este tema es necesario recordar algunos aspectos de las funciones:a. Si 2
2
2
1 sys son las varianzas de las variables aleatorias independientes de tamaños n1 y
n2 que se sacan de poblaciones normales con varianzas 2
2
2
1 y , respectivamente,entonces,
2
2
2
2
2
1
2
1
s
sF
tiene distribución F con n1-1 y n2-1 grados de libertad
b. Si U y V son variables aleatorias independientes que tienen distribuciones 2 con 1 y 2 grados de libertad, respectivamente. Entonces, la distribución de la variable
2
1
V
UF
tiene distribución F con 1 y 2 grados de libertad
Ejemplo. El valor de f con 6 y 10 grados de libertad y un área de 0.95 a la derecha es,f 0.95,6,10=0.246Así mismo,1/(f 1-0.05,10,6)=0.246
c. Si se escribe f 1,2 para fa con 1 y 2 grados de libertad, se obtiene,f 1-1,2=1/(f 2,1)
Ejemplo, El valor de t con n=14 grados de libertad que tienen un área de 0.025 a laizquierda, y por tanto, un área de 0.975 a la izquierda, est0.975= - t0.025=-2.145
d. Sea Z la variable aleatoria normal estándar y V una variable aleatoria Chi Cuadrada con grados de libertad. Si Z y V son independientes, entonces, la distribución de lavariable aleatoria T es t-Student con -1 grado de libertad
V
ZT
d. Si S2 es la variable aleatoria de tamaño n tomada de una población normal que tiene lavarianza 2, entonces, el estadístico
2
22 s)1n(
X
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 63/176
Estadistica Inferencial
2013
63
tiene distribución 2 con n-1 grado de libertad
Ejemplo. Un fabricante de autos garantiza que sus baterías durarán en promedio 3 años conuna desviación estándar de 1 año. Si 5 de estas baterías se muestrean y se encuentran quetienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años. Se puede garantizar que la desviación
estándar es de 1 año?Calculando la desviación típica tenemos,
815.04*5
)15(26.48*5s
22
Entonces,
26.31
815.0*42
Es un valor de la distribución Chi Cuadrado con 4 grados de libertad. Dado que el 95% deestos valores de 2
4 cae entre 0.484 y 11.143, el valor calculado con 2=1 es razonable, y
por tanto, el fabricante no puede dudar que su desviación típica sea diferente de 1
ESTIMACIÓN DE TAMAÑO MUESTRAL E INTERVALOS
Dada una variable aleatoria de distribución gaussiana, X~N(2), nos interesamos en primer lugar, en calcular intervalos de confianza para sus dos parámetros, y .
Intervalo para la media si se conoce la varianza: Este no es un caso práctico (no se puede conocer sinconocer previamente ), pero sirve para introducirnos en el problema de la estimación confidencial de lamedia;
Intervalos de confianza para la media (caso general): Este se trata del caso con verdadero interés práctico.Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una población, laaltura, el peso, etc, cuando disponemos de una muestra de la variable.
Intervalo de confianza para la varianza: Éste es otro caso de interés en las aplicaciones. El objetivo escalcular un intervalo de confianza para 2, cuando sólo se dispone de una muestra.
La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra para obtener intervalos deconfianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible esnecesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto. Los
problemas asociados a este caso son
Diferencia de medias homocedáticas: Se realiza el cálculo del intervalo de confianza suponiendo que ambasvariables tienen la misma varianza, es decir son homocedáticas. En la práctica se usa este cálculo, cuando
ambas variables tienen parecida dispersión.
Diferencia de medias (caso general): Es el mismo caso que el anterior, pero se realiza cuando se observaque hay diferencia notable en la dispersión de ambas variables.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 64/176
Estadistica Inferencial
2013
64
INTERVALO PARA EL VALOR MEDIO SI SE CONOCE LA VARIANZA
Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a poder conocer con exactitud s mientras que m es desconocido. Sin embargo nos aproxima delmodo más simple a la estimación confidencial de medias. Para estimar m, el estadístico que
mejor nos va a ayudar es X , del que conocemos su ley de distribución, que es el parámetrodesconocido,
n, NX
2
Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la leyde distribución no dependa de ningún parámetro desconocido, para ello tipificamos:
n
XZ
que se distribuye N(0,1)
Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la queintervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según unaley de probabilidad que es bien conocida y a ser posible tabulada.
De este modo, fijado )1,0( , consideramos la variable aleatoria Z~N(0,1) y tomamos un
intervalo que contenga una masa de probabilidad de 1-. Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media(0), ya que allí es donde se acumula más masa. Así las dos colas de la distribución (zonasmás alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad,.
Intervalo para la media (caso general). Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamosconocer si se distribuye normalmente, pero el valor exacto de los parámetros y no sonconocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problemaque tenemos en este caso es más complicado que el anterior, pues no es tan sencilloeliminar los dos parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
n
XZ
~N(0,1)
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 65/176
Estadistica Inferencial
2013
65
Por el teorema de Cochran sabemos por otro lado que:
n
1i
2
1n2
2
i2
1n
)XX(
y que además estas dos últimas distribuciones son independientes. A partir de estasrelaciones podemos construir una distribución t-Student con n-1 grados de libertad.
La distribución tn es algo diferente a N(0,1) cuando n es pequeño, pero conforme ésteaumenta, ambas distribuciones se aproximan.
Y también sabemos que,1n1n t
ns
XT
Dado el nivel de significación 1-a buscamos en una tabla de t-Student tn-1 el percentil 100(1-/2) tn-1,1-/2, elcual deja por encima de si la cantidad /2 de la masa de probabilidad. Luego la distribución t-Student tiene lasmismas propiedades de simetría que la normal tipificada.
1tTP
2/)tT(P
2/)tT(P1n,2/11n
1n,2/11n
1n,2/11n
El intervalo de confianza es,
1n,2/11n,2/11n tn/s
xtT
es decir, el intervalo de confianza al nivel 1- para la esperanza de una distribucióngaussiana cuando sus parámetros son desconocidos es:
n
stx 1n,2/1
Al igual que en el caso del cálculo del intervalo de confianza para cuando es conocido, podemos en el caso desconocido, utilizar la función de verosimilitud para representarlogeométricamente.
n
stxxy
n
stxx 1n,2/12/1n,2/12/
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 66/176
Estadistica Inferencial
2013
66
Ejemplo. Se quiere estimar un intervalo de confianza al nivel de significación =5% parala altura media de los individuos de una ciudad. En principio sólo sabemos que ladistribución de las alturas es una variable aleatoria X de distribución normal. Para ello setoma una muestra de n=25 personas y se obtiene, 10s170x
Solución: En primer lugar, en estadística inferencial, los estadísticos para medir ladispersión más conveniente son los insesgados. Por ello vamos a dejar de lado la desviacióntípica muestral, para utilizar la cuasidesviación típica:
206.10242510)1n(nss
Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadísticoT y tomar como intervalo de confianza,
1n,2/11n tTtn/s
xT
es decir,
204.174
796.165
5
206.10*06.217006.2t
25/206.10
17024,975.0
2.9.-Intervalo de confianza para varianzas
Intervalo de confianza para la varianza
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la
siguiente propiedad de la distribución :
Consideremos dos cuantiles de esta distribución que nos dejen una
probabilidad en la ``zona central'' de la distribución (cf. figura 8.7):
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 67/176
Estadistica Inferencial
2013
67
Figura: Cuantiles de la distribución .
Entonces un intervalo de confianza al nivel para la varianza de unadistribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo
en cuenta que existe una probabilidad de que:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 68/176
Estadistica Inferencial
2013
68
Por tanto el intervalo que buscamos es
8.4.6.1 Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,obteniéndose en una muestra de tamaño 25 los siguientes valores:
Calcular un intervalo de confianza con para la varianza de la alturade los individuos de la ciudad.
Solución:
Para estimar un intervalo de confianza para (varianza poblacional) elestadístico que nos resulta útil es:
Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.figura 8.8)
Figura: Percentiles del 2,5% y del 97,5% para la
distribución .
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 69/176
Estadistica Inferencial
2013
69
Por tanto, para el valor poblacional de la desviación típica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales y calculados sobre la muestra.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 70/176
Estadistica Inferencial
2013
70
2.10.-Intervalo de confianza para razones de dos varianzas
NTERVALO DE CONFIANZA Y CONTRASTEDE HIPÓTESIS PARA LA RAZÓN DE
VARIANZAS
Cuando se desea hacer inferencias acerca de las varianzas de dos poblaciones, es necesariocolocarlas en forma de razón. Si las varianzas son iguales, entonces el cociente es igual a 1, encaso de que sean diferentes, su cociente también se alejará de 1. Como por lo general no seconocen las varianzas de las poblaciones de interés, cualquier comparación que se desee, tendrá
que estar basada en las varianzas muestrales y , las cuales deberán ser de muestrasindependientes y extraídas de poblaciones normales.
Entonces, es un estimador insesgado de y tendrá una distribucióncon n1 1 grados de libertad.
De manera similar será un estimador de y tendrá una distribucióncon n2 1 grados de libertad.
La razón de estos dos estimadores: sigue una distribución F de Fisher, osimplemente distribución F que posee las siguientes propiedades: 1. La distribución F depende de dos valores de grados de libertad, uno correspondiente al
numerador y otro al denominador, a los cuales nos referiremos como grados de libertad del
numerador (gl num= 1 = n1 – 1) y grados de libertad del denominador (gl den= 2 = n2 – 1). 2. La densidad de la variable F viene dada por:
3. La distribución F para cada par de valores de grados de libertad 1 y 2. 4. Hay una distribución F para cada par de valores de grados de libertad.
5. Como la distribución , una distribución F es positivamente asimétrica, pero su asimetría sereduce con los aumentos de los grados de libertad.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 71/176
Estadistica Inferencial
2013
71
6. Si X tiene densidad , entonces tendrá una distribución , esto es
7. La distribución muestral usada para hacer inferencias entre dosvarianzas es la F de Fisher:
con n1 1 y n2 1 grados de libertad en el numerador y denominador,respectivamente.
El intervalo de confianza para el cociente de varianzas está dado por:
Despejando se tiene:
NOTA: El valor de cola izquierda de la distribución F de Fisher está dado por:
, donde 1 = n1 1 y 2 = n2 1
Ejemplo 14 : Las siguientes son las calificaciones obtenidas en un examen de personalidad por 2muestras de 9 mujeres casadas y 9 mujeres solteras:
Solteras 88 68 77 82 63 80 78 71 72 Casadas 73 77 67 74 74 64 71 71 72
Suponiendo que estos datos se pueden considerar como muestras aleatorias independientes
tomadas de dos poblaciones normales, pruebe la hipótesis de que la varianza de las calificacionesde las mujeres solteras es diferente de la varianza de las calificaciones de las mujeres casadascon = 0.05.
1) Se supone que las muestras son aleatorias independientes yextraídas de poblaciones normalmente distribuidas.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 72/176
Estadistica Inferencial
2013
72
2) H 0 :
H a:
3) = 0.05
4) Estadístico de contraste
5) Valores críticos: , (tabla T-7)
6) Valor calculado de F c = 3.8636 ya que
7) Como 0.23 < 3.8636 < 4.43, No se rechaza H 0.
8) Las varianzas de las calificaciones de las solteras y de las casadasno son significativamente diferentes.
Ejemplo 15 : La variabilidad de la cantidad de impurezas presentes en un compuesto químicousado para un proceso particular depende del tiempo en que el proceso está en operación. Unfabricante que usa las líneas de producción 1 y 2 ha introducido un ligero ajuste al proceso 2 con laesperanza de reducir tanto la variabilidad como la media de la cantidad de impurezas en elcompuesto químico. Las medias y varianzas de las muestras de 25 observaciones de los dosprocesos son:
Determine el intervalo de confianza del 90% para el cociente de varianzas.
Solución : Sustituyendo en la fórmula los datos, se tiene
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 73/176
Estadistica Inferencial
2013
73
con una confianza del 90%. Como ambos límites son mayores que 1 se puede concluir que la varianza 1 es significativamentemayor que la varianza 2.
Ejemplo 16 : Existe un proceso industrial A para obtener el aceite esencial de cierto fruto. Un grupode ingenieros mexicanos ha desarrollado un método B para el mismo fin, pero con costos deproducción y mantenimiento menores. Se hizo un estudio para comparar el porcentaje de purezadel aceite esencial obtenido por ambos métodos, en lotes similares de fruto asignadoscompletamente al azar y se recopiló la siguiente información:
% de pureza del aceite esencial Método A 82 80 83 85 79 82 81 84 Método B 80 79 82 82 81 80 79 78 83
En un inicio, por consideraciones teóricas, se pensaba que ambos procesos tendrían la mismavariabilidad, pero de acuerdo con algunos resultados preliminares se cree ahora que el método Bproduce resultados menos variables. Con los datos de la tabla, ¿cuál es su conclusión con =0.05?
Solución: 1. Se ve claramente que los dos procesos son independientes y no hay razón para dudar de que
el % de pureza se distribuya normalmente para ambos procesos como se puede observar enlos diagramas de tallo y hoja respectivos
Método A Método B 1 79 0 1 78 0 2 80 0 3 79 00 3 81 0 (2) 80 00
(2) 82 00 4 81 0 3 83 0 3 82 00 2 84 0 1 83 0 1 85 0
820 significa 82
2. La hipótesis que se plantea es unilateral:
H 0 :
H a:
3. = 0.05
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 74/176
Estadistica Inferencial
2013
74
4. Estadístico de contraste
3.1.-Metodología de la prueba de hipótesis.
Prueba de hipótesisEstadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisiónacerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesisestadística se denota por “H” y son dos:
- Ho: hipótesis nula
- H1: hipótesis alternativa
Partes de una hipótesis
1-La hipótesis nula “Ho”
2-La hipótesis alternativa “H1”
3-El estadístico de prueba
4-Errores tipo I y II
5-La región de rechazo (crítica)
6-La toma de decisión
CONCEPTO
Afirmación acerca de los parámetros de la población.
Etapas Básicas en Pruebas de Hipótesis.
Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con unasupuesta media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotéticosólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con elresultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nulasolamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetroque se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una mediapoblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en unvalor z el cual, a su vez, sirve como estadística de prueba.
Consecuencias de las Decisiones en Pruebas de Hipótesis.
Decisiones Posibles Situaciones Posibles
La hipótesis nula es verdadera La hipótesisnula es falsa
Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II
Rechazar la Hipótesis Nula Error tipo I Se rechaza correctamente
Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia yla estadística de prueba que se van a util izar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno omás de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 75/176
Estadistica Inferencial
2013
75
Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma unamuestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma lamedia muestral en un valor de z.
Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística deprueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efectosobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál dedos estrategias demercadotecnia utilizar.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba
estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso f uncionacorrectamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región delrechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de laregión de rechazo.
PASOS DE LA PRUEBA DE HIPÓTESIS
1. Expresar la hipótesis nula2.3. Expresar la hipótesis alternativa4. Especificar el nivel de significancía5. Determinar el tamaño de la muestra6. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.7. Determinar la prueba estadística.8. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.9. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.10. Determinar la decisión estadística.
11. Expresar la decisión estadística en términos del problema.
CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBAS DE HIPÓTESIS.
Hipótesis Estadística:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.
3.2.-Hipotesis Nula Y Alternativa
Hipótesis Nula.
En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir siuna moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (osea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en e l muestreo de la misma población). Tales hipótesis sesuelen llamar hipótesis nula y se denotan por Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstosserán mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, ytambién al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibiráentrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación entre elgrupo de jóvenes que recibió el entrenamiento y el que no lo recibió.
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y sino se debió al azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos quela información a obtener es contraria a la hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen delproblema fluctúa, por tanto, debe rechazarse como tal.
Otro ejemplo:
Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.
Hipótesis Alternativa.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativapodrían ser p = 0,7, p " 0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 76/176
Estadistica Inferencial
2013
76
Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan variables independientes distintas de lasprimeras que formulamos. Por tanto, para no perder tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas comorespuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su comprobación.
Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté realizando. En los estudios exploratorios, a veces,el objetivo de la investigación podrá ser simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis. Tambiénes aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que "existe algún tipo de problema social en tal grupo", oque los planetas poseen algún tipo de atmósfera, sin especificar de qué elementos está compuesto.
Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo " todos los X poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las relacionescomerciales entre ellas. También podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando decimos queuna tecnología escapital - intensiva. En estos casos, describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo idealcomplejo de orden superior.
Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde estaremos en presencia de una relación ent re variables.
3.3.-Error tipo I y Error Tipo IIErrores de tipo I y de tipo II.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II.
En ambos casos, se ha producido un juicio erróneo.
Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de ladecisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir
acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse uncompromiso que disminuya el error más grave.
La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible.
Niveles de Significación.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuesto a correr el riesgo de cometerán error de tipo I, sellama nivel de significación.
Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyanen nuestra elección.
En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel designificación 0,05 (ó 5%) al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesiscuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimosque la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabili dad 0,05 de ser falsa.
3.4.-Pruebas de Hipótesis para Z para la media y la desviaciónestándar poblacional
Prueba de Uno y Dos Extremos.
Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste deuna y dos colas.
Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de la media (o sea, en uno de los extremos de ladistribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar siun proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la región crítica es unaregión situada a un lado de la distribución, con área igual al nivel de significación.
Curva Característica Operativa Y Curva De Potencia
Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el error tipo IIsimplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En tales casos, se suele recurrir acurvas características de operación o curvas de potencia que son gráficos que muestran las probabilidades de error de tipo II bajo diversashipótesis. Proporcionan indicaciones de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicarán la
potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre otras cosas eltamaño de muestra a manejar.
3.5.-Pruebas para proporciones
Pruebas de hipótesis para la media y proporciones
Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en una fábrica de llantas.
En este problema la fábrica de llantas tiene dos turnos de operarios, turno de día y turno mixto. Se selecciona una muestra aleatoria de 100llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas:
1.- ¿Es la duración promedio de las llantas producidas en el turno de día igual a 25 000 mil las?
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 77/176
Estadistica Inferencial
2013
77
2.- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000 millas?
3.- ¿Se revienta más de un 8% de las llantas producidas por el turno de día antes de las 10 000 millas?
Prueba De Hipótesis Para La Media
En la fábrica de llantas la hipótesis nula y alternativa para el problema se plantearon como sigue:
Ho: μ = 25 000
H1: μ ≠ 25 000
Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces, con base en el teorema de limite central, ladistribución en el muestreo de la media seguiría la distribución normal, y la prueba estadística que esta basada en la diferencia entre la
media de la muestra y la media μ hipotιtica se encontrara como sigue:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar los valores críticos de la distribución. Dado quela región de rechazo esta dividida en las dos colas de la distribución, el 5% se divide en dos partes iguales de 2.5%.
Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en unidades de desviación. Una región de rechazo de0.25 en cada cola de la distribución normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se busca está área
en la distribución normal, se encuentra que los valores críticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96
Por tanto, la regla para decisión sería:
Rechazar Ho si Z > + 1.96
O si Z < - 1.96
De lo contrario, no rechazar Ho
No obstante, en la mayor parte de los casos se desconoce la desviación estándar de la población. La desviación estándar se estima alcalcular S, la desviación estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo de la media seguiríauna distribución t con n-1 grados de libertad. En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muypequeño y la población no este muy sesgada, la distribución t da una buena aproximación a la distribución de muestra de la media. La pruebaestadística para determinar la diferencia entre la media de la muestra y la media de la población cuando se utiliza la desviación estándar Sde la muestra, se expresa con:
Para una muestra de 100, si se selecciona un nivel de significancía de .05, los valores críticos de la distribución t con 100-1= 99 grados de
libertad se puede obtener como se indica en la siguiente tabla:Para ver el gráfico seleccione la opción "Descargar" del menú superior
Como esta prueba de dos colas, la región de rechazo de .05 se vuelve a dividir en dos partes iguales de .025 cada una. Con el uso de lastablas para t, los valores críticos son –1.984 y +1.984. la regla para la decisión es:
Rechazar Ho si >+1.984
O si - 1.984
De lo contrario, no rechazar Ho
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 78/176
Estadistica Inferencial
2013
78
Los resultados de la muestra para el turno de día fueron =25 430 millas, =4 000 millas y = 100. Puesto que se esta probandosi la media es diferente a 25 000 millas, se tiene con la ecuación
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la de cisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración promedio de las llantas es 25 000 millas. A fin detener en cuenta la posibilidad de un error de tipo II, este enunciado se puede redactar como "no hay pruebas de que la duración promedio delas llantas sea diferente a 25 000 mil las en las llantas producidas en e l turno de día".
3.6.-Selección del tamaño de la muestra( para estimar la mediapoblacional)
Estimación de la Diferencia entre dos Medias
Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 2
2,respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la
estadística . Por tanto. Para obtener una estimación puntual de
1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población, de
tamaño n1 y n2, se calcula la diferencia , de las medias muestrales.
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación 1- 2 se tiene:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 79/176
Estadistica Inferencial
2013
79
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra
sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.
Ejemplos:
1. Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide elrendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. Elrendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para elmotor B es 42 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia
promedio real para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y8 para los motores A y B respectivamente.
Solución:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media mayor menos la media menor. En este caso será la media del motor Bmenos la media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.
3.43< B- A<8.57
La interpretación de este ejemplo sería que con un nivel de confianza del 96% ladiferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto quiere decir que el motor B da mas rendimiento promedio que elmotor A, ya que los dos valores del intervalo son positivos.
2. Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotillade taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio
para la marca A 36,300 kilómetros y para la marca B 38,100 kilómetros. Calcule un intervalo deconfianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones sedistribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para lamarca A y 6100 kilómetros para la marca B.
Solución:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 80/176
Estadistica Inferencial
2013
80
-2662.68< B- A<6262.67
Gráficamente:
Como el intervalo contiene el valor "cero", no hay razón para creer que elpromedio de duración del neumático de la marca B es mayor al de la marca A,pues el cero nos está indicando que pueden tener la misma duración promedio.
3.7.-Selección de la muestra para estimar la proporciónpoblacional
Prueba De Hipótesis Para Proporciones
El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problemaanterior el gerente de la fabrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es unejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una
característica particular.El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes delas 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funcionacorrectamente. La hipótesis nula y alternativa se pueden expresar como sigue:
Ho: p .08 (funciona correctamente)
H1: p > .08 (no funciona correctamente)
La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:
En donde
Para ver el gráfico seleccione la opción "Descargar" del menú superior
p = proporción de éxitos de la hipótesis nula
Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de díaíndican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel designificancía de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Y la regla de decisión sería:
Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 81/176
Estadistica Inferencial
2013
81
Con los datos que se tienen,
= = .05
Y entonces,
= = = = -1.107
Z -1.107 < + 1.645; por tanto no rechazar Ho.
La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que nohay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha encontradoninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día.
http://cosmech.tripod.com/index.htm
Pruebas de Hipótesis
Una hipótesis estadística es una suposición hecha con respecto a la función de distribución de una variable aleatoria.
Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será necesario examinar toda la población. En lamayoría de las situaciones reales no es posible o practico efectuar este examen, y el camino mas aconsejable es tomar una muestraaleatoria de la población y en base a ella, decidir si la hipótesis es verdadera o falsa.
En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si la probabilidad calculada excede elvalor tabular llamado el nivel de significación y se declara falsa si la probabilidad calculada es menor que el valor tabular.
La prueba a realizar dependerá del tamaño de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de lasvariables.
Si las muestras a probar involucran a más de 30 observaciones, se aplicará la prueba de Z, si las muestras a evaluar involucran unnúmero de observaciones menor o igual que 30 se emplea la prueba de t de student. La fórmula de cálculo depende de si lasvarianzas son homogéneas o heterogéneas, si el número de observaciones es igual o diferente, o si son variables dependientes.
Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide por la menor, este resultado es unestimado de la F de Fisher. Luego se busca en la tabla de F usando como numerador los grados de libertad (n-1) de la varianzamayor y como denominador (n-1) de la varianza menor para encontrar la F de Fisher tabular. Si la F estimada es menor que la Ftabular se declara que las varianzas son homogéneas. Si por el contrario, se declaran las varianzas heterogéneas. Cuando sonvariables dependientes (el valor de una depende del valor de la otra), se emplea la técnica de pruebas pareadas.
Como en general estas pruebas se aplican a dos muestras, se denominarán a y b para referirse a ellas, así entenderemos por:
na al número de elementos de la muestra a
nb al número de elementos de la muestra b
xb al promedio de la muestra b
s2a la varianza de la muestra a
Y así sucesivamente
Entonces se pueden distinguir 6 casos a saber:
1. Caso de muestras grandes (n>30) 2.3. Caso de na = nb y s2a = s2b 4. Caso de na = nb y s2a <> s2b 5. Caso de na <> nb y s2a = s2b 6. Caso de na <> nb y s2a <> s2b 7. Caso de variables dependientes
1.-Cuando las muestras a probar involucran a más de 30 observaciones.
Ejemplo:
La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras50 palmas que no forman parte del ensayo tienen media y desviación estándar igual a 77.3 y 2.8 cm.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 82/176
Estadistica Inferencial
2013
82
Se desea probar la hipótesis de que las palmas que participan en el ensayo son más altas que las otras.
Consultando el valor z de la tabla a 95% de probabilidad se tiene que es 1.96, por lo consiguiente, el valor z calculado no fue mayor al valor
de la tabla y entonces se declara la prueba no significativa.
Conclusión: Las alturas promedio de los 2 grupos de palmas son iguales y la pequeña diferencia observada en favor al primer grupo se debeal azar.
2.-Caso de número igual de observaciones y varianzas homogéneas.
Ejemplo:
Se plantó cierto experimento en 24 parcelas para probar el efecto de la presencia o ausencia de K en el rendimiento de palma.
Peso medio del racimo (Kg.)
n a b a2 b2
1 20.0 24.0 400.00 576.00
2 24.0 28.0 576.00 784.00
3 21.0 25.0 441.00 625.00
4 22.0 25.0 484.00 625.00
5 23.0 27.0 529.00 729.00
6 24.0 27.5 576.00 756.25
7 22.5 28.0 506.25 784.00
8 22.0 26.0 484.00 576.00
9 21.5 26.0 462.25 676.00
10 20.0 24.5 400.00 600.25
11 22.0 26.5 484.00 702.25
12 24.0 28.5 576.00 812.25
Suma 266 316 5918.5 8346
Promedio 22.16 26.33
s2a = 5918.5 - (266)2/12 = 2.0211
s2b = 8346 - (316)2/12 = 2.2411
Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se encuentra que el valor tabular es de 2.074 al 95% deprobabilidad, el cual es menor que la t calculada y por lo tanto se declara la prueba significativa.
Conclusión: La diferencia entre promedios observados es atribuible al efecto de tratamiento (K), por haberse conseguido un resultadosignificativo.
3.-Caso de igual número de observaciones y varianzas heterogéneas.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 83/176
Estadistica Inferencial
2013
83
Ejemplo:
Se plantó cierto experimento en 24 parcelas con dos clases de semillas: semilla mezclada y semilla DxP seleccionada. Se desea saber si elrendimiento observado por la semilla seleccionada difiere a la otra.
Producción de palma: TM/ha/año
Para ver la tabla seleccione la opción "Descargar" del menú superior
s2a = 1748.61 - (144.5)2/12 = 0.7811
s2b = 4001.14 - (216.2)2/12 = 9.6311
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.Conclusión: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras.
4.-Caso de diferente número de observaciones y varianzas homogéneas
Ejemplo:
Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en elcrecimiento.
Área foliar de la hoja # 17 en m2
Para ver la tabla seleccione la opción "Descargar" del menú superior
s2a = 968.93 - (112.1)2/13 = 0.1912
s2b = 390.84 - (59.2)2/9 = 0.188
s2c = 12(0.19) + 8(0.18) = 0.1920
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.
Conclusión: El rendimiento observado por las plantas de semil la seleccionada fue significativamente superior a las otras.
Ejemplo:
Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en elcrecimiento.
Área foliar de la hoja # 17 en m2
Para ver la tabla seleccione la opción "Descargar" del menú superior
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 84/176
Estadistica Inferencial
2013
84
s2a = 968.93 - (112.1)2/13 = 0.1912
s2b = 390.84 - (59.2)2/9 = 0.188
s2c = 12(0.19) + 8(0.18) = 0.1920
Consultando la tabla con (na-1) + (nb-1) o sea (20) grados de libertad, se obtiene el valor tabular de 2.086, el cual es menor que la tcalculada, por lo tanto la diferencia se declara significativa.
Conclusión: La diferencia detectada en estas dos muestras es atribuible a la aplicación del fertilizante nitrogenado.
5.- Caso de diferente número de observaciones y varianzas heterogéneas.
En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos anteriores, hay que calcularla.
Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente
Ejemplo:
Se tomaron 2 muestras de palma comercial de orígenes diferentes y se midió el porcentaje de almendra en el racimo en ambas muestras, elobjeto es probar si las muestras son diferentes genéticamente o no.
Porcentaje de almendra
Para ver la tabla seleccione la opción "Descargar" del menú superior
s2a = 225.02 - (53)2/14 = 1.8813
s2b = 192.26 - (43.80)2/10 = 0.059
En este caso la t generada (tg), reemplaza la t de la tabla y como la tc es menor que la tg, la diferencia se declara No significativa.
Conclusión: La diferencia observada entre promedios es atribuible únicamente a errores de muestreo o variabilidad natural, y no adiferencias genéticas.
6.-Caso de muestras pareadas (de variables dependientes)
En este caso, se asume que las muestras han sido distribuidas por pares.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 85/176
Estadistica Inferencial
2013
85
Ejemplo: Se tomaron 12 foliolos de palma joven y a cada uno se le trató la mitad con Benlate para medir la inhibición del crecimiento
de hongos.Magnitud del dano
Sin Con
n Benlate Benlate D = X - Y D2
Para ver la tabla seleccione la opción "Descargar" del menú superior
Consultando la tabla con n-1 grados de libertad se obtiene el valor tabular de 2.201, por lo tanto, la diferencia se declara significativa.
Conclusión: De la prueba se desprende que el tratamiento con benlate redujo significativamente la incidencia de hongos.
Utilidad de las hipótesis:
El uso y formulación correcta de las hipótesis le permiten al investigador poner a prueba aspectos de la realidad, disminuyendo ladistorsión que pudieran producir sus propios deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablementecorrectas o incorrectas sin que interfieran los valores o creencias del individuo.
Leer más: http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-de-hipotesis.shtml#ixzz2GaeZCCwR
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 86/176
Estadistica Inferencial
2013
86
Los cálculos en Excel se muestran en la siguiente imagen:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 87/176
Estadistica Inferencial
2013
87
El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
Prueba medias de dos muestras
Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son iguales. Se requieren dos muestras
independientes, una de cada una de las dos poblaciones. Considérese, por ejemplo, una compañía investigadora que
experimentan con dos diferentes mezclas de pintura, para ver si se puede modificar el tiempo de secado de una pintura para
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 88/176
Estadistica Inferencial
2013
88
uso doméstico. Cada mezcla es probada un determinado número de veces, y comparados posteriormente los
tiempos medios de secado de las dos muestras. Una parece ser superior, ya que su tiempo medio de secado (muestra) es 30
minutos menor que el de la otra muestra.
Pero, ¿son realmente diferentes los tiempos medios de secado de las dos pinturas, o esta diferencia muestral es nada más la
variación aleatoria que se espera, aun cuando las dos fórmulas presentan idénticos tiempos medios de secado? Una vez más,
las diferencias casuales se deben distinguir de las diferencias reales.
Con frecuencia se utilizan pruebas de dos muestras para comparar dos métodos de enseñanza, dos marcas, dos ciudades, dosdistritos escolares y otras cosas semejantes.
La hipótesis nula puede establecer que las dos poblaciones tienen medias iguales:
Para tamaños más pequeños de muestra, Z estará distribuida normalmente sólo si las dos poblaciones que se muestrean
también lo están.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 89/176
Estadistica Inferencial
2013
89
Ejemplo ilustrativo
La media de las calificaciones de dos muestras de 15 estudiantes de primer semestre en la asignatura de Estadística de
la universidad UTN resulta ser de 7 y 8,5. Se sabe que la desviación típica de las calificaciones en esta asignatura fue en el
pasado de 1,5.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 90/176
Estadistica Inferencial
2013
90
Los cálculos en Excel se muestran en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 91/176
Estadistica Inferencial
2013
91
El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
4.1.-Introducción
TAMAÑO DE LA MUESTRA
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuentavarios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, lavarianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casossencillos de cálculo del tamaño muestral delimitemos estos factores.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 92/176
Estadistica Inferencial
2013
92
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
población total.2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe parageneralizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivalea decir que no existe ninguna duda para generalizar tales resultados, pero también implicaestudiar a la totalidad de los casos de la población. Para evitar un costo muy alto para elestudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todoslos casos, entonces se busca un porcentaje de confianza menor. Comúnmente en lasinvestigaciones sociales se busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesisque sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo delerror y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son
complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó lahipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo ala investigación actual. El porcentaje con que se aceptó tal hipótesis se denominavariabilidad positiva y el porcentaje con el que se rechazó se la hipótesis es la variabilidadnegativa
El muestreo es el proceso de tomar una proporción o parte de un universo de elementos,con la finalidad de analizar en dichos elementos, características sujetas a estudio ofenómenos factibles de observación y en base al análisis de la muestra o proporcióntomada obtener conclusiones que se refieran no sólo a la muestra sino a todo el universo.Para fines estadísticos, el universo puede considerarse finito o infinito. Se considera finitosi el número de elementos que lo constituyen es menor a 500,000 e infinito si es igual o
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 93/176
Estadistica Inferencial
2013
93
mayor a este número. Siempre que hagamos la elección de una muestra, debemos tener cuidado de que ésta reúna las siguientes características:
· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que serequiere para que el nivel de confiabilidad sea el que se ha establecido previamente.
· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar características similares a las de la población o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las másimportantes son:
· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte deluniverso (muestra tomada) y no por la totalidad de él.
· Si la muestra es representativa, las deducciones resultantes sobre el universo serán
confiables.· Como solamente se estudia una parte del universo, la información obtenida se realiza enmenor tiempo.
¿Cómo obtener el tamaño de la muestra a utilizar?
Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícilde contestar, sobre todo por falta de información del problema, es: ¿cuántas observaciones
se deben obtener para que el tamaño de la muestra sea realmente representativo deluniverso estadístico? En este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían en su composición de una aotra. La magnitud de la variación depende del tamaño de la muestra y de la variabilidadoriginal de la población. Así, el tamaño de la muestra queda determinada por el grado de precisión que se desea obtener y por variabilidad inicial de la población.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es
aceptable estadísticamente.
2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le denomina p).
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 94/176
Estadistica Inferencial
2013
94
3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (aesta probabilidad se le denomina q= 1 – p).
4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en losresultados (error máximo de estimación), comúnmente se trabaja con errores de estimaciónentre el 2% y el 6%, ya que la validez de la información se reduce demasiado para valoresmayores del 6%.
· Determinamos el tamaño de la población o universo.
5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o
universo se considera infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el número de elementos es menor a esta cantidad).
Diferentes niveles de confianza utilizados en la práctica
Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.67
4.2.-Prueba Normal y T student
En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmentedistribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de lasdiferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacióntípica de una población y ésta debe ser estimada a partir de los datos de una muestra.
La distribución t de Student es la distribución de probabilidad del cociente
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 95/176
Estadistica Inferencial
2013
95
donde
Z tiene una distribución normal de media nula y varianza 1 V tiene una distribución ji-cuadrado con grados de libertad Z y V son independientes
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue ladistribución t de Student no central con parámetro de no-centralidad .
Aparición y especificaciones de la distribución t de Student
Supongamos que X 1,..., X n son variables aleatorias independientes distribuidasnormalmente, con media μ y varianza σ2. Sea
la media muestral. Entonces
sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,
donde
es la varianza muestral y demostró que la función de densidad de T es
donde es igual a n − 1.
La distribución de T se llama ahora la distribución-t de Student.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 96/176
Estadistica Inferencial
2013
96
El parámetro representa el número de grados de libertad . La distribución depende de , pero no de o , lo cual es muy importante en la práctica.
Intervalos de confianza derivados de la distribución t de Student
El procedimiento para el cálculo del intervalo de confianza basado en la t de Studentconsiste en estimar la desviación típica de los datos S y calcular el error estándar de la
media , siendo entonces el intervalo de confianza para la media =
.
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de lasmedias de muestras de dos distribuciones normales se distribuye también normalmente, ladistribución t puede usarse para examinar si esa diferencia puede razonablemente suponerse
igual a cero.
para efectos prácticos el valor esperado y la varianza son:
E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3
Historia
La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajabaen una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación deartículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset
publicase sus resultados bajo el seudónimo de Student
Distribución t de Student
Función de densidad de probabilidad
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 97/176
Estadistica Inferencial
2013
97
Función de distribución de probabilidad
Parámetros grados de libertad (real)
Dominio
Función de
densidad
(pdf)
Función de
distribución
(cdf)donde es la
función hipergeométrica
Media para , indefinida para otros valores
Mediana
Moda
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 98/176
Estadistica Inferencial
2013
98
Varianza
para , indefinida para otros
valores
Coeficiente
de simetría
para
Curtosis
para
Entropía
: función digamma,
: función beta
Función
generadora
de
momentos
(mgf)
4.3.-Pruebas de significancia
SIGNIFICACIÓN ESTADÍSTICA
La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final del mismo si existe o no asociación entre diferentesvariables. Esta asociación puede ser resultado de que realmente exista laasociación indicada, pero esta asociación también puede ser producto del azar, de
la presencia de sesgos o de la presencia de variables de confusión.
En estadística, un resultado se denomina estadísticamente significativo cuando no es probable que haya sido debido al azar. Una "diferenciaestadísticamente significativa" solamente significa que hay evidencias estadísticasde que hay una diferencia entre las variables estudiadas. No significa que ladiferencia sea grande, importante, o significativa en el sentido estricto de lapalabra, sólo indica que hay diferencias.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 99/176
Estadistica Inferencial
2013
99
Una de las aplicaciones de la estadística es hacer inferencias apoblaciones, a partir de muestras. En la realización de este proceso, siempreexiste el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológicadel fenómeno a estudiar.
DEFINICION
El nivel de significación de un test es un concepto estadístico asociado a laverificación de una hipótesis. En pocas palabras, se define como la probabilidadde tomar la decisión de rechazar la hipótesis nula (H0) cuando ésta es verdadera(decisión conocida como Error tipo I, o "falso positivo"). La decisión se toma amenudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel designificación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor P, más significativo será el resultado.
La Ho (hipótesis nula) representa la afirmación de que no hay asociaciónentre las dos variables estudiadas y la H1 (hipótesis alternativa) afirma que hayalgún grado de relación o asociación entre las dos variables.
Realidad (Población)
Existe diferencia oasociación
(H0 falsa)
No existediferencia oasociación
(H0 cierta)
Resultado dela prueba
(muestra)
Diferencia oasociaciónsignificativa
(rechazo H0)
No error
(1-β)
Error tipo I
Error α
Diferencia oasociación nosignificativa
(No rechazo H0)
Error tipo II
Error β
No error
(1-α)
Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos. H1 (hipótesis alternativa) = Sí existe diferencia.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 100/176
Estadistica Inferencial
2013
100
El nivel de significación se estableció siguiendo los comentarios delestadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a
partir de la cual podamos decir: o bien hay algo en el tratamiento...".
El valor de "p" que indica que la asociación es estadísticamente
significativa ha sido arbitrariamente seleccionado y por consenso se considera en0.05.
Una seguridad del 95% lleva implícito una p < de 0.05. Una seguridad del 99% lleva implícita una p < 0.01.
Cuando rechazamos la Ho (hipótesis nula) y aceptamos la H1 (hipótesisalternativa) como probablemente cierta afirmando que hay una asociación, o quehay diferencia, estamos diciendo en otras palabras que es muy poco probable queel azar fuese responsable de dicha asociación.
Del mismo modo si la p>0.05 decimos que el azar no puede ser excluidocomo explicación de dicho hallazgo y no rechazamos la H o (hipótesis nula) queafirma que ambas variables no están asociadas o correlacionadas.
La significación estadística depende de 2 componentes fundamentales:
- Magnitud de la diferencia Cuanto más grande sea la diferencia entre 2variables, más fácil es demostrar que la diferencia es significativa.
- Tamaño muestral A mayor tamaño muestral, más fácil es detectar diferencias. Lo hace a través de del error estándar: “a mas pacientes menor error estándar”.
Error de tipo I (α)
El error tipo I, conocido también como erro tipo alfa, se comete cuando elinvestigador rechaza la hipótesis nula (H0), siendo ésta verdadera en la población.Es equivalente a encontrar un resultado falso positivo, ya que el investigador concluye que hay diferencia, cuando en realidad no existe.
La "p" no es un indicador de fuerza de la asociación ni de su importancia.
La significación estadística es por tanto una condición resultante del rechazo deuna hipótesis nula mediante la aplicación de una prueba estadística designificación. El nivel de significación es el riesgo o la probabilidad quevoluntariamente asume el investigador de equivocarse al rechazar la hipótesisnula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05(95%)ó 0.01 (99%).
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 101/176
Estadistica Inferencial
2013
101
Si p < 0.05 se considera significativo, en cuyo caso se rechaza lahipótesis nula
Si p> 0.05 se considera no significativo en cuyo caso no se rechaza lahipótesis nula.
Error de tipo II (β)
El error tipo II o beta se comete en la situación contraria: cuando elinvestigador NO rechaza la hipótesis nula (H0), siendo ésta FALSA en lapoblación. Es equivalente a un resultado falso negativo, ya que el investigador concluye que ha sido incapaz de encontrar una diferencia que existe en larealidad.
Su complemento, (1-β), conocido como PODER o POTENCIA
ESTADÍSTICA, representa la probabilidad de observar en la muestra unadeterminada diferencia o un efecto, si existen en la población.
El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad esverdadera. Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo alaumentar el nivel de confianza aumenta la probabilidad de cometer elerror de tipo II.
Recomendaciones para disminuir el error de tipo I:
Disponer de una teoría que guíe la investigación, evitando el "salir depesca" con el ordenador buscando asociaciones entre variables. Disminuir el número de test estadísticos llevados a cabo en el estudio.
Depurar la base de datos para evitar errores de valoresextremos que puedan producir hallazgos significativos.
Utilizar valores de alfa más reducidos (0.01 ó 0.001). Reproducir el estudio. Si al reproducir el estudio se obtienen
resultados similares, estaremos más seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error de tipo II:
Incrementar el tamaño de la muestra.Estimar el poder estadístico (potencia) del estudio. Incrementar el tamaño del efecto a detectar. Incrementar el valor de alfa.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 102/176
Estadistica Inferencial
2013
102
Utilizar test paramétricos (más potentes) en lugar de test noparamétricos.
POTENCIA DE UN ESTUDIO
DEFINICION DE POTENCIA
Los estudios cuyos resultados no son estadísticamente significativos suelendenominarse “estudios negativo”. Sin embargo, la usencia de significación noimplica necesariamente que no exista en la realidad una asociación relevanteentre el factor de estudio y la respuesta.
La probabilidad de cometer este error se conoce como β, y su complemento 1 -βcorresponde a la potencia estadística, que cuantifica la capacidad de un estudiopara detectar como estadísticamente significativo una determinada diferencia oasociación que existe en la realidad.
El poder estadístico de un estudio depende de diferentes factores, como:
1. El tam año de l efec to a detec tar , es decir, la magnitud mínima de ladiferencia o asociación entre los grupos que se considera clínicamenterelevante Cuanto mayor sea el tamaño del efecto que se desea detectar,mayor será la probabilidad de obtener hallazgos significativos y, por lotanto, mayor será el poder estadístico.
2. La variabi l idad de la respuesta estudiada. A mayor variabilidad en la respuesta, más difícil será detectar diferencias
entre los grupos que se comparan y menor será el poder estadístico de lainvestigación.De ahí que sea recomendable estudiar grupos lo más homogéneosposibles.
3. El tam año d e la muest ra a estudiar. A mayor tamaño muestral, mayor será la potencia estadística de un estudio.
4. El niv el de s ign ificac ión estadísti ca . Si se disminuye el valor deα también se disminuye el poder de la prueba.Habitualmente se trabaja con un nivel de significación del 95% (α = 0,05),
por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño dela muestra que es posible estudiar y el poder que se quiere para el estudio.
Los cuatro factores anteriores, junto con el poder estadístico, forman un sistemacerrado. De este modo, una vez fijados tres de ellos, el cuarto quedacompletamente determinado.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 103/176
Estadistica Inferencial
2013
103
CÁLCULO DE LA POTENCIA
Generalmente, se suele trabajar con un poder en torno al 80% o al 90%.Con frecuencia, las condiciones en las que se lleva a cabo una investigación sondiferentes de las que se habían previsto en un principio. En consecuencia, y a la
vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriorisu potencia con el fin de discernir si el estudio carece del poder necesario paradetectar una diferencia relevante o bien si realmente puede no existir taldiferencia.
Existen fórmulas que calculan el poder estadístico en función de lanaturaleza de la investigación. Con estas fórmulas obtienes un valor, a partir delcual se determina la potencia recurriendo a unas tablas de la distribución normal.
Sin embargo, y aunque dichas fórmulas nos permitirían analizar el poder estadístico en diferentes tipos de diseño, puede resultar más sencillo disponer de
algún software específico con el que poder realizar dichos cálculos.
Tabla 3. Valores de , y más frecuentemente utilizados.
Seguridad α Test unilateral Test bilateral
80 % 0,200 0,842 1,282
85 % 0,150 1,036 1,440
90 % 0,100 1,282 1,645
95 % 0,050 1,645 1,96097,5 % 0,025 1,960 2,240
99 % 0,010 2,326 2,576
Poder estadístico
99 % 0,99 0,01 2,326
95 % 0,95 0,05 1,645
90 % 0,90 0,10 1,282
85 % 0,85 0,15 1,036
80 % 0,80 0,20 0,842
75 % 0,75 0,25 0,674
70 % 0,70 0,30 0,524
65 % 0,65 0,35 0,385
60 % 0,60 0,40 0,253
55 % 0,55 0,45 0,126
50 % 0,50 0,50 0,000
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 104/176
Estadistica Inferencial
2013
104
Tanto si los hallazgos son estadísticamente significativos como si no lo son,la estimación de intervalos de confianza pueden también facilitar la interpretaciónde los resultados en términos de magnitud y relevancia clínica, proporcionándonos
una idea de la precisión con la que se ha efectuado al estimación, de la magnitudy de la dirección del efecto. De este modo, los intervalos de confianza nospermiten tener una idea acerca del poder estadístico de un estudio y, por tanto, dela credibilidad de la ausencia de hallazgos significativos.
4.4.-Comparación de dos muestras independientes
Comparación de muestras independientes
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestrasindependientes, y para ello, se selecciona:
A continuación se abre una ventana con los siguientes campos:
Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir,aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos.Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los grupos desujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón DEFINIR
GRUPOS y al presionarlo aparece una ventana donde se introducen los valores de la variable quedefinen los dos grupos de sujetos a comparar, o el valor de la variable que hará de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado,el individuo pertenecerá al primer grupo, y en caso contrario, al segundo.Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la secciónanterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 105/176
Estadistica Inferencial
2013
105
Ejemplo 4.3. Vamos a comprobar si existen diferencias significativas entre los tiemposmedios de dedicación a la docencia, para los profesores asociados y los titulares deuniversidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para
muestras independientes, y elegimos la variable Tiemdoc para llevarla al campoContrastar Variables. Seguidamente seleccionamos como Variable Agrupación lavariable Categoría, presionamos el botón DEFINIR GRUPOS, y tecleamos un 1 en el primer grupo y un 3 en el segundo. Por último pulsamos CONTINUAR y ACEPTAR para ejecutar el procedimiento.
El resultado que muestra la Tabla 3 contiene dos tablas. La primera recoge para ambosgrupos, profesores asociados y titulares de universidad, el número de casos en cadamuestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y los errorestípicos de la media. La segunda tabla muestra el valor del estadístico para la prueba deLevene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye como una Fde Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar quelas varianzas sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tablael valor del estadístico para resolver el contraste de igualdad de medias, supuesto varianzasiguales y distintas, (en ambos casos se distribuye como una t de Student), junto con loscorrespondientes grados de libertad y sus p-valores. Puesto que hemos concluido que lasvarianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale8.661, y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento quetambién se puede deducir del intervalo de confianza, que no contiene el cero.
Tabla 3: Contraste sobre las Medias de dos Poblaciones Independientes
Prueba T Estadísticos de Grupo
Desviación Error típ. de
Categoría N Media típ. la media
Tiempo diario 1 29 251,3759 29,36731 5,4534
para la docencia 3 23 187,1000 22,5337 4,6986
Prueba de muestras independientes
Prueba de Levene para
la igualdad Prueba T para la igualdad de medias de varianzas
F Sig. t glSig.
bilateralDiferencia de
mediasError típico de la
diferenciaIntervalo de confianza para
la diferencia Inferior Superior
Tiempo Asumiendo 0.808 0,373 8,661 50 0.000 64,2759 7,4209 49,3704 79,1813
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 106/176
Estadistica Inferencial
2013
106
diariovarianzasiguales
para la No
Asumiendo8,929 49,961 0.000 64,2759 7,1983 49,8173 78,7345
docenciavarianzasiguales
4.5.-Prueba de Fisher
En estadística se denomina prueba F de Snedecor a cualquier prueba en la que elestadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. Elnombre fue acuñado en honor a Ronald Fisher .
En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:
La hipótesis de que las medias de múltiples poblaciones normalmente distribuidas y con la mismadesviación estándar son iguales. Esta es, quizás, la más conocida de las hipótesis verificada medianteel test F y el problema más simple del análisis de varianza.
La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas soniguales, lo cual se cumple.
En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dosmodelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresiónconforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la sumade cuadrados de residuos de los dos modelos como sigue:
Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo
0 restringe m coeficientes, el test F puede calcularse como
A diferencia de otras pruebas de medias que se basan en la diferencia existente entre dos valores, el análisis de varianza emplea la razón delas estimaciones, dividiendo la estimación intermediante entre la estimación interna
Esta razón F fue creada por Ronald Fisher (1890-1962), matemático británico, cuyas teoríasestadísticas hicieron mucho más precisos losexperimentos científicos. Sus proyectos estadísticos, primero utilizados en biología, rápidamente cobraron importancia y fueron aplicados a laexperimentación agrícola, médica e industrial. Fisher también contribuyó a clarificar las funciones que desempeñan la mutación y la selección natural en la genética, particularmente en la población humana.
El valor estadístico de prueba resultante se debe comparar con un valor tabular de F, que indicará el valor máximo del valor estadísti co deprueba que ocurría si H0 fuera verdadera, a un nivel de significación seleccionado. Antes de proceder a efectuar este cálculo, se debeconsiderar las características de la distribución F
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 107/176
Estadistica Inferencial
2013
107
Características de la distribución F
- Existe una distribución F diferente para cada combinación de tamaño de muestra y número de muestras. Por tanto, existe una distribución Fque se aplica cuando se toman cinco muestras de seis observaciones cada una, al igual que una distribución F diferente para cinco muestrasde siete observaciones cada una. A propósito de esto, el número distribuciones de muestreo diferentes es tan grande que sería poco prácticohacer una extensa tabulación de distribuciones. Por tanto, como se hizo en el caso de la distribución t, solamente se tabulan los valores quemás comúnmente se utilizan. En el caso de la distribución F, los valores críticos para los niveles 0,05 y 0,01 generalmente se proporcionan
para determinadas combinaciones de tamaños de muestra y número de muestras.
La razón más pequeña es 0. La razón no puede ser negativa, ya que ambos términos de la razón F están elevados al cuadrado.
Por otra parte, grandes diferencias entre los valores medios de la muestra, acompañadas de pequeñas variancias muestrales pueden dar como resultado valores extremadamente grandes de la razón F.
- La forma de cada distribución de muestreo teórico F depende del número de grados de libertad que estén asociados a ella. Tanto elnumerador como el denominador tienen grados de libertad relacionados.
Determinación de los grados de libertad Los grados de libertad para el numerador y el denominador de la razón F se basan en los cálculos necesarios para derivar cada estimaciónde la variancia de la población. La estimación intermediante de variancia (numerador) comprende la división de la suma de las diferenciaselevadas al cuadrado entre el número de medias (muestras) menos uno, o bien, k - 1. Así, k - 1es el número de grados de libertad para el
numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias elevadas al cuadrado entre el valor medio de la muestra ycada valor de la misma se divide entre el número de observaciones de la muestra menos uno, o bien, n - 1. Por tanto, el promedio de lasvariancias muestrales se determina dividiendo la suma de las variancias de la muestra entre el número de muestras, o k. Los grados de libertad
para el denominador son entonces, k(n -l).
Uso de la tabla de F del análisis de variancia (ANOVA)
En la tabla 5 se ilustra la estructura de una tabla de F para un nivel de significación de 0,01 o 1% y 0,05 o 5%.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 108/176
Estadistica Inferencial
2013
108
Cálculo de la razón F a partir de datos muestrales
Para calcular F se debe seguir el siguiente procedimiento
1) Calcular la estimación interna (Denominador)
2) Calcular la estimación intermediante (Numerador)
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 109/176
Estadistica Inferencial
2013
109
Ejemplo ilustrativo
Los pesos en kg por 1,7 m de estatura se ilustran en la siguiente tabla. La finalidad es determinar si existen diferencias reales entre las cuatromuestras. Emplear un nivel de significación de 0,05
Solución:
Las hipótesis Nula y Alternativa son:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 110/176
Estadistica Inferencial
2013
110
Calculando las medias aritméticas se obtiene:
Se llena la siguiente tabla para calcular las varianzas muestrales:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 111/176
Estadistica Inferencial
2013
111
Remplazando los datos en la fórmula de la varianza se obtienen las varianzas de las 4 muestras.
Calculando la estimación interna de varianza se obtiene:
Para calcular la estimación intermediante de varianza primero se calcular la varianza de las medias aritméticas
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 112/176
Estadistica Inferencial
2013
112
Se llena la siguiente tabla:
Se remplaza los datos de la tabla para calcular varianza de las medias aritméticas
Calculando la estimación intermediante de varianza se obtiene:
Los cálculos en Excel se muestran en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 113/176
Estadistica Inferencial
2013
113
La gráfica elaborada en Winstats y Paint se muestra en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 114/176
Estadistica Inferencial
2013
114
Decisión:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 115/176
Estadistica Inferencial
2013
115
4.6.-Comparación de muestras pareadas
Si estamos comparando un resultado cuantitativo en dos grupos de datos, a partir demuestras extraídas de forma aleatoria de una población normal, siendo nA el tamañode la primera muestra y nB el de la segunda, la cantidad:
(donde son las medias muestrales, las correspondientes mediaspoblacionales, s la desviación típica muestral conjunta), se distribuye como una t de
Student con n A+nB-2 grados de libertad, proporcionándonos una referenciaprobabilística con la que juzgar si el valor observado de diferencia de medias nospermite mantener la hipótesis planteada, que será habitualmente la hipótesis deigualdad de las medias (por ejemplo igualdad de efecto de los tratamientos), o lo que
es lo mismo nos permite verificar si es razonable admitir que a la luz delos datos obtenidos en nuestro experimento.
Veamos un pequeño ejemplo. Se efectuó un estudio para comparar dos tratamientosen cuanto a la mejoría en la salud percibida, determinada mediante un cuestionario decalidad de vida en pacientes hipertensos. Se asignaron 10 pacientes de forma aleatoriaa cada uno de los grupos de tratamiento, obteniéndose los siguientes resultados:
Tabla 1
Trat. A 5.2 0.2 2.9 6.3 2.7 -1.4 1.5 2.8 0.8 5.3
Trat. B 6.0 0.8 3.2 6.2 3.8 -1.6 1.8 3.3 1.3 5.6
Si calculamos el valor de t según la fórmula anterior (o utilizando la calculadora disponibleen el enlace que indicamos más abajo) obtenemos:
Tabla 2
Dif.medias 0.41
Err.est.dif. 1.11
t Student 0.37
gl 18
P 0.7165
Intervalo 95% para la dif. de medias -1.93 a 2.75
Tabla 3
Trat. A Trat. B
Media 2,63 3,04
Desv.Típ. 2,45 2,52
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 116/176
Estadistica Inferencial
2013
116
De acuerdo conesos resultados, alser la probabilidadobtenida alta,vemos que no hay
razones pararechazar lahipótesis de que noexiste diferenciaentre los grupos(P= 0.7165),aceptamos que lasmedias son iguales,lo que podemostambién comprobar de forma gráfica, si
representamos cadaserie de valores endos posiciones deleje X, obteniendoun gráfico como elrepresentado en lafigura 1.
Ahora bien,sabemos que dosvariables que
influyen en losresultados de loscuestionarios decalidad de vida percibida son laedad y el sexo delos pacientes. Alasignar de formaaleatoria los pacientes a cadagrupo detratamientoesperamos que lasvariables que puedan influir en elresultado,diferentes del propio tratamientoasignado, se
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 117/176
Estadistica Inferencial
2013
117
distribuyan enambos grupos deforma parecida; pero cuando deantemano
conocemos quealgunas variables síinfluyen en el parámetro objetode estudio, podemoscontrolarlas en eldiseño para evitar que puedan afectar al resultado, sobretodo cuando vamos
a trabajar con unamuestra pequeña.
Así en nuestroejemplo podemosdividir los pacientes dentro decada sexo en variosgrupos de edad y buscar parejas de pacientes con el
mismo sexo y conedades similares.Dentro de cada pareja,seleccionada conese criterio (igualsexo y edadsimilar), asignamosde forma aleatoriacada uno de lostratamientos.
Esto es lo que precisamentehabíamos hecho enel estudio de latabla 1: habíamosdividido la edad en5 categorías y
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 118/176
Estadistica Inferencial
2013
118
seleccionado 5 parejas de hombresy 5 de mujeres encada grupo deedad. Dentro de
cada par hemosasignado de formaaleatoria eltratamiento A o elB a cada uno desus elementos.
En este caso hemos "diseñado" un estudio, en el que mediante el emparejamiento estamoscontrolando (o bloqueando) la influencia de las variables edad y sexo.
Ahora en el análisis estadístico de los datos, para tener en cuenta el diseño, hay quecomparar cada pareja de valores entre sí.
Pero antes de hacer un análisisestadístico vamos arepresentar gráficamente elnuevo planteamiento.
Si calculamos lasdiferencias entre elvalor del elemento
B y el elemento Ay las representamosgráficamenteobtenemos la figura2, donde hemosdibujado una líneahorizontal en elvalor 0, quecorresponde a laigualdad entre lostratamientos.
Figura 2
Vemos que el panorama cambia radicalmente con respecto a la figura 1, ya que ahora lamayor parte de los puntos están por encima de esa línea de igualdad de efecto, reflejandouna mayor puntuación por término medio en el tratamiento B que en el A dentro de las parejas.
En la siguiente tabla vemos los resultados del análisis estadístico, muy diferentes de losobtenidos en la tabla 1 en la que no se tenía en cuenta el tipo de diseño
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 119/176
Estadistica Inferencial
2013
119
Dif. B - A Resultado
Media 0,410
Desv.Típ. 0,387
Tamaño 10
Err.est.dif. 0,122
t Student 3,349
gl 9
P 0,0085
Int. conf. 95% para la media 0,133 a 0,687
Ahora hemos calculado la media de las diferencias d , y su desviación típica sd en las n parejas. El error estándar de la media de las diferencias es:
Por lo que el valor de t será ahora
que en la hipótesis de igualdad -media de las diferencias igual a cero-, se distribuye comouna t de Student con n-1 grados de libertad.
Aunque perdemos grados de libertad, siendo por ese lado la prueba menos potente, sinembargo al disminuir la variabilidad se aumenta la eficiencia de la prueba. No siempre será
tan dramática la diferencia entre ambos planteamientos, ya que en este caso se trata dedatos preparados y en la realidad las cosas no suelen salir tan redondas.
Cuando efectivamente influye en el resultado la variable que nos ha llevado a decidir utilizar un diseño pareado, las medidas dentro de cada pareja estarán correlacionadas, por loque siempre podemos comprobar a posteriori si esto es así, calculando el coeficiente decorrelación, que debiera ser positivo y de cierta entidad.
El concepto de prueba pareada se puede extender a comparaciones de más de dos grupos yhablaremos entonces de bloques de m elementos (tantos elementos por bloque comogrupos o tratamientos), siendo por tanto una pareja un caso particular de bloque de 2
elementos. Hablaremos de este tipo de diseños más adelante, cuando dediquemos algúnartículo al análisis de la varianza, que es la prueba que se utiliza para comparar más de dosgrupos. En estas técnicas de formación de bloques el investigador deja de ser un meroobservador, para pasar a "diseñar" el estudio o experimento, y es una metodología de granutilidad en muchos tipos de trabajos de investigación en diversas áreas, desde la agriculturadonde se inició, a la medicina, biología, e ingeniería. El fundamento en el que se basan esen suponer que el bloque es más homogéneo que el conjunto, por lo que restringiendo las
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 120/176
Estadistica Inferencial
2013
120
comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor precisión.
Hay que destacar que no siempre el diseño pareado es el más efectivo, ya que como seapuntó anteriormente hay una disminución en los grados de libertad que debe ser
compensada con la reducción de varianza para que la prueba resulte más efectiva. Haymuchas situaciones en las que las observaciones "próximas" están relacionadasnegativamente, de tal manera que las comparaciones entre parejas son entonces menos parecidas que otras comparaciones.
En los estudios clínicos el emparejamiento se utiliza habitualmente más que por razones deeficiencia para "aumentar" la validez de las inferencias obtenidas, mediante el control de posibles variables confusoras. Por ello se desaconseja, en el criterio para emparejar, lautilización de variables sobre las que no estemos seguros de su influencia en el resultado deinterés.
Pruebas pareadas para variables cualitativas
El concepto de diseño pareado se puede aplicar también al análisis de datos cuyo resultadoes una categoría. Veamos la situación más sencilla, para el caso de que la variablecualitativa sea dicotómica o binaria, con sólo dos posibles repuestas. Este planteamiento eshabitual en algunos estudios de casos-controles, en los que cada caso se empareja con uncontrol de acuerdo con un criterio determinado, y en el que se trata de valorar la frecuenciade la presencia de un factor de riesgo. Podemos representar los resultados en una tabla de lasiguiente forma:
Controles
Factor presente Factor ausente
Casos Factor presente a b a+b
Factor ausente c d c+d
a+c b+d n
donde en cada celda se refleja el número de parejas; así a es el número de parejas en las queel factor de riesgo está presente tanto en el caso como en el control, y d es el número de parejas en las que ni en el caso ni el control se da el factor de riesgo. Es evidente que enesas dos celdas hay concordancia entre lo observado en el caso y lo observado en el control,dentro de la pareja, y que por tanto no afectarán al resultado en cuanto a diferencias entrecasos y controles, siendo sólo los pares discrepantes b, c los que aportan información en esesentido.
La proporción de controles que presentan el factor de riesgo es
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 121/176
Estadistica Inferencial
2013
121
y la proporción de casos con el factor de riesgo
La diferencia de proporciones en cuanto a presencia del factor de riesgo entre casos ycontroles es:
donde como ya anticipábamos las cantidades a y d no intervienen. El error estándar de esadiferencia viene dado por:
El cuadrado del cociente entre la diferencia y su error estándar, se distribuye bajo lahipótesis de igualdad como una chi² con 1 grado de libertad, y el contraste se conoce comoprueba de McNemar:
Si se aplica la corrección de continuidad (recomendable sobre todo si el tamaño de muestraes pequeño o hay celdas con frecuencias pequeñas), la fórmula anterior se modifica
ligeramente:
Para estimar el odds ratio en este tipo de diseño se utiliza la fórmula:
donde de nuevo solo intervienen los pares con desacuerdo.
El error estándar de este odds ratio se calcula como
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 122/176
Estadistica Inferencial
2013
122
En una primera impresión puede sorprendernos la fórmula para el cálculo del odds ratio, pero su obtención es sencilla si pensamos que en realidad cada pareja es un estrato con 2elementos, y que no debemos combinar las tablas obtenidas en cada estrato juntándolas sinmás. Si aplicamos para el cálculo del odds ratio combinado el método habitual conocidocomo de Mantel-Haenszel obtendremos la fórmula anterior.
Este planteamiento se puede extender también al caso de una variable con más de dosrespuestas (prueba de Stuart-Maxwell) o también al caso de agrupaciones de más de doselementos por bloque.
4.7.-Modelos totalmente aleatorioEs un diseño en el cual los tratamientos son asignados completamente al azar a las unidades experimentaleso viceversa. Este diseño es usado ampliamente y aplicado a problemas tanto administrativos comoindustriales
Características principales
1. Aplicable sólo cuando las unidades experimentales son homogéneas (verificar si existe tal
homogeneidad).2. Los tratamientos pueden tener igual o diferente número de unidades experimentales.3. La distribución de los tratamientos es al azar en las unidades experimentales.El número de tratamientos está en función del número de unidades experimentales que se dispone. Esconveniente tener pocos tratamientos y más unidades experimentales que muchos tratamientos con pocasunidades experimentales.
DCA CON UNA OBSERVACIÓN POR UNIDAD EXPERIMENTAL.
Cada tratamiento (i=1,...,t), dispone de un número de unidades igual a ri, cada unidad experimental es unarepetición y el valor observado en la u.e. es Yij .Cada observación es expresada en términos de una ecuación según el modelo estadístico:
Corresponde al modelo del diseño experimental y es una expresión aditivo lineal del valor observado Yij comola suma de tres elementos:
μ = Factor constante ( parámetro). _ i = Efecto del tratamiento (parámetro) en la unidad experimental.eij = Error, valor de la variable aleatoria Error experimental.
Cada observación es expresado de la misma forma; el conjunto de ecuaciones constituye el modelo, son"r." ecuaciones.
El modelo lineal general para el diseño completamente al azar es entonces:
La descripción de este modelo se complementa con los supuestos de los efectos de tratamiento según:
Cuando el Investigador fija los tratamientos en estudio y se interesa en los resultados de estos tratamientos, elmodelo se denomina de EFECTOS FIJOS, conocido como modelo I. Las hipótesis son:Nula y alternativa
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 123/176
Estadistica Inferencial
2013
123
4.8.-Selección del tamaño de la muestra para estimar la diferencia dedos medias
Determinación del tamaño de una muestra para medias, y Proporciones
TAMAÑO DE LA MUESTRA
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuentavarios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, lavarianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casossencillos de cálculo del tamaño muestral delimitemos estos factores.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para
generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivalea decir que no existe ninguna duda para generalizar tales resultados, pero también implicaestudiar a la totalidad de los casos de la población. Para evitar un costo muy alto para elestudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todoslos casos, entonces se busca un porcentaje de confianza menor. Comúnmente en lasinvestigaciones sociales se busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesisque sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por
considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo delerror y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no soncomplementarios la confianza y el error.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 124/176
Estadistica Inferencial
2013
124
La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó lahipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo ala investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina
variabilidad positiva y el porcentaje con el que se rechazó se la hipótesis es la variabilidadnegativa
El muestreo es el proceso de tomar una proporción o parte de un universo de elementos,con la finalidad de analizar en dichos elementos, características sujetas a estudio ofenómenos factibles de observación y en base al análisis de la muestra o proporcióntomada obtener conclusiones que se refieran no sólo a la muestra sino a todo el universo.Para fines estadísticos, el universo puede considerarse finito o infinito. Se considera finitosi el número de elementos que lo constituyen es menor a 500,000 e infinito si es igual omayor a este número. Siempre que hagamos la elección de una muestra, debemos tener cuidado de que ésta reúna las siguientes características:
· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que serequiere para que el nivel de confiabilidad sea el que se ha establecido previamente.
· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar características similares a las de la población o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las másimportantes son:
· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte deluniverso (muestra tomada) y no por la totalidad de él.
· Si la muestra es representativa, las deducciones resultantes sobre el universo seránconfiables.
· Como solamente se estudia una parte del universo, la información obtenida se realiza enmenor tiempo.
¿Cómo obtener el tamaño de la muestra a utilizar?
Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícilde contestar, sobre todo por falta de información del problema, es: ¿cuántas observacionesse deben obtener para que el tamaño de la muestra sea realmente representativo del
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 125/176
Estadistica Inferencial
2013
125
universo estadístico? En este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían en su composición de una aotra. La magnitud de la variación depende del tamaño de la muestra y de la variabilidadoriginal de la población. Así, el tamaño de la muestra queda determinada por el grado de precisión que se desea obtener y por variabilidad inicial de la población.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% esaceptable estadísticamente.
2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le denomina p).
3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (a
esta probabilidad se le denomina q= 1 – p).
4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en losresultados (error máximo de estimación), comúnmente se trabaja con errores de estimaciónentre el 2% y el 6%, ya que la validez de la información se reduce demasiado para valoresmayores del 6%.
· Determinamos el tamaño de la población o universo.
5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o
universo se considera infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el número de elementos es menor a esta cantidad).
Diferentes niveles de confianza utilizados en la práctica
Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.67
El tamaño de la muestra:
Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo deunidades de análisis ( personas, organizaciones, capitulo de telenovelas, etc), que se necesitan
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 126/176
Estadistica Inferencial
2013
126
para conformar una muestra ( )n que me asegure un error estándar menor que 0.01 ( fijado por el
muestrista o investigador), dado que la población N es aproximadamente de tantos elementos.
En el tamaño de una muestra de una población tenemos que tener presente además si esconocida o no la varianza poblacional.
Para determinar el tamaño de muestra necesario para estimar con un error máximo permisible
d prefijado y conocida la varianza poblacional (2 ) podemos utilizar la formula:
21
2
d
Z n
(1)
que se obtiene de reconocer que d es el error estándar o error máximo prefijado y está dado por la
expresión2
1
Z
n
d para el nivel de confianza 1 y constituye una medida de la
precisión de la estimación, por lo que podemos inferir además que 1d x P .
Ejemplo 1.2
Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento enuna industria. Se conoce que el peso de un saco que se llena con este instrumento es una variablealeatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg.Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.
Solución:
96,1
975,01
95,01
5,0
1,0
21
2
Z
d
4,961,0
96,15,02
21
2
d
Z n
Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamaño de muestra sería de 97.
Si la varianza de la población es desconocida, que es lo que mas frecuente se ve en la práctica eltratamiento será diferente, no es posible encontrar una fórmula cuando la varianza poblacional esdesconocida por lo que para ello aconsejamos utilizar el siguiente procedimiento-
Primeramente, se toma una pequeña muestra, que se le llama muestra piloto, con ella se estima la
varianza poblacional (2 ) y con este valor se evalúa en la formula (1), sustituyendo (
2 ) por su
estimación (2 s ). El valor de nobtenido será aproximadamente el valor necesario, nuevamente
con ese valor de n se extrae una muestra de este tamaño de la población se le determina la
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 127/176
Estadistica Inferencial
2013
127
varianza a esa muestra, como una segunda estimación de (2 ) y se aplica de nuevo la formula
(1), tomando la muestra con el n obtenido como muestra piloto para la siguiente iteración, se
llegará a cumplir con las restricciones prefijadas. Se puede plantear esta afirmación ya que la2 s
de2 tiende a estabilizarse a medida que aumenta n alrededor de la
2 por lo que llegará el
momento en que se encuentre el tamaño de muestra conveniente, sin embargo, en la práctica esmucho más sencillo pues, a lo sumo con tres iteraciones se obtiene el tamaño de muestradeseado, este procedimiento para obtener el tamaño de muestra deseado se puede realizar utilizando en Microsoft Excel en la opción análisis de datos las opciones estadística descriptivapara ir hallando la varianza de cada una de las muestras y la opción muestra para ir determinadolas muestras pilotos. Para obtener el tamaño de la muestra utilizando este método recomendamosla utilización de un paquete de computo como por ejemplo el Microsoft Excel, aplicando lasopciones muestra y estadística descriptiva.
Para determinar el tamaño de la muestra cuando los datos son cualitativos es decir para el análisisde fenómenos sociales o cuando se utilizan escalas nominales para verificar la ausencia opresencia del fenómeno a estudiar, se recomienda la utilización de la siguiente formula:
N n
n
n '1
'
(2)
siendo2
2
'
sn sabiendo que:
2 es la varianza de la población respecto a determinadas variables.
2 s es la varianza de la muestra, la cual podrá determinarse en términos de probabilidad
como )1(2 p p s
sees error estandar que está dado por la diferencia entre ( x ) la media poblacional y
la media muestral.
2 se es el error estandar al cuadrado, que nos servirá para determinar 2 , por lo que
2 = 2 se es la varianza poblacional.
Ejemplo 1.3
De una población de 1 176 adolescentes de una ciudad X se desea conocer la aceptación por losprogramas humorísticos televisivos y para ello se desea tomar una muestra por lo que se necesitasaber la cantidad de adolescentes que deben entrevistar para tener una información adecuada conerror estandar menor de 0.015 al 90 % de confiabilidad.Solución:
N = 1 176 se = 0,015
000225.0)015,0()( 222 se
09,0)9,01(9,0)1(2 p p s
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 128/176
Estadistica Inferencial
2013
128
por lo que 400000225,0
09,0'
2
2
sn
2981
400
1
'
1176
400'
N
n
nn
Es decir para realizar la investigación se necesita una muestra de al menos 298 adolescentes.
Cálculo del tamaño de la muestra
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta variosfactores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianzapoblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculodel tamaño muestral delimitemos estos factores.
Parámetro. Son las medidas o datos que se obtienen sobre la población.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimaciónde los parámetros.
Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y su parámetrocorrespondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas entorno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad unaestimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de uncenso completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicaráhasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos deconfianza que varían muestra a muestra). Varía según se calcule al principio o al final. Unestadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es ladesviación de la distribución muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss oStudent), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en tornoa un estadístico capte el verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el númerode entrevistas necesarias para construir un modelo reducido del universo, o de la población, serámás pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos deestudios previos.Tamaño de muestra para estimar la media de la población
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo
aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel deconfianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamosdispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreoaleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel deconfianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamosdispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:
1.- Obtener el tamaño muestral imaginando que N
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 129/176
Estadistica Inferencial
2013
129
Donde:
: z correspondiente al nivel de confianza elegido
: varianza poblacionale: error máximo
2.- Comprobar si se cumple
Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemosmuestrear.Si no se cumple, pasamos a una tercera fase:3.- Obtener el tamaño de la muestra según la siguiente fórmula:
Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de conocer elpromedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra seráextraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social yde las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando conun nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debeser el tamaño muestral que Empleemos?.
Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de
confianza elegido: = ±1.96 y seguimos los pasos propuestos arriba.1.
2.- Comprobamos que no se cumple, pues en este caso
10000 < 3706 (3706 - 1); 10000 < 137307303.-
Tamaño de muestra para estimar la proporción de la población
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 130/176
Estadistica Inferencial
2013
130
Para calcular el tamaño de muestra para la estimación de proporciones poblaciones hemos detener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirádeterminar el tamaño muestral es la siguiente:
donde
: z correspondiente al nivel de confianza elegidoP: proporción de una categoría de la variablee: error máximoN: tamaño de la población
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar laproporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se dedujoque P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
4.9.-Aplicaciones
I.- Sobre la variedad de Métodos de Estimación en el contextomultiecuacional
Los modelos multiecuacionales se caracterizan por presentar un sistemainterconectado de variables y ecuaciones, es decir, un sistema en el que lasimultaneidad entre endógenas aparece en mayor o menor medida.
Precisamente esa mayor o menor simultaneidad en las relaciones entreendógenas es un factor decisivo para determinar las propiedades de los distintosmétodos de estimación. Esto no significa que sea la única variable a considerar (afectará también la identificabilidad del modelo o el deseo de una estimaciónasintóticamente eficiente), pero sí resulta el primero de los factores
ANALÍTICAMENTE claves para una primera aproximación al método de
estimación correcto.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 131/176
Estadistica Inferencial
2013
131
En ese sentido, la primera de las clasificaciones de los distintos estimadoresdisponibles responde en gran medida al criterio de la simultaneidad; cada uno delos grandes grupos de métodos se configura para ser aplicado a modelos conmayor o menor simultaneidad.
- Métodos de Estimación de Enfoque Directo: Cada ecuación se estima de formaseparada y sin atender en ninguna medida a la información del resto delmodelo. Por ni la presencia de otras endógenas y/o exógenas ni, por supuesto,la configuración concreta del resto de ecuaciones, son relevantes en losresultados obtenidos en cada ecuación. (MCO)
- Métodos de Estimación con Información Limitada: Cada ecuación se estimatambién de forma aislada pero, al menos, se requiere información sobre lapresencia de otras variables en el modelo (qué endógenas y qué exógenasaparecen en el modelo); sigue sin ser imprescindible, eso si, la especificaciónconcreta de cada ecuación. Así pues, algunos cambios en el modelo, por ejemplo la inclusión de nuevas exógenas o endógenas, podrían afectar a los
resultados de la estimación obtenidos en cada ecuación. (MCI, MC2E)- Información Completa: No se estiman los parámetros de cada ecuación por
separado, sino que se aborda la estimación conjunta de todo el modelo. Esimprescindible, por tanto, conocer la especificación detallada, concreta, decada una de las ecuaciones del modelo. Del mismo modo, cualquier cambio,por pequeño que sea, en las variables o especificación de cada ecuaciónrequerirá una nueva estimación de todos los parámetros del modelo.
Visto lo anterior, parece evidente que, desde el punto de vista analítico, la formaen la que el analista adecua el método de estimación al tipo de modeloespecificado, teniendo por tanto en cuenta esa mayor o menor presencia desimultaneidad, influye en las propiedades de los estimadores obtenidos.
Al contrario de lo que pudiera parecer, la utilización de métodos de enfoque directono es siempre una simplificación poco recomendable:
- Analíticamente:
1. Cada situación requiere la correcta selección del método de estimaciónadecuado. La utilización de métodos de información limitada o completaen modelos no simultáneos puede generar estimaciones con
indeseables propiedades analíticas. Por ejemplo, la utilización de MC2Een ausencia de simultaneidad genera estimaciones ineficientes.
2. Como se verá más adelante, ningún método de información limitada oinformación completa genera, para muestras pequeñas, estimacionesinsesgadas (cosa distinta será para muestras grandes) por lo que, enpresencia de muestras pequeñas, el hipotético beneficio derivado de suaplicación podría no compensar (1) ni el esfuerzo necesario para su
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 132/176
Estadistica Inferencial
2013
132
desarrollo ni (2) la pérdida de eficiencia respecto al, eficiente en estoscasos, MCO.
- Operativamente
1. La utilización de MCO en cada ecuación por separado resulta un test
muy valioso para evaluar, al menos preliminarmente, y aún de de formaaislada, la especificación de cada ecuación.
2. Los métodos de estimación con información limitada, y especialmentelos métodos con información completa exigen completar al 100% latarea de especificación del modelo antes de abordar su estimación.Esta cuestión complica la programación y desarrollo de tareas encualquier proyecto de análisis econométrico ya que, en realidad, losprocesos de especificación, estimación y contraste no se realizan deforma lineal, sino que suelen abordarse como un “todo”, con frecuentes“vueltas atrás” y replanteamientos en cada una de los etapas.
3. Los métodos de estimación con información completa o limitada soncomplejos de desarrollar (generalmente implican métodos deestimación no lineal) exigiendo amplios recursos para la obtención de laestimación.
4. Por otro lado, estos métodos exigen importantes recursos adicionalesde mantenimiento y uso (cualquier cambio en una parte exige laactualización y revisión del modelo en su conjunto).
5. La utilización de métodos de estimación simultánea favorece elcontagio de todo el modelo ante problemas de especificación aisladosen una ecuación.
Por todo lo anterior, puede entenderse que, en la práctica, los modelosmultiecuacionales se estiman en muchas ocasiones con métodos de enfoquedirecto aunque en puridad analítica puedan ser recomendables métodos deinformación limitada o completa. La rapidez, la sencillez y flexibilidad deactualización, mantenimiento y uso de modelos estimados con enfoques directoscompensan en ocasiones unas imprecisiones analíticas que, frecuentemente, ypara muestras pequeñas, no son muy significativas.
II.- Mínimos Cuadrados Ordinarios
La aplicación de MCO en un sistema de ecuaciones sin simultaneidad genera (enausencia de otros problemas de especificación individual de cada ecuación)estimaciones insesgadas, consistentes y eficientes en tanto que su utilización enmodelos con simultaneidad (y, por tanto, con riesgo de regresores estocásticoscorrelacionados con las perturbaciones aleatorias) no garantiza la insesgadez
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 133/176
Estadistica Inferencial
2013
133
(riesgo de estimaciones sesgadas) ni la consistencia (el sesgo no sólo se presentaen muestras pequeñas sino que se mantiene para muestras grandes).
Así pues, y más allá de los matices prácticos anteriormente señalados queparecen apoyar las “ventajas relativas” de la utilización de estimadores directos, lo
cierto es que el estimador MCO sólo es analíticamente recomendable paramodelos sin simultaneidad o recursivos (también llamados triangulares1).
Efectivamente, en este tipo de modelos las endógenas que actúan comoexplicativas en las ecuaciones no estarán relacionadas con las perturbaciones delas mismas lo cual impide que se generen problemas de sesgo en la estimación.(Se recomienda estudiar el ejemplo mencionado a pie de página2)
III.- Mínimos Cuadrados Indirectos
En presencia de simultaneidad, una primera estrategia para resolver losindeseables efectos derivados de la aplicación directa de MCO (sesgo einconsistencia) es la utilización de la estrategia de estimación conocida como MCI.
La utilización de MCI se realiza en dos pasos:
1. Se determina la forma reducida de cada ecuación, y se estiman conMCO los parámetros de la forma reducida (parámetros “π”) para cadaecuación en lugar de estimar los parámetros de su forma estructural.(parámetros “β” y “γ”).
2. Una vez estimados estos parámetros “π”, se determinan los parámetros“β” y “γ” de la forma estructural a partir de la solución al sistema deecuaciones que determina la relación aritmética entre unos y otros.
*1*
B B
El método de estimación supone, efectivamente, un enfoque de informaciónlimitada. Para la estimación de cada ecuación no resulta necesario conocer eldetalle de la especificación del resto de las ecuaciones, si bien se requieredisponer de la “lista” de variables endógenas y exógenas del modelo en suconjunto (de otro modo resuelta imposible determinar la forma reducida de cadaecuación y su identificabilidad).
Ventajas:
1 La denominación de triangulares hace referencia a la forma necesariamente “triangular” de la matriz de
coeficientes “gamma” de este tipo de modelos. 2 Gujarati, N. (2003). Pg. 737
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 134/176
Estadistica Inferencial
2013
134
1. En la forma reducida de las ecuaciones todos los regresores (variablesdel lado derecho) son exógenas, es decir, no existen regresoresestocásticos (o al menos, no existen regresores estocásticosprovocados por la simultaneidad del modelo)3.
2. Por tanto, la estimación con MCO de los parámetros “π” sería
analíticamente adecuada. En concreto, las estimaciones MCO de estosparámetros de la forma reducida serían siempre consistentes. Además,y aunque no entraremos en detalle, puede garantizarse la insesgadez yla eficiencia asintótica de estas estimaciones en buena parte de lassituaciones analíticas más comunes.4
3. Al abordarse por separado la estimación de cada ecuación se evitan losinconvenientes ya comentados derivados de la aplicación de métodossimultáneos.
Limitaciones:
1. Una primera de orden general se refiere al tamaño muestral y alnúmero de regresores exógenos. Debe observarse que la aplicación deMCI requiere la estimación de las ecuaciones en la forma reducida locual sólo es posible si el número de datos excede el de exógenas (n>k).Esto no siempre sucede, en especial si los modelo son grandes(muchas ecuaciones) y, por tanto, implican un número considerable devariables exógenas que, con relativa facilidad, suele superar el tamañomuestral.
2. Conviene no perder de vista el objetivo final de la estimación que,evidentemente, consiste en obtener los parámetros de la formaestructural, no los de la forma reducida. Así pues, la aplicación de estemétodo para la estimación de los parámetros de cada ecuación implicaque las ecuaciones deben ser exactamente identificables ya que, deotro modo, no puede obtenerse una solución única para los parámetros“β” y “γ” a partir de las estimaciones de los parámetros “π”.
3. Los parámetros “β” y “γ” se obtienen como funciones continuas de losparámetros estimados “π”. Si bien los parámetros “π” estimados por MCO presentan buenas propiedades, no se garantiza que losparámetros de la forma estructural, generalmente funciones no linealesde los primeros, “hereden” esas buenas propiedades. En concreto, se
3 No debe obviarse que, más allá de la cuestión de la simultaneidad del modelo multiecuacional, una
determinada ecuación puede tener un problema de regresores estocásticos que nada tengan que ver con elmodelo multiecuacional. Por ejemplo, en una regresión puede aparecer como explicativa la endógenaretardada (que en términos del modelo multiecuacional se consideraría exógena) o una exógena puede presentar claros problemas de sesgo de medida … en estos dos casos, el modelo podría presentar problemas
derivados de la aparición de regresores estocásticos que nada tendrían que ver con la presencia o ausencia desimultaneidad en el modelo.
4 En concreto, puede demostrarse que para que estas dos propiedades se cumplan resulta necesario evitar endógenas desplazadas en la especificación y garantizar, así mismo, una clara distribución normal de las
perturbaciones aleatorias.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 135/176
Estadistica Inferencial
2013
135
demuestra que estos parámetros heredan las propiedades asintóticas(consistencia y eficiencia asintótica) pero no las de las muestraspequeñas (eficiencia en muestras pequeñas o insesgadez). Así pues,cuando se trabaja con muestras pequeñas (lo cual resulta relativamentehabitual), debe saberse que las estimaciones con MCI seguirán siendosesgadas e ineficientes.
4. Al utilizar MCI no dispondremos, al menos fácilmente5, de la desviacióntípica estimada de los parámetros, una información que, comosabemos, resulta imprescindible para poner en marcha cualquier contraste de hipótesis relativa a estos parámetros. Evidentemente,podemos estimar la varianza de los parámetros “π”, pero no así la delos parámetros estructurales “β” y “γ” ya que, en realidad, no estimamosla ecuación estructural sino la reducida y, por lo tanto, no contamoscon una estimación de los residuos asociados a la perturbaciónaleatoria estructural “U”. Sin esos residuos y la correspondientevarianza estimada de la perturbación aleatoria no podemos computar las varianzas de los parámetros.
IV.- Mínimos Cuadrados en dos Etapas (MC2E)
En presencia de simultaneidad, una segunda estrategia para resolver losindeseables efectos derivados de la aplicación directa de MCO (sesgo einconsistencia) es la utilización de la estrategia de estimación conocida comoMC2E.
El procedimiento consiste en utilizar MCO sobre la forma estructural pero, antes deello, reemplazar los valores reales originales de las variables explicativas de cadaecuación (es decir, las endógenas que aparecen en el lado derecho de cadaecuación) por sus valores MCO estimados en la forma reducida (de otro modo, nopodríamos plantear la estimación de la forma reducida).
Para ilustrar el procedimiento operativo de MC2E, supongamos el siguientemodelo simultáneo con 2 ecuaciones:
iiiii
iiiii
U Y X X Y
U Y X X Y
21213231212
12122121111
5 Gujarati (Econometría, 2003, 4º Edición, pg. 743) señala que no resulta sencillo estimar estas desviacionestípicas a partir de las desviaciones obtenidas para los parámetros de la forma reducida y sólo cabe unadeterminación aproximada para muestras grandes.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 136/176
Estadistica Inferencial
2013
136
Para la primera ecuación, antes de proceder a la estimación directa con MCO,reemplazamos los valores originales de la variable Y2i (un regresor estocásticopotencialmente relacionado con U1i) por una estimación obtenida aplicando MCOsobre su forma reducida, es decir:
iiiii
iiii
iiiii
V X X X Y
X X X Y
V X X X Y
23232221212
3232221212
23232221212
ˆˆˆˆ
ˆˆˆˆ
Así, pues, la ecuación a estimar sería ahora:
iiiiii U V Y X X Y 122122121111ˆˆ
o lo que es igual,
iiiiii V U Y X X Y 21212122121111ˆˆ
Como puede observarse, estamos nuevamente ante una estimación coninformación limitada ya que, nuevamente, no necesitamos conocer laespecificación concreta de cada ecuación pero sí la lista de regresores (X) yendógenas (Y) del modelo.
Ventajas:
1. De nuevo, como ya ocurriera con MCI, se aborda la estimación aisladade cada ecuación lo que, operativamente, supone una ventaja y evita elcontagio a todo el modelo de los errores presentes en una ecuación.
2. La utilización de los valores estimados de las explicativas evita lapresencia de regresores estocásticos relacionados con la perturbaciónaleatoria; las variables explicativas originales son aleatorias pero susvalores estimados procedentes de la forma reducida no lo son6.
3. Así pues, en principio cabe pensar que la utilización de estimadoresMC2E en presencia de simultaneidad produce estimaciones
6 Esto es, en realidad, mentira. Es cierto que el valores estimado de las explicativas no depende de la perturbación aleatoria “V” sino exclusivamente de regresores deterministas “X”. Sin embargo, debe
observarse que esas estimaciones son, efectivamente, combinaciones lineales de las exógenas “X” pero
también de los parámetros estimados para “π”. Los parámetros reales poblacionales “π” no son variablesaleatorias pero sus estimaciones sí lo son. Así pues, en realidad la estimación de las endógenas a partir de laforma reducida es también aleatoria y probablemente correlacionada con la nueva perturbación aleatoriatransformada de la ecuación estructural. Sin embargo, puede demostrarse que esa relación es ya indirecta y siexiste, muy leve y, por tanto, con escasos efectos (o nulos para muestras grandes) sobre las estimacionesMCO de la nueva forma estructural.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 137/176
Estadistica Inferencial
2013
137
consistentes (es decir, evita el problema de los regresoresestocásticos). No obstante, como ya ocurriera con MCI, la insesgadez yla eficiencia sólo se lograrán para muestras grandes, sin que puedagarantizarse para estimaciones con conjuntos de datos reducidos.
4. Sin embargo, además de compartir con MCI estas buenas propiedadesasintóticas, la estimación MC2E presenta ventajas adicionales:
a. Resulta más sencillo de aplicar dado que no tenemos queresolver el sistema de ecuaciones de la segunda etapa de MCI;el método sólo requiere dos sencillas estimaciones sucesivaspor MCO.
b. No requiere que la ecuación sea exactamente identificable;puede utilizarse también por tanto para ecuacionessuperidentificables.
c. Es más robusto que el método MCI ante problemas deespecificación o multicolinealidad en las ecuaciones.
d. Aunque en muestras pequeñas las ventajas de ambosestimadores se desvanecen, se ha demostrado que, en estoscasos, el comportamiento de MC2E es relativamente mejor queel de MCI.
e. En contraste con MCI, la aplicación de MC2E sí permitedisponer de una estimación de las varianzas de los parámetros.Efectivamente, en la segunda etapa realizamos una estimaciónde los parámetros estructurales “β” y “γ” y, por tanto,
disponemos de unos residuos7 derivados de esta estimaciónque nos permiten calcular las desviaciones típicas de losparámetros estimados.
Limitaciones:
1. Como ya ocurriera con MCI, el procedimiento de MC2E exige laestimación de la forma reducida de cada ecuación lo cual sólo esposible si n>k.
7 En realidad, y continuando con el ejemplo utilizado previamente, debe observarse que, para la primera
ecuación, contamos con una estimación de la perturbación “transformada”iii V U U 2121
*
1ˆ que no
corresponde exactamente a la perturbación original “U1i”. Un procedimiento que permite aproximar el residuo
correspondiente a la perturbación original consiste en recalcular los residuos de cada ecuación utilizando los parámetros estimados en MC2E pero aplicados sobre los datos reales de Y i, no sobre sus estimaciones de laforma reducida (es decir, usar las estimaciones de la forma reducida para el cómputo de los parámetros, perono para el cálculo de los residuos).
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 138/176
Estadistica Inferencial
2013
138
V.- UN breve apunte sobre Mínimos Cuadrados en tres Etapas(MC3E)
Como ya se ha dicho anteriormente, en los modelos multiecuacionales puedeexistir relación entre perturbaciones aleatorias correspondientes a distintasecuaciones; de hecho, la presencia de simultaneidad entre las ecuaciones delmodelo se manifiesta, necesariamente, en la existencia de relaciones entreperturbaciones. Así, por ejemplo, considere el modelo utilizado previamente en unejemplo:
iiiii
iiiii
U Y X X Y
U Y X X Y
21213231212
12122121111
En este modelo, resulta clara la siguiente cadena causal:
0),(0),( 0),( 121211 iiiiii U Y CovY Y Cov yU Y Cov
y dado que:0),( 22 ii U Y Cov
entonces:
0),( 21 ii U U Cov
Efectivamente, tal y como se indicó en la introducción y formulación de losmodelos multiecuacionales, dado que la simultaneidad es una característica casiesencial de un sistema multiecuacional, debe considerarse analíticamente laposible existencia de relaciones entre perturbaciones aleatorias de distintasecuaciones. Esa relación, en todo caso, debía ser contemporánea y constantepara “i”; hablábamos así de “homocedasticidad interecuacional”.
Precisamente denominábamos Σ a la matriz que contenía, en su diagonalprincipal, las varianzas homocedásticas de la perturbación de cada ecuación y,
fuera de la diagonal principal, las covarianzas contemporáneas y constantes entreperturbaciones de distintas ecuaciones.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 139/176
Estadistica Inferencial
2013
139
gg
g
iii U U E U Cov
2221
11211
'
Aunque tanto MCI como MC2E consideran la existencia de simultaneidad en losmodelos multiecuacionales y tratan de evitar los potenciales efectos negativos deuna estimación MCO directa, lo cierto es que ninguno de los dos métodosconsidera de forma explícita, en el cálculo de los parámetros, la relación entre lasperturbaciones aleatorias de las distintas ecuaciones. La característica diferencialdel método de estimación MC3E es, precisamente, la de integrar explícitamente elcálculo de esa relación en el proceso de estimación de los parámetros.
La aplicación específica del método exige, como es lógico, disponer de una
estimación previa de Σ, una estimación que se deriva de la estimación previa delmodelo mediante MC2E. Así pues, las dos primeras etapas del método MC3E son,en realidad, coincidentes con MC2E.
Una vez estimadas las ecuaciones de forma individual con MC2E, se utilizan losresiduos de cada ecuación para estimar varianzas y covarianzas de la matriz Σ.
En el último de los pasos, y una vez que disponemos de esa matriz Σ, la ideaconsiste en aplicar MCG sobre el modelo en su forma estructural. Para ello, y dadoque debe abordarse la estimación conjunta de todos los parámetros del modelo,se “rediseñan” las matrices de datos, tanto en lo que se refiere al “lado izquierdo”
del modelo (los valores de las endógenas de todas las ecuaciones) como en loque se refiere al lado derecho (valores de las exógenas y de las endógenasexplicativas de cada ecuación). Este “rediseño” de las matrices del modelo trata,insistimos, de poder estimar los parámetros de forma simultánea, introduciendo enese cálculo, la información contenida en la matriz de relaciones entreperturbaciones Σ. Dado que el objeto de este documento no es otro que situar deforma muy general las características diferenciales del método MC3E, no sedetalla la forma en que han de “apilarse” las matrices originales, pero puedeencontrarse una referencia detallada al procedimiento en el libro “ModelosEconométricos” de Antonio Pulido (Ed. Pirámide), en cualquiera de sus versiones.
Ventajas:
1. La estimación con MC3E no supone claras diferencias en términos desesgo y consistencia si bien mejora la eficiencia asintótica de losestimadores respecto a MC2E siempre y cuando persistan relacionessignificativas entre las perturbaciones aleatorias.
Limitaciones:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 140/176
Estadistica Inferencial
2013
140
1. La primera y más evidente es que el procedimiento es algo másengorroso que el necesario para la aplicación de MCI y MC2E, es decir,como ya se dijera en la introducción, consume muchos más recursosque la aplicación de los otros métodos
2. El segundo inconveniente reside en la estimación conjunta de todos los
parámetros. Esta estimación conjunta requiere que la especificaciónesté perfectamente determinada para todas las ecuaciones del modelo.
3. Por otro lado, si bien la matriz Σ sirve como vínculo entre ecuacionespara representar la simultaneidad de una forma bien elaborada,también sirve de vía de contagio e los errores presentes en cadaecuación. Es decir, los errores de especificación o de medición dedatos no sólo afectan a la ecuación en la que se localizan sino que, encierta medida, también al resto de parámetros del modelo. Por esemotivo, este tipo de método de estimación simultáneo resultaespecialmente indicado para modelos con escaso riesgo de
especificación (ya contrastados por experiencias previas) y con datosconfiables.
4. Además, puede comprobarse analíticamente que la estimaciónmediante MC3E, en concreto la necesidad de invertir la matriz Σ ,requiere que el número de datos exceda al de ecuaciones (n>g) por loque no puede utilizarse en modelos con numerosas ecuaciones. ;por otro lado, antes de llevar a cabo la última etapa de MC3E, la estimaciónprevia MC2E exige que (n>k). En definitiva, y supuesta la limitaciónhabitual de las muestras (“n” moderado o pequeño), el método sólopuede aplicarse en modelos “pequeños”, es decir, con pocasecuaciones (g) y pocas exógenas (k).
5.1.-Prueba de Z para diferencia entre dos proporciones
Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de doso más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Laspruebas se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporciónverdadera de la población si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse enla diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La
diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que esrealmente verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras,
los datos muestrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones sepueden utilizar para evaluar afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y
3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para tamaños grandes de muestras, ladistribución de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede enel caso de pruebas de medias de una y dos muestras.
Prueba de proporciones de una muestraCuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 141/176
Estadistica Inferencial
2013
141
Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De estemodo, los valores estadísticos de prueba miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambaspruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la formacorno se obtiene la desviación estándar de la distribución de muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significación seleccionado.
Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.
La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.
Ejemplo ilustrativo
En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025,respecto a la alternativa de que la proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestraaleatoria de 600 estudiantes universitarios revela que 200 de ellos t rabajan. La muestra fue tomada de 10000 estudiantes.
Los datos son:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 142/176
Estadistica Inferencial
2013
142
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5%. Se remplaza valoresen la siguiente fórmula:
Los cálculos en Excel se muestran en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 143/176
Estadistica Inferencial
2013
143
El gráfico elaborado en Winstats y Paint se muestra a continuación:
Decisión:
Prueba de proporciones de dos muestrasEl objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cualespresentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferenciadividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotanúnicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0).El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 esaceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.
La hipótesis nula en una prueba de dos muestras es
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 144/176
Estadistica Inferencial
2013
144
5.2.-Prueba de Z para la diferencia entre proporciones
Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que delparalelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nuevaenseñanza de la Estadística es la misma en los dos paralelos?.
Los datos son:
Las hipótesis son
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 145/176
Estadistica Inferencial
2013
145
Calculando la proporción muestral se obtiene:
Los cálculos en Excel se muestran en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 146/176
Estadistica Inferencial
2013
146
El gráfico elaborado en Winstats y Paint se muestra a continuación:
Decisión:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 147/176
Estadistica Inferencial
2013
147
Prueba de proporciones de k muestrasLa finalidad de una prueba de k muestras es evaluar l a aseveración que establece que todas las k muestras independientes provienen depoblaciones que presentan la misma proporción de algún elemento. De acuerdo con esto, las hipótesis nula y alternativa son
En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con frecuencias observadas "o"(las que se observa directamente) yfrecuencias esperadas o teóricas "e" (las que se calculan de acuerdo a las leyes de probabilidad).
Por lo tanto el valor estadístico de prueba para este caso es la prueba ji cuadrado o conocida también como chi cuadrado
Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que depende del número de gradosde libertad asociados a un determinado problema.
Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a partir de una tabla de ji cuadrado, se debeseleccionar un nivel de significación y determinar los grados de libertad para el problema que se esté resolviendo.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 148/176
Estadistica Inferencial
2013
148
Ejemplos ilustrativos:
Determine el número de grados de libertad y obtenga el valores crítico en el niveles 0,05 se significación.
Solución:
Los grados de libertad se calculan aplicando la fórmula:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 149/176
Estadistica Inferencial
2013
149
Los cálculos en Excel se muestran en la siguiente figura:
2) La siguiente tabla muestra las frecuencias observadas y las frecuencias esperadas al lanzar un dado 60 veces. Contrastar la hipótesis deque el dado es bueno, con un nivel de significación de 0,01.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 150/176
Estadistica Inferencial
2013
150
Cara del dado 1 2 3 4 5 6
Frecuencia observada 6 8 9 15 14 8
Frecuencia esperada 10 10 10 10 10 10
Solución:
Los cálculos en Excel se muestran en la siguiente figura:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 151/176
Estadistica Inferencial
2013
151
El gráfico elaborado en Winstats y Paint se muestra a continuación:
Decisión:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 152/176
Estadistica Inferencial
2013
152
5.3.-Prueba para la diferencia de n proporciones
Pruebas de hipótesis de una y dos muestras
Al terminar la unidad usted podrá:
Hipótesis estadísticas
Muchas veces, el problema al que se enfrenta un científico, ingeniero , o profesional, no es tanto la estimaciónde un parámetro poblacional, sino más bien la formación de un procedimiento de decisión que se base en lainformación proporcionada por la muestra. El profesional o ingeniero postula o conjetura algo acerca del valor que puede asumir cierto parámetro
Una hipótesis estadística es una aseveración o conjetura con respecto a una o más poblaciones
La verdad o falsedad de una hipótesis estadística, nunca se sabe con certeza, a menos que se examine todala población. En su lugar, se toma una muestra aleatoria de esa población de interés y se utiliza la informaciónde la muestra para proporcionar evidencias que apoyen o no la hipótesis.La evidencia de la muestra que es consistente con la hipótesis conduce al no rechazo de la hipótesis,mientras que si es inconsistente con la hipótesis conduce al rechazo de la misma.Debe quedar claro que la aceptación de una hipótesis implica que los datos de la muestra no dan la suficienteevidencia para rechazarlaGeneralmente el científico se interesa en apoyar con fuerza una opinión, por lo tanto desea llegar a la opiniónen forma de rechazo
Ejemplo 6.1 Si un investigador en medicina desea mostrar fuertes evidencias a favor de que el fumar aumenta el riesgo de contraer cáncer, la hipótesis a probar debe ser de la forma “no hay aumento en elriesgo de contraer cáncer como producto de fumar” Como resultado, seguramente la opinión se alcanza por medio de un rechazo.
La estructura de la prueba de hipótesis se formula con el uso de una hipótesis nula, que se denota con Ho yes la hipótesis a probar. El rechazo de Ho conduce a la aceptación de la hipótesis alternativa H1Una hipótesis nula siempre se establece de modo que el parámetro asuma un valor exacto
5.4.-Prueba de independencia
PRUEBA DE INDEPENDENCIA
En el análisis de independencia se considera que la muestra, una vez escogida, se clasifica según los criteriosde interés; por ello se supone que las muestras provienen de una población.
En las aplicaciones estadísticas es frecuente interesarse en calcular si dos variables de clasificación, ya seacuantitativa o cualitativa, son independientes o si están relacionadas. En situaciones como las siguientes, se
puede estar interesado en determinar si dos variables están relacionadas:
¿Están relacionados los hábitos de lectura con el sexo del lector?¿Están relacionadas las calificaciones obtenidas con el número de faltas?¿Es independiente la opinión sobre la política exterior de la política partidista?¿Es independiente el sexo de una persona de su preferencia en colores?¿Está relacionado el sexo con tener una educación universitaria?¿Están relacionadas las enfermedades del corazón con el tabaquismo?
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 153/176
Estadistica Inferencial
2013
153
¿Son independientes el tamaño de una familia y el nivel de educación de los padres?¿Está relacionado el desempleo con el incremento de la criminalidad?¿El precio está asociado con la calidad de un producto electrodoméstico?¿El estado nutricional esta asociado con el desempeño académico?
Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectanentre si; esto es que no están relacionadas o asociadas.
Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y distribuye tres tiposde cerveza: ligera, clara y oscura. En un análisis de segmentación de mercado para las tres cervezas, el grupode investigación encargado ha planteado la duda de si la preferencia para las tres cervezas es diferente entrelos consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género delconsumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin embargo, si la
preferencia depende del género del consumidor, se ajustarían las promociones para tener en cuenta losdistintos mercados meta.Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera, clara y oscura) esindependiente del genero del consumidor (hombre, mujer). Las hipótesis para esta prueba de independenciason:
Ho: La preferencia de la cerveza es independiente del género del consumidor
Ha: La preferencia de la cerveza no es independiente del género del consumidor
Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de identificar a la población,consumidores hombres y mujeres, se puede tomar una muestra y preguntar a cada persona que diga su
preferencia entre las cervezas modelo.Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por ejemplo una persona puedeser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que prefiere la cerveza ligera [celda (2,1)], unamujer que prefiere la cerveza oscura [celda (2,3)] y así sucesivamente. Como en la lista aparecen todas lascombinaciones posibles de predilección de cerveza y género, en otras palabras aparecen todas lascontingencias posibles, a la tabla se le llama tabla de contingencia.
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de cerveza. Después desaborear cada una, se les pide expresar su preferencia o primera alternativa. La tabulación cruzada de lasiguiente tabla 2 resume las respuestas obtenidas. Observamos que, los datos para la prueba de independenciase agrupan en términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas de lamuestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la cervezaclara, 20 fueron hombres que prefirieron la cerveza oscura, y así sucesivamente.Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o categorías.
Cerveza preferida
GéneroLigera Clara Oscura Total
Hombre 20 40 20 80Mujer 30 30 10 70Total 50 70 30 150
Cerveza preferidaLigera Clara Oscura
Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)Mujer Celda (2,1) Celda (2,2) Celda (2,3)
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 154/176
Estadistica Inferencial
2013
154
Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia entre la preferencia decerveza y el género del consumidor, podemos usar la distribución ji cuadrada para determinar si existe unadiferencia significativa entre la frecuencia observada y la esperada.Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el siguiente razonamiento.Primero suponemos que es verdadera la hipótesis nula, de independencia entre la cerveza preferida y elgénero del consumidor. A continuación observamos que en toda la muestra de 150 consumidores, hay 50 que
prefieren la cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la conclusión esque de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la clara y 30/150 = 1/5la oscura. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y mujeres. Así bajo la hipótesis de independencia, esperaríamos que lamuestra de 80 consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70 consumidoras mujeres
produce las frecuencias esperadas que aparecen en la tabla.
Sea la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencia. Conesta notación reconsideremos el cálculo de la frecuencia esperada para los hombres (renglón i = 1) que
prefieren la cerveza clara (columna j = 2) esto es, la frecuencia esperada . Apegándonos al esquemaanterior para el cálculo de las frecuencias esperadas, podemos demostrar que
= (7/15) 80 = 37.33Esta ecuación se puede escribir como sigue
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad total de individuos(hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y 150 es el tamaño de la muestratotal. En consecuencia vemos
Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias esperadas de una tabla decontingencias para la prueba de independencia.
Frecuencias esperadas en la tabla de contingencia suponiendo independencia
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece alos cálculos de bondad de ajuste.
Específicamente, el valor de basados en
ije
2,1e
2,1e
2,1e
muestraladetamaño
columnaladetotal renglóndel total e
)2()1(2,1
muestraladetamaño
jcolumnaladetotal irenglóndel Total eij
)()(
2 Cerveza preferida
GéneroLigera Clara Oscura Total
Hombre 26.67 37.33 16.00 80Mujer 23.33 32.67 14.00 70Total 50.00 70.00 30.00 150
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 155/176
Estadistica Inferencial
2013
155
las frecuencias observadas y esperadas se calcula como sigue:
Oi = Valor observado en la i-ésimo celda.Ei = Valor esperado en la i-ésimo celda.K = Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene una distribución jicuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más paratodas las categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada.
Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia de cerveza esindependiente del género de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina multiplicando lacantidad de renglones menos 1 por la cantidad de columnas menos 1. Como tenemos dos renglones y tres
columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2 grados de libertad para la prueba de independencia entre
cerveza y género del consumidor. Con = .05 como nivel de significancía de la prueba, buscamos en la
tabla de ji cuadrada y nos da un valor = 5.99. Observe que estamos usando el valor de la colasuperior, porque rechazaremos la hipótesis nula sólo si las diferencias entre frecuencias observadas y
esperadas producen un valor grande de . En el ejemplo =6.13 es mayor que = 5.99. Por consiguiente, rechazaremos la hipótesis nula de independencia y concluimos que la cerveza preferida no esindependiente del género del consumidor, es decir, la preferencia para las tres cervezas es diferente entre losconsumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a los consumidores
para ajustar las promociones y la publicidad, teniendo en cuenta estas diferencias.
2
05.
2 2 2
Género CervezaHombre ligera 20 26.67 -6.67 44.4889 1.66812523Hombre clara 40 37.33 2.67 7.1289 0.19096973Hombre Oscura 20 16 4 16 1Mujer ligera 30 23.33 6.67 44.4889 1.90693956Mujer clara 30 32.67 -2.67 7.1289 0.21820937Mujer Oscura 10 14 -4 16 1.14285714
6.12710104
o f e f )( eo f f 2)( eo f f ijeo e f f /)( 2
2
k
i e
eo
i
ii
f
f f
1
2
2
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 156/176
Estadistica Inferencial
2013
156
5.5.-Prueba de contingencia
PRUEBAS NO PARAMÉTRICAS
Distribución chi-cuadrada ( 2)
La distribución chi cuadrada es toda una familia de distribuciones. Existe una distribución chi-cuadrada paracada grado de libertad. La Figura 1 muestra que a medida que se incrementan los grados de libertad ladistribución se vuelve menos sesgada. Las aplicaciones más comunes de la distribución chi-cuadrada son (1)
pruebas de bondad de ajuste y (2) pruebas de independencia.
A. Pruebas de bondad de ajuste
Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de distribución particular planteada como hipótesis. Si el ajuste es razonablemente cercano, puede concluirse que si existe la forma dedistribución planteada como hipótesis.
Prueba chi-cuadrada
k
1 i
i
2
i i 2
E
E O (1.1)
donde k : Número de categorías o clasesk-m-1: grados de libertad donde m es el número de parámetros a estimar.
1.Prueba para un ajuste uniforme. Juan Pérez, director de Mercadeo de Alden de Juárez, tiene laresponsabilidad de controlar el nivel de existencias para cuatro tipos de automóvil vendidos por la firma. Enel pasado, ha ordenado nuevos automóviles bajo la premisa de que los cuatro tipos son igualmente populares
y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más difícilesde controlar, y Juan considera que debería probar su hipótesis respecto a una demanda uniforme. Sus hipótesisson:
H 0: La demanda es uniforme para los cuatro tipos de autos. H 1: La demanda no es uniforme para los cuatro tipos de autos.
La Tabla 1.1 muestra la expectativa uniforme para una muestra de 48 autos vendidos durante el último mes
Tabla 1.1 Registro de Ventas de Alden de Juárez Tipo de auto Ventas observadas Ventas esperadas
Ka 15 12Fiesta 11 12
Focus 10 12Clio 12 12
17 .1
12
12 12
12
12 10
12
12 11
12
12 15 2 2 2 2
2
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 157/176
Estadistica Inferencial
2013
157
Debido a que no hay parámetros que estimarse el número de grados de libertad es k-1 = 3 grados de libertad.Si Juan deseara probar al nivel del 5%, se encontraría, como lo muestra la Figura 1.2, que
815 .7 2
3 ,05 .0
Regla de decisión: " 815 .7 2
.815 .7 2
" siRechazar sirechazar No
Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se rechaza.
B.Tablas de contingencia. Una prueba de independencia
La distribución chi-cuadrada también permite la comparación de dos atributos para determinar si existe unarelación entre ellas.
Ejemplo. Paty Alvarado es la directora de investigación de Plaguicidas de Juárez. En su proyecto actual Patydebe determinar si existe alguna relación entre la clasificación de efectividad que los consumidores asignan aun nuevo insecticida y el sitio (urbano o rural) en el cual se utiliza. De los 100 consumidores a quienes se leaplicó la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales. La Tabla 1.2 resume las clasificacioneshechas por los consumidores.
Tabla 1.2 Tabla de contingencia de Plaguicidas de JuárezClasificación Urbano Rural Total
Arriba del promedio 2023.3
117.75
31
Promedio 4036
812
48
Debajo del promedio 1515.8
65.25
21
Total 75 25 100
H 0: La clasificación y la ubicación son independientes. H 1: La clasificación y la ubicación no son independientes.
76 .3
25 .5
2 25 .5 6
8 .15
2 8 .15 15
12
2 12 8
36
2 36 40
75 .7
2 75 .7 11
3 .23
2 3 .23 20 2
La prueba tiene (r – 1)(c – 1) = (3 -1)(2 – 1) = 2 grados de libertad. Si Paty fija = 10%,
605 .4 2
2 ,10 .0 , la hipótesis nula no se rechaza.
Prueba del signo
Una prueba no paramétrica utilizada comúnmente para tomar decisiones en relación a diferencias entre poblaciones como contraparte de la distribución t , la cual requiere el supuesto de normalidad de ambas poblaciones. La prueba de signos es útil cuando no se cumple este supuesto.
Se supone que se tienen datos antes y después para una muestra y se desean comparar estos conjuntos dedatos correspondientes. Se hace restando las observaciones por pares, y se anota el signo algebraicoresultante. No es importante la magnitud de la diferencia, sino solo si resulta un signo más o un signo menos.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 158/176
Estadistica Inferencial
2013
158
La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto, entonces unsigno más y un signo menos son igualmente probables. La probabilidad de que ocurra cualquiera es de 0.50.Una prueba de dos extremos es:
H 0: m = p
H 1: m p
en donde m y p son los números de signos menos y de signos más, respectivamente. Una prueba de un soloextremo es:
H 0: m = p
H 1: m > p
o
H 0: m = p
H 1: m < p
Ejemplo. Un analista de mercado desea medir la efectividad de una campaña promocional del producto de suempresa. Antes de la campaña, selecciona 12 tiendas minoristas y registra las ventas del mes. Durante elsegundo mes se termina la campaña promocional y se registran de nuevo las ventas. La Tabla 1.3 muestra losniveles de ventas, junto con el signo algebraico que resulta cuando las ventas del segundo mes se restan de lasdel primer mes.
Tabla 1.3 Ventas para doce tiendas minoristasTienda Antes Después Signo
1 $4200 $4000 +2 $5700 $6000 -3 $3800 $3800 04 $4900 $4700 +5 $6300 $6500 -6 $3600 $3900 -7 $4800 $4900 -8 $5800 $5000 -9 $4700 $4700 0
10 $5100 $5200 -11 $8300 $7200 +12 $2700 $3300 -
Se desea probar la hipótesis de que la promoción incrementó las ventas con un nivel de significancia del 5%.Esta es una prueba de extremo derecho, como se muestra enseguida:
H 0: m p
H 1: m > p
Pregunta: ¿Qué haría que se rechazara la hipótesis nula?1) un número significativamente grande de signos menos2) un número significativamente pequeño de signos más
Número de signos menos = 6 Número de signos más = 4Los valores que resultan en una diferencia de cero se eliminan.La Tabla de Distribución Binomial establece que la probabilidad de seis o más signos menos es:
3770 .0
6230 .0 1
) 5 X ( P 1 ) 5 .0 ,10 n | 6 m ( p
Este valor de 0.3770 es la probabilidad de obtener seis o más signos menos ( o cuatro o menos signos más)si la probabilidad de ocurrencia de cualquier signo es de = 0.5. Se nota que si el número de signos menosfuera inusitadamente grande, se rechazaría la hipótesis nula. Sin embargo, 6 no es un número grande. La
probabilidad de su ocurrencia es mayor que un de 0.5%, el evento de 6 signos menos no se considera
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 159/176
Estadistica Inferencial
2013
159
grande, y la hipótesis nula de que H 0: m p no se rechaza, por lo tanto no se puede considerar que la promoción haya sido exitosa.
Valor de Z para prueba del signo con muestras grandes (n 30 )
n 5 .0
n 5 .0 5 .0 k Z
La prueba de rachas
Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las cuales se confía son de pocouso o de ningún uso. Para comprobar la aleatoriedad se utiliza una prueba de rachas.
Prueba de rachas. Prueba no paramétrica de aleatoriedad en el proceso de muestreo.
Racha. Una serie continua de uno o más símbolos.
Ejemplo. Suponga que se seleccionan los empleados para un programa de entrenamiento. Si la selección nodepende de si el empleado es de sexo masculino (m) o femenino ( f ), se esperaría que el género fuera un evento
aleatorio. Sin embargo, si se detecta algún patrón en el género, se puede asumir que la aleatoriedad estáausente y que la selección se hizo, por lo menos en parte, con base en el género de un trabajador. Si existe unnúmero inusualmente grande o inusualmente pequeño de rachas, se sugiere un patrón. Así, por ejemplo
_____________________________________________ mmm ffffff mmm
_____________________________________________
1 2 3 _____________________________________________
Tres rachas existen en esta muestra. Tres hombres , seguidos de seis mujeres y luego tres hombres.Aparentemente existe ausencia de aleatoriedad. Consideremos ahora que el orden de selección es
_______________________________________ m f m f m f m f m f m f m f m f
_______________________________________
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 _______________________________________ De nuevo, parece existir un patrón que produce un número inusualmente grande de 16 rachas independientes.
Detección de un patrón. Si se presentan muy pocas o demasiadas rachas, puede estar ausente la aleatoriedad.Un conjunto de hipótesis para probar es:
H 0: Existe aleatoriedad en la muestra. H 1: No existe aleatoriedad en la muestra.
Para probar la hipótesis se debe determinar si el número de rachas r es demasiado grande o demasiado pequeño. Las Tablas de valores críticos de r en la prueba de rachas muestran el número de rachas si es 5%.Supongamos ahora que las selecciones fueron:
__________________________________________ m fff mmm ff mmm
1 2 3 4 5 __________________________________________
Las selecciones parecen más aleatorias porque no existe patrón evidente. Se nota que n1 = 7 es el número dehombres y n2 = 5 es el número de mujeres.
La tabla M1 muestra el número crítico mínimo de rachas para un valor de de 5%.. Si el número derachas es igual o menor que el valor mostrado en la tabla M1, se sugiere que al nivel del 5% hay muy pocasrachas como para confirmar la hipótesis nula de aleatoriedad. Debido a que n1 = 7 y n2 = 5, se halla el valor
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 160/176
Estadistica Inferencial
2013
160
críticamente bajo que es 3. Debido a que el número de rachas excede este mínimo, entonces no hay unnúmero significativamente bajo de rachas como para garantizar el rechazo de la hipótesis nula. La tabla M2
proporciona valores críticamente altos para r . si el número de rachas en una muestra es igual o mayor queestos valores, se puede concluir que existe un número extremadamente grande de rachas, lo que sugiere laausencia de aleatoriedad. Para n1 = 7 y n2 = 5, la tabla M2 revela que el número máximo de rachas es 11. Si elnúmero de rachas es superior a 11, existen demasiadas como para sustentar la hipótesis de aleatoriedad.Debido a que el número de rachas es menor que 11, no es significativamente alto y no se rechaza la hipótesisnula al nivel del 5%.
Uso de la mediana como medida para bifurcar los datos
Ejemplo. Se asumen niveles de producción diarios en una mina de carbón seleccionada para un estudioestadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37, y 60 toneladas. La mediana de 37
puede utilizarse como valor de referencia. Las observaciones caen o por arriba (A) o por abajo (B) de 37, produciendo 8 rachas de:
___________________________________________________ 31 57 52 22 24 59 25 29 27 44 43 32 40 60
___________________________________________________ B A A B B A B B B A A B A A1 2 3 4 5 6 7 8
___________________________________________________ Con n1=7 para B y n2 = 7 para A, la tabla M revela valores críticos de 3 y 13 rachas. Debido a que hay 8rachas, se asume que hay aleatoriedad y no se rechaza la hipótesis nula.
Prueba U de Mann-Whitney
Es la contraparte no paramétrica de la prueba t para muestras independientes. No requiere del supuesto de quelas diferencias entre las dos muestras estén distribuidas normalmente.
Ejemplo. Suponga que una fábrica de cerámicas desea comparar el tiempo que toma a las piezas de barroenfriarse después de haber “ardido” en el horno mediante dos métodos diferentes.
Los alfareros queman 12 piezas utilizando el método 1, y 10 utilizando el método 2. El número de minutosnecesarios para que cada pieza se enfríe es el siguiente:
Método1 27 31 28 29 39 40 35 33 32 36 37 43Método 2 34 24 38 28 30 34 37 42 41 44
Tabla 1.4 Rangos de tiempos de enfriamientoMétodo 1 Rango Método 2 Rango
24 127 228 3.5 28 3.529 5
30 631 732 833 9
34 10.534 10.5
35 1236 1337 14.5 37 14.5
38 1639 1740 18
41 19
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 161/176
Estadistica Inferencial
2013
161
42 2043 21
44 22R 1=130 R 2=123
Se calcula el estadístico de Mann-Whitney para cada muestra de la ecuación, así:
52 123 2
) 1 10 ( 10 ) 10 )( 12 ( U
68 130 2
) 1 12 ( 12 ) 10 )( 12 ( U
R 2
1 n ( n n n U
R 2
) 1 n ( n n n U
2
1
2
1 1
2 1 2
1
1 1
2 1 1
Se nota que U 1+ U 2 = n1n2 proporciona un chequeo rápido de su aritmética.Media y Desviación estándar de la distribución muestral para la Prueba U de Mann-Whitney
17 .15 12
) 1 10 12 )( 10 )( 12 (
12
) 1 n n ( n n
60 2
) 10 )( 12 (
2
n n
2 1 2 1
u
2 1
u
Valor de Z para normalizar la prueba U de Mann-Whitney
u
u 1 U
Z
Prueba de dos extremos: Probar la hipótesis de que los tiempos promedio de enfriamiento de enfriamiento delmétodo 1 y del método 2 son los mismos
2 1 1
2 1 0
: H
: H
Utilizando arbitrariamente U 2, se tiene que
053 .0 17 .15
60 52 Z
Si = 10%, la regla de decisión es “ No rechazar si -1.65 Z 1.65. Rechazar si Z < -1.65 o Z > 1.65”. Como Z = -0.53 se puede concluir al nivel de significancia del 10% que los tiempos promedio deenfriamiento son los mismos para ambos métodos de cocción.
Prueba de Kruskall-Wallis
Es una prueba que compara tres o más poblaciones para determinar si existe una diferencia en la distribuciónde las poblaciones. Es análoga a la prueba F utilizada en las pruebas ANOVA. No importa la restricción deque las poblaciones tienen que estar distribuidas normalmente.
Las hipótesis son: H 0: Todas las k poblaciones tienen la misma distribución. H 1: No todas las k poblaciones tienen la misma distribución.
Ejemplo. Un nuevo gerente de Avon debe comparar el tiempo que les toma a tres clientes pagar los envíosdel nuevo producto New-Face Cream, ofrecido por la empresa. Se seleccionan aleatoriamente varias compras
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 162/176
Estadistica Inferencial
2013
162
de cada cliente, junto con el número de días que cada uno se tomó en liquidar su cuenta. Los resultadosaparecen en la Tabla 1.5.
Tabla 1.5 Número de días para pagar a Avon la entrega recibida.
ClienteCompra 1 2 3
1 28 26 372 19 20 283 13 11 264 28 14 355 29 22 316 22 217 21
Estadístico Kruskal- Wallis:
) 1 n ( 3 n
R
) 1 n ( n
12 K
i
2
i
donde ni es el número de observaciones en la i-ésima muestran es el número total de observaciones en todas las muestras. Ri es la suma de los rangos de la i-ésima muestra.
Tabla 1.6 Rangos en la prueba de Kruskall-Wallis.Días Rango Días Rango Días Rango
11 113 2
14 319 4
20 521 6.5 21 6.522 8.5 22 8.5
26 10.5 26 10.528 1328 13 28 1329 15
31 1635 1737 18
R1=62 R2=34.5 R3=74.5
Calculando el estadístico K se tiene:
18 .8 1 18 3
5
5 .74
6
5 .34
7
62
) 1 18 ( 18
12 K
2 2 2
Enseguida comparamos K con un valor crítico. La distribución de K es aproximada por una distribución chi-cuadrada con k – 1 grados de libertad. Si K excede el valor crítico de chi-cuadrada, se rechaza la hipótesisnula. En caso de seleccionar un valor de de 5% en la prueba de Avon, el valor crítico de chi-cuadrado dados
3-1 = 2 grados de libertad es 99 .5 2
2 ,05 .0 .
Regla de decisión: No rechazar si k 5.99. rechazar si k > 5.99
Como k = 18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en el tiempo que toma a tresclientes pagar sus cuentas con Avon.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 163/176
Estadistica Inferencial
2013
163
En el caso de que se rechace la hipótesis nula, el siguiente paso lógico es determinar cuáles diferencias sonestadísticamente significativas y cuales se deben a un error de muestreo. Esto involucra una comparación detodos los pares posibles. Los pasos para la comparación son los siguientes:
1. Calcular el rango promedio para cada muestra.
9 .14 5
5 .74 R
75 .5 6
5 .34 R
86 .8 7 62 R
3
2
1
2. Calcular diferencias absolutas
15 .9 | 9 .14 75 .5 | | R R |
04 .6 | 9 .14 86 .8 | | R R |
11 .3 | 75 .5 86 .8 | | R R |
3 2
3 1
2 1
3. Comparación con el valor crítico C k :
3elcon2clientedelnComparacio
3elcon1clientedelnComparacio
2elcon1clientedelnComparacio
91 .7 5
1
6
1
12
19 18 99 .5 C
65 .7 5
1
7
1
12
19 18
99 .5 C
27 .7 6
1
7
1
12
19 18 99 .5
n
1
n
1
12
1 n n C
k
k
j i
2
1 k ,k
4. Comparación de las diferencias contra los valores críticos
diferenciaexistesi3y2entrey
difierenno3y1 Por tanto
difierenno2y1Por tanto
91 .7 15 .9 | 9 .14 75 .5 | | R R |
65 .7 04 .6 | 9 .14 86 .8 | | R R |
27 .7 11 .3 | 75 .5 86 .8 | | R R |
3 2
3 1
2 1
Correlación de rangos de Spearman
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 164/176
Estadistica Inferencial
2013
164
5.6.-Pruebas de bondad de ajuste
PRUEBA DE BONDAD Y AJUSTE
Con mucha frecuencia no se conoce la distribución de probabilidad de la variable
aleatoria en estudio, digamos X, y se desea probar la hipótesis de que X sigue una
distribución de probabilidad particular. Por ejemplo, podría ser de interés probar la
hipótesis de que X sigue una distribución normal, una exponencial, etc.
Existen dos procedimientos para realizar pruebas de bondad de ajuste que son los más
conocidos. El primero se basa en una técnica gráfica muy útil llamada gráfica de
probabilidad y el segundo procedimiento se basa en la distribución Chi-cuadrada.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 165/176
Estadistica Inferencial
2013
165
1. GRAFICA DE PROBABILIDAD
La gráfica de la probabilidad es un método gráfico para determinar sí los datos se
ajustan a una distribución hipotética basada en un examen visual subjetivo de los datos; el
procedimiento general es muy simple y puede efectuarse con rapidez.
El procedimiento es el siguiente:
i. Se grafica la probabilidad de los datos en estudio, usando Minitab-13 se
procede a ingresar los datos requeridos en la hoja de trabajo (worksheet) luego
se selecciona: Graph>Probability Plot:
ii. Luego en la ventana de diálogo que aparece, se especifica dónde se
encuentran los datos a graficar, haciendo doble clic en la variable de interés,
se establece luego el tipo de distribución que se desea probar, y luego se va a
Opt ions , para poder especificar en la próxima ventana el nivel de confianza, e
identificar la gráfica con un título. Se da OK y luego se ejecuta una gráfica de
probabilidad.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 166/176
Estadistica Inferencial
2013
166
iii. Luego de tener desarrollada la gráfica de probabilidad, según el tipo de
distribución que se desea probar, se analiza la misma bajo el siguiente criterio:
sí todos los puntos graficados caen aproximadamente sobre la línea de
probabilidad de la gráfica, entonces el modelo hipotético es apropiado, sí
los puntos graficados se desvían de modo significativo entonces el
modelo hipotético no es apropiado, y posteriormente se sigue probando conlos demás gráficos de probabilidad.
iv. A continuación dos gráficos de probabilidad para poder establecer la prueba de
bondad y ajuste en el ejemplo.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 167/176
Estadistica Inferencial
2013
167
Respuesta: Los datos siguen una distribución Normal
Respuesta: Los datos analizados no siguen una distribución Exponencial
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 168/176
Estadistica Inferencial
2013
168
1. PRUEBA DE BONDAD Y AJUSTE DE LA CHI CUADRADA
El procedimiento de prueba de la Chi-cuadrada es un método analítico, requiere
una muestra aleatoria de tamaño n de la variable aleatoria x. Estas n observaciones se
arreglan en histogramas de frecuencias, teniendo k intervalos de clase (donde nk ).
Sea Oi la frecuencia observada en el i-ésimo intervalo de clase. De la distribución de
probabilidad hipotética, se calcula la frecuencia esperada en el i-ésimo intervalo de clase,
identificada como E i , La estadística de prueba es la siguiente:
k
i i
ii
E
E O
1
22
0
)(
Puede demostrarse que 2
0 sigue aproximadamente una distribución Chi cuadrada con k-
p-1 grados de libertad, donde k es el número de intervalos, p representa el número de
parámetros de la distribución hipotética, estimados por medio de estadísticas de la
muestra. Esta aproximación se mejora cuando n aumenta. Se rechaza la hipótesis de que
x se ajusta a la distribución hipotética, si 2
1,
2
0 pk .
El procedimiento para establecer la prueba utilizando Minitab -13 es el siguiente:
1. Ingreso de datos y cálculos de media y desviación estándar: del mismo modo
que en el caso anterior, se ingresan los datos en la hoja de trabajo (“worksheet” ),
de estos datos que viene a ser la muestra de la variable aleatoria x, se calcula la
media y la desviación estándar siguiendo las siguientes secuencias: calc >column
statistic> mean y calc>column>standard desviation, respectivamente, tal como
se puede apreciar en la ventana que se muestra a continuación.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 169/176
Estadistica Inferencial
2013
169
2. Histogramas de frecuencia: Para realizar un histograma de frecuencia se sigues
la siguiente secuencia: graph > histogram >options >frecuency >cutpoint >#
intervals 10. Para mostrar las frecuencias en la gráfica, ingresar a <Annotation>
<Data labels> y activar <show data labels> Ademas en < <Annotation> ingresar
a <Title..> para colocar un título.
De este modo se obtiene la siguiente gráfica.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 170/176
Estadistica Inferencial
2013
170
3. El siguiente paso es ingresar los valores de frecuencia observada y los
intervalos. Como se puede apreciar de la figura anterior, Minitab -13 muestra
estos valores en el histograma de frecuencia, pero es necesario ingresarlos
manualmente a la hoja de trabajo.
4. Cálculo de probabilidad para los límites superior e inferior de los intervalos.
Para esto se sigue la siguiente secuencia: calc>probability distribution>
<Normal> se especifica la media y desviación estándar halladas anteriormente enlos espacios que correspondan así como la columna en donde se requiere que se
almacenen los resultados, previamente se elige la distribución a la cual se ajustan
los datos. En el ejemplo se escogió la distribución normal. Este procedimiento se
muestra en la siguiente pantalla.
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 171/176
Estadistica Inferencial
2013
171
5. Cálculo de los valores esperados: para esto se escoge el menú de
calc>calculator; y se ingresa la fórmula según se muestra en la siguiente
pantalla.
Es importante notar que si los valores esperados tienen valores numéricos menoresque 5.0, entonces debemos hacer una nueva agrupación, para lo cual se tomaránaquellos valores menores que 5 y se suman. En el ejemplo de 10 intervalos se reducea 7. Los tres primeros se reducen a uno y los dos últimos también se agrupan. Luego elprimer intervalo va desde 7.25 hasta 8.75 y el séptimo va desde 11.25 hasta 12.25.Con estos nuevos intervalos se repite el procedimiento anterior y se obtienen nuevosvalores esperados. Además se estiman dos 2 parámetros (la media y la desviación
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 172/176
Estadistica Inferencial
2013
172
estándar). Por tanto los grados de libertad para calcular el valor Chi crítico es de 4, (g.l= 7-2-1 = 4)
6. Cálculo de la estadística Chi-cuadrada: Luego se sigue la secuencia siguiente:
Calc>Calculator ; y se define los parámetros que aparecen a continuación. El valor
obtenido es de 4.187.
7. Cálculo del valor Chí-crítico: Este valor también se puede obtener de las tablas
de distribución Chi-cuadrada que se encuentran en los libros, pero Minitab-13 lo
provee de la siguiente manera: Calc>Probability distribution>Chi
square>Inverse cumulative probability >imput constant: 0.95>OK, el resultado
correspondiente aparece en la ventana de “Session ”, y es igual a: 4877.92
95.0
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 173/176
Estadistica Inferencial
2013
173
8. Cálculo del valor p: En primer lugar se establece el valor de k, para tal efecto se
realiza lo siguiente: Calc>Probability Distributions> Chi-square; se selecciona
Cumulative Probability >. En Degrees of freedom se establece
(# grados de libertad) <Input column> y se establece el lugar a almacenar el valor
en la celda que contendrá k en Optional storage tal como se puede apreciar en la
siguiente gráfica.
9. Finalmente se calcula el valor p: Para esto se sigue la siguiente secuencia:
Calc> Calculator> storage result, se establece donde se desea almacenar el
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 174/176
Estadistica Inferencial
2013
174
resultado, y se escribe la ecuación siguiente en Expression: (1-k), como se puede
apreciar en el siguiente diagrama.
10. Resultados:
Como en el resultado de la prueba de Chi-cuadrada 4877.9187.4 22 críticocal x x , o
como se estableció en la parte teórica 2
1,
2
0 pk , entonces se acepta la hipótesis
nula H0. Por otro lado, como el p-value=0.38 > 0.05, no hay evidencia suficiente para rechazar
H0.
5.7.-Aplicaciones
A) Aplicasion de Pruebas de Hipotesis.
DEFINICIÓN DE HIPÓTESISEs una proposición que establece relaciones, entre los hechos; para otros es una posible soluciónal problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre lasvariables, y por último, hay quienes afirman que es un método de comprobación.La hipótesis como proposición que establece relación entre los hechos: una hipótesis es elestablecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida enque pueda generar explicaciones lógicas del porqué se produce este vínculo.Tamayo (1989 – 75): afirma que:"La hipótesis es una proposición que nos permite establecer relaciones entre los hechos. Su valor reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que se
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 175/176
Estadistica Inferencial
2013
175
producen".La hipótesis como una posible solución del problema: la hipótesis no es solamente la explicación ocomprensión del vínculo que se establece entre los elementos inmersos en un problema, estambién el planteamiento de una posible solución al mismo.Pardinas (1974 – 132):"La hipótesis es una proposición anunciada para responder tentativamente a un problema".Hipótesis como relación entre variables: Kerlinger (1985 : 12) expresa; una expresión de lasrelaciones existentes entre dos o mas variables, la hipótesis se formula en términos de oraciónaseverativa por lo tanto:"Es una expresión conjetural de la relación que existe entre dos o más variables. Siempre apareceen forma de oración aseverativa y relaciona de manera general o específica, una variable con otra.Hipótesis como método de comprobación: para otros investigadores, la hipótesis es algo mas queel establecimiento de relaciones entre elementos, o la posible solución a un problema; por lo tanto;afirman que es fundamentalmente y ante todo, una herramienta de comprobación de los supuestoscon la realidad.
Abouhamad (1965:74) sostiene:
.
DEFINICIÓN DE HIPÓTESISEs una proposición que establece relaciones, entre los hechos; para otros es una posible soluciónal problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre lasvariables, y por último, hay quienes afirman que es un método de comprobación.La hipótesis como proposición que establece relación entre los hechos: una hipótesis es elestablecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida enque pueda generar explicaciones lógicas del porqué se produce este vínculo.Tamayo (1989 – 75): afirma que:"La hipótesis es una proposición que nos permite establecer relaciones entre los hechos. Su valor reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que seproducen".La hipótesis como una posible solución del problema: la hipótesis no es solamente la explicación ocomprensión del vínculo que se establece entre los elementos inmersos en un problema, es
también el planteamiento de una posible solución al mismo.Pardinas (1974 – 132):"La hipótesis es una proposición anunciada para responder tentativamente a un problema".Hipótesis como relación entre variables: Kerlinger (1985 : 12) expresa; una expresión de lasrelaciones existentes entre dos o mas variables, la hipótesis se formula en términos de oraciónaseverativa por lo tanto:"Es una expresión conjetural de la relación que existe entre dos o más variables. Siempre apareceen forma de oración aseverativa y relaciona de manera general o específica, una variable con otra.Hipótesis como método de comprobación: para otros investigadores, la hipótesis es algo mas queel establecimiento de relaciones entre elementos, o la posible solución a un problema; por lo tanto;afirman que es fundamentalmente y ante todo, una herramienta de comprobación de los supuestoscon la realidad.
Abouhamad (1965:74) sostiene:
7/16/2019 Antologia de Estadistica.
http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 176/176
Estadistica Inferencial
2013
BIBLIOGRAFÍA
1.-MURRAY R. SPIEGEL, JOHN SCHILLER, R. ALU SRINIVASAN PROBABILIDAD YESTADISTICA , SEGUNDA EDICIÓN EDITORIAL MC GRAW HILL.
2. Levin I. Richard Estadistica para administadores. Editorial: Prentice-Hall.
3. Kazmier. Estadistica aplicada apara la administracion y economia. Editorial:McGraw Hill.4. Walphole. Probabilidad y estadistica. Editorial McGraw Hill.5. John E. Freund A. Simon. Estadistica elemental. Editorial: Prentice-Hall.6. Hoel, Paul G., Sidney C. Port & Charles J. Stone, Introduction to StatisticalTheory, Houghton Mifflin Company.7. Dixon, Wilfrid J., & Frank J. Massey, Jr., Introduction to Statistical Analysis,McGraw-Hill Book Company.8. Montgomery, Douglas C., Lynwood A. Johnson & John S. Gardiner, Forecasting& Time Series Analysis, McGraw-Hill International Editions.9. Mendenhall, William, Richard L. Scheaffer & Dennis D. Wackerly, Estadística
Recommended