Post on 10-Jul-2016
description
Capıtulo 1
Distribuciones Muestrales
1.1. Introduccion.
Para el estudio de un fenomeno, se requiere contar con informacion relacionada
con el mismo. Esta informacion obtenida bien sea experimentalmente o, mediante
la observacion, esta dada por datos. Estos datos son el resultado de medir en un
conjunto de elementos o individuos, una o varias caracterısticas a ser analizadas en
una investigacion. Ahora bien, el analisis puede llevarse a cabo en base a toda o, a una
parte de la poblacion. Si se hace uso de toda la informacion, se dice que se ha hecho una
investigacion exhaustiva o total. No siempre es posible realizar un censo, por razones
como; costos, tiempo, poco practico, etc. Es necesario entonces, en estos casos, llevar
a cabo una investigacion parcial. La misma consiste en realizar el analisis en base a
la informacion correspondiente a un subconjunto de los elementos o individuos, una
muestra, de forma tal que a un costo y esfuerzo razonable se logren obtener conclusiones
tan validas como las que se obtendrıan realizando una investigacion exhaustiva o total,
un censo. Considere los siguientes ejemplos:
1
2 CAPITULO 1. DISTRIBUCIONES MUESTRALES
1. Para conocer la nota promedio de los estudiantes de la Universidad de Los Andes
(Nucleo Merida), debemos ir a las oficinas de registros estudiantiles de todas
las facultades y solicitar allı las notas de los estudiantes, dicha tarea no es facil
por distintas razones, entre las cuales podemos mencionar la confidencialidad
de la informacion. Por tal razon, a traves de una encuesta a cierto numero de
estudiantes podemos determinar la nota promedio de dicho grupo, y a partir de
ese resultado dar una conclusion sobre la poblacion.
2. Si se quisiera conocer el sueldo promedio del venezolano, serıa difıcil tener acceso
al sueldo de todos los venezolanos, al igual que en el caso anterior solo se podrıa
obtener dicha informacion de una parte de los venezolanos.
3. Para determinar el nivel de aceptacion o rechazo que tiene un candidato
a gobernador, no es necesario realizar el sondeo de opinion sobre todos los
habitantes del Estado, aun queriendo recoger dicha opinion serıa muy costosa. Es
por ello que las empresas encuestadoras realizan el sondeo sobre una parte de la
poblacion y a partir de ella interpretar como esta el candidato en dicho Estado.
1.2. Conceptos Basicos
Definicion 1.1 (Universo) Es el conjunto de individuos o elementos (Personas,
Fabricas, Familias, etc) que posee caracterısticas en comun que se desean investigar.
Ejemplo 1.1 :
1. Los habitantes de la ciudad de Merida
2. Los estudiantes de la Facultad de Ciencias Economicas y Sociales.
1.2. CONCEPTOS BASICOS 3
3. Trabajadores de una empresa.
4. Los animales en un bosque.
5. Los carros que entran en un estacionamiento al dıa.
Definicion 1.2 (Poblacion) Es el conjunto de todas las posibles mediciones que
pueden hacerse de una o mas caracterısticas en estudio de los elementos del universo.
Por lo tanto, la poblacion esta constituida por valores o datos bien sea numericos o no.
Ejemplo 1.2 :
1. El sexo de los habitantes de la ciudad de Merida
2. La edad de los estudiantes de la Facultad de Ciencias Economicas y Sociales.
3. El sueldo de los trabajadores de una empresa.
4. El color de ojos de los animales en un bosque.
5. La marca de los carros que entran en un estacionamiento al dıa.
Observese que una Poblacion puede ser univariante o multivariante, dependiendo del
numero de caracterısticas considerada. De acuerdo al numero que la constituye, la
poblacion puede ser finita o infinita. En el caso de que la poblacion sea finita, se dice
que esta tiene tamano N.
Definicion 1.3 (Muestra) Es una parte de una poblacion, idealmente representativo
de la misma.
Ejemplo 1.3 :
1. El sexo de 2000 habitantes de la ciudad de Merida mayores a 60 anos.
4 CAPITULO 1. DISTRIBUCIONES MUESTRALES
2. La edad de 150 estudiantes de la Facultad de Ciencias Economicas y Sociales que
tienen un promedio mayor a 15 puntos.
3. El sueldo de 25 trabajadores de una empresa.
4. La marca de los primeros 100 carros tipo sedan que entran en un estacionamiento
un determinado dıa.
Definicion 1.4 (Parametro) Es una funcion de los valores de la poblacion que sirve
para sintetizar alguna caracterıstica relevante de la misma. Es una medida resumen
que se calcula para describir una caracterıstica de toda una poblacion. Ejemplos
de parametros son: La media poblacional, La proporcion poblacional, la varianza
poblacional, entre otros.
Definicion 1.5 (Estadıstico) Se denomina estadıstico a toda funcion medible de los
elementos de una muestra en la que no intervienen parametros.
Supongase que se tiene una variable aleatoria, cuya distribucion es f(x) y suponga, por
simplicidad, que obtenemos una muestra aleatoria simple con tamano n, X1, X2, ...Xn.
Entonces, un estadıstico es cualquier funcion h definida sobre X1, X2, ...Xn y que no
incluye parametro desconocido alguno:
Y = h(X1, X2, ...Xn)
Entre los estadısticos mas usados se pueden mencionar:
La media muestral (X)
La varianza muestral (S2)
1.3. MUESTREO 5
La proporcion muestral (p).
El mınimo, el maximo y el rango.
Formalmente, la caracterıstica de estudio se define como una variable aleatoria X
la cual tiene una funcion de distribucion (FD) F, que define el comportamiento de
dicha caracterıstica. Por ejemplo, para el caso de la nota de los estudiantes la variable
aleatoria X representa la nota de los estudiantes de la ULA la cual se distribuye normal
con media 15 y varianza 4. Existen dos posibilidades sobre la FD de X:
1. X tiene una FD F(θ) con una forma funcional conocida, excepto quizas por el
parametro θ, el cual puede ser un vector. En este caso el trabajo de un estadıstico
es decidir sobre la base de una muestra seleccionada cual es el valor de θ que
representa la FD de X. Por ejemplo, para el caso de la nota promedio se sabe
que X ∼ N(µ, σ2) con σ2 conocida, por lo tanto basandose en una muestra se
puede determinar cual debe ser el valor de µ y de esta manera queda determinada
completamente la distribucion de probabilidad de X.
2. X tiene una FD F de la cual no se sabe nada (excepto quizas que F es, digamos,
absolutamente continua). Este caso es mas difıcil que el anterior y este tipo
de problemas entran en el dominio de la estadıstica no parametrica, la cual no
sera estudiada en este curso.
1.3. Muestreo
En las Ciencias Sociales, las investigaciones consideran, en su mayorıa, muestras y no
poblaciones. Por lo tanto, la seleccion de muestras es un problema crucial en Estadıstica.
Algunas razones que justifican el uso del muestreo son:
6 CAPITULO 1. DISTRIBUCIONES MUESTRALES
1. Naturaleza destructiva del proceso de investigacion
2. Imposibilidad de revisar todos los elementos de la poblacion.
3. Costo. Al obtener los datos de una pequena porcion del total, los gastos son
menores a los que se tendrıan si se llevara a cabo un censo.
4. Tiempo. Al considerar solo una parte del total, su recoleccion y resumen se
haran con mayor rapidez. Razon de peso cuando la informacion es requerida
con urgencia.
5. Precision. Las posibilidades de usar personal mas capacitado y supervisar
cuidadosamente el trabajo de campo y el procesamiento de al informacion, inciden
en la obtencion de resultados mas exactos.
Cuando se selecciona una muestra se deben tomar en cuenta las siguientes considera-
ciones: Elegir el tamano de la muestra, lo cual depende no solamente de la cantidad de
informacion que se quiere conseguir, y el grado de certeza deseada, sino tambien del
costo del muestreo y la seleccion de los elementos que la constituyen. Cualquiera sea
el metodo elegido, el requisito mas importante es que la muestra obtenida proporcio-
ne una imagen tan real como sea posible de aquella poblacion que se ha sometido al
muestreo.
Definicion 1.6 (Muestreo) Proceso de medicion de la informacion en solo una
parte de la poblacion estadıstica. Se define como el proceso de seleccionar un numero
de observaciones (sujetos) de un grupo en particular de la poblacion (metodos para
seleccionar muestras), que se utiliza cuando no es posible contar o medir todos los
elementos de la poblacion objeto de estudio.
1.3. MUESTREO 7
1.3.1. Tipos de Muestreo
Existen dos metodos para seleccionar muestras de poblaciones:
1. Muestreo no aleatorio o de juicio: Es practica comun seleccionar una muestra
en forma intencional, de acuerdo a opiniones o criterios personales, fundamen-
talmente con el objeto de obtener informacion sin mucho costo. A este tipo de
muestreo se le denomina Muestreo no probabilıstico, no aleatorio o de juicio.
Este tipo de muestreo como puede observarse, no involucra ningun elemento
aleatorio en el procedimiento de seleccion. Sin embargo, es importante resaltar
que en condiciones apropiadas estos metodos pueden ofrecer resultados utiles,
por ejemplo, cuando solo se necesitan estimaciones gruesas, las cuales no van a
ser utilizadas para tomar decisiones importantes. Son ejemplos de muestreos no
probabilısticos:
a) La muestra es restringida a la parte de la poblacion que es facilmente
accesible.
b) La muestra consiste de los elementos que esten mas a la mano
c) Se selecciona un grupo de unidades tipo.
d) La muestra esta compuesta por voluntarios.
2. Muestreo aleatorio o probabilıstico: En el cual todos los elementos de la poblacion
tienen la oportunidad de ser escogidos para la muestra. Este procedimiento da a
cada elemento de la poblacion una probabilidad de ser seleccionado. Dentro de
este tipo de muestreo se encuentran:
a) Muestreo aleatorio simple: el cual es un metodo de seleccion de muestras
que permite que cada muestra posible pueda ser elegida con la misma
8 CAPITULO 1. DISTRIBUCIONES MUESTRALES
probabilidad. Por su parte cada elemento de la poblacion tiene la misma
oportunidad igual de ser incluido en la muestra.
b) Muestreo sistematico: metodo en el cual los elementos que se muestrearan
se seleccionan de la poblacion en un intervalo uniforme que se mide con
respecto al tiempo, al orden o al espacio.
c) Muestreo estratificado: metodo en el que la poblacion se divide en grupos
homogeneos, o estratos, y despues se toma una muestra aleatoria simple de
cada estrato. Aquı la variabilidad dentro de cada grupo es pequena y entre
los grupos es grande.
d) Muestreo por conglomerados: metodo en el que la poblacion se divide en
grupos o racimos de elementos, y luego se selecciona una muestra aleatoria
de estos racimos. La variabilidad dentro de cada grupo es grande y entre
los grupos es pequena; es como si cada conglomerado fuese una pequena
representacion de la poblacion en si mima.
1.3.2. Metodos para seleccionar una muestra aleatoria.
Al seleccionar una muestra aleatoria se debe tomar en cuenta si la extraccion se va
realizar con reemplazo o sin reemplazo, en el primer caso, una vez extraıda el elemento
de la poblacion este puede ser devuelto a la misma, en el segundo caso esto no es
posible.
Por otro lado, dada una lista de los miembros de la poblacion numerados del 1 al N,
la extraccion de los elementos que conforman la muestra se puede realizar de varias
maneras entre las cuales podemos mencionar: Metodo del bingo, Tabla de Numeros
aleatorios y generacion de numeros pseudoaletorios.
1.3. MUESTREO 9
1. Metodo del bingo. Consiste en etiquetar N papeles, bolas o cualquier otro objeto
del 1 al N e introducirlas en una urna o bolsa y agitarla hasta que queden bien
mezcladas, luego extraer una a la vez hasta que hayamos seleccionado n artıculos
donde n es el tamano deseado de la muestra. Los miembros de la poblacion que
correspondan a los numeros de los artıculos extraıdos se incluidos en la muestra,
y las caracterısticas de estas unidades se mide u observan. Si la poblacion es
bastante grande, este metodo mecanico de seleccion aleatoria puede ser difıcil o
practicamente imposible de implementar. Esto nos lleva a la consideracion de la
tabla de numeros aleatorios.
2. Tabla de Numeros aleatorios. Las Tablas de Numeros Aleatorios contienen los
dıgitos 0, 1, 2,..., 7, 8, 9. Tales dıgitos se pueden leer individualmente o en grupos
y en cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila,
diagonalmente, etc., y es posible considerarlos como aleatorios. Las tablas se
caracterizan por dos cosas que las hacen particularmente utiles para el muestreo
al azar. Una caracterıstica es que los dıgitos estan ordenados de tal manera que
la probabilidad de que aparezca cualquiera en un punto dado de una secuencia
es igual a la probabilidad de que ocurra cualquier otro. La otra es que las
combinaciones de dıgitos tienen la misma probabilidad de ocurrir que las otras
combinaciones de un numero igual de dıgitos. Estas dos condiciones satisfacen
los requisitos necesarios para el muestreo aleatorio, establecidos anteriormente.
La primera condicion significa que en una secuencia de numeros, la probabilidad
de que aparezca cualquier dıgito en cualquier punto de la secuencia es 1/10.
La segunda condicion significa que todas las combinaciones de dos dıgitos son
igualmente probables, del mismo modo que todas las combinaciones de tres
dıgitos, y ası sucesivamente.
10 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Para utilizar una Tabla de Numeros Aleatorios:
a) Hacer una lista de los elementos de la poblacion.
b) Numerar consecutivamente los elementos de la lista, empezando con el cero
(0, 00, 000, etc.).
c) Tomar los numeros de una Tabla de Numeros Aleatorios, de manera que la
cantidad de dıgitos de cada uno sea igual a la del ultimo elemento numerado
de su lista. De ese modo, si el ultimo numero fue 18, 56 o 72, se debera tomar
un dıgito de dos numeros.
d) Omitir cualquier dıgito que no corresponda con los numeros de la lista o
que repita cifras seleccionadas anteriormente de la tabla. Continuar hasta
obtener el numero de observaciones deseado.
e) Utilizar dichos numeros aleatorios para identificar los elementos de la lista
que se habran de incluir en la muestra.
La tabla siguiente es un fragmento de una tabla de numeros aleatorios.
1.3. MUESTREO 11
Tabla de Numeros Aleatorios
6017 2438 3828 2161 6601 8762 8166 3756 6483 7405 6595 8695
3268 5788 5965 4427 9227 8468 1298 4343 1346 0861 5400 5286
0632 5878 0726 5624 7813 7905 9611 3839 6226 3452 7352 9818
0372 1222 1781 0216 5798 5805 3719 3155 6336 4710 7311 5553
3132 3375 7801 2782 1500 4249 4702 1799 9587 2788 7421 3631
3213 0670 1158 0562 6208 6641 5057 1747 7559 0548 9614 6265
6075 7161 6505 0599 1398 2947 7797 0038 4414 3904 8021 5093
2009 3799 8336 8189 8441 5748 3587 9128 2088 8840 6838 5810
8964 8261 1914 4651 9081 3202 9692 5605 7902 9525 4932 9719
7080 9448 848 8331 9069 4214 3824 2350 4986 8556 5394 1971
4098 6758 9526 6559 5435 6428 6362 7876 7746 3562 1567 7828
3328 3604 7368 9744 8842 0456 6317 0218 3826 6603 4549 2501
9976 8845 6219 2593 8337 2222 7455 1587 2778 6178 6670 4229
6420 0204 3168 5283 6869 1675 0408 7816 9054 1931 1771 3513
6523 7018 0413 5606 2869 5234 5344 5181 2457 9569 6402 9317
7475 2647 8714 6275 9693 5937 0516 1304 1156 4133 3926 1961
4928 3235 0889 1701 3778 4803 3637 6609 1152 6832 9422 8956
8355 2702 0780 5091 6964 6693 7576 9651 3543 2515 6981 4808
0084 7215 6568 4753 0215 4797 2589 2416 4746 2469 2613 7049
6319 5007 4973 3050 7658 6044 3277 2416 5823 0871 2378 0150
7335 6191 6314 2974 2783 6280 8045 6139 1575 7728 4264 4703
0164 0416 8561 4309 6759 1658 1085 6807 4425 7435 5645 4685
8751 7452 7483 5945 2360 3542 7421 9632 5936 9718 3034 7107
6070 4807 2681 1311 2724 4979 6886 2426 4486 2350 1654 4411
8094 4307 6627 6067 2654 2265 9557 4753 3174 2253 1168 2303
2778 6633 6219 4301 5528 2485 3996 5792 1741 4351 5324 4159
7672 7480 2976 3952 3061 8719 4613 2271 8921 0848 8062 1366
1449 3173 4095 2528 6684 9596 4762 1133 1784 9004 9366 1677
2984 3961 0226 3491 5758 6907 6856 1359 2532 8928 2850 3798
12 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Para ilustrar el uso de la tabla de numeros aleatorios se dara el siguiente ejemplo:
Ejemplo 1.4 suponga que tenemos 40 latas de refrescos, y que deseamos tomar
una muestra de tamano n = 4 para estudiar su condicion. Nuestro primer paso
es numerar las latas de 1 a 40 o apilarlas en algun orden de tal forma que puedan
ser identificadas. En la tabla de numeros aleatorios, los dıgitos deben escogerse de
a dos a la vez porque la poblacion de tamano N =40 es un numero de dos dıgitos.
Luego se selecciona arbitrariamente una fila y una columna de la tabla. Suponga
que la seleccion es fila 6, y la columna 4. Leemos los pares de dıgitos a partir de
la columna 4 y moviendonos hacia la derecha, ignorando los numeros mayores
que 40 y tambien cualquier numero repetido cuando aparezca una segunda vez.
Se continua leyendo pares de dıgitos hasta que cuatro unidades diferentes hayan
sido seleccionadas, es decir lo numeros 05, 20, 08 y 17. Por lo tanto, las latas
con la etiqueta correspondiente a dichos numeros constituyen la muestra.
3. Generacion de numeros pseudoaletorios. Existen metodos mas eficaces para
generar numeros aleatorios, en muchos de los cuales se utilizan calculadoras
o computadoras. La mayorıa de los paquetes estadısticos generan numeros
pseudoaleatorios y en excel usando la funcion aleatorio() se pueden generar dichos
numeros.
1.3.3. Error de Muestreo.
Es el error que se comete debido al hecho dar conclusiones sobre cierta realidad, a partir
de la observacion de solo una parte de ella, es decir, es la diferencia entre el parametro
de la poblacion y el estadıstico de la muestra utilizado para estimar el parametro.
1.3. MUESTREO 13
Ejemplo 1.5 Se toman muestras de tamano 2 de una poblacion que tiene cinco
elementos, 2, 4, 6, 8 y 10 para simular una poblacion ”grande”de manera que el
muestreo pueda realizarse un gran numero de veces, supondremos que este se hace con
reemplazo, es decir, el numero elegido se reemplaza antes de seleccionar el siguiente,
ademas, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que
se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4)
es distinta de la muestra ordenada (4,2). En la muestra (4,2), se selecciono primero 4
y despues 2.
La media poblacional es igual a µ = 2+4+6+8+105
= 6.
La siguiente tabla contiene una lista de todas las muestras ordenadas de tamano 2 que
es posible seleccionar con reemplazo y tambien contiene las medias muestrales y los
correspondientes errores muestrales.
Muestras X Error Muestras X Error Muestras X Error
(2,2) 2 -4 (6,2) 4 -2 (10,2) 6 0
(2,4) 3 -3 (6,4) 5 -1 (10,4) 7 1
(2,6) 4 -2 (6,6) 6 0 (10,6) 8 2
(2,8) 5 -1 (6,8) 7 1 (10,8) 9 3
(2,10) 6 0 (6,10) 8 2 (10,10) 10 4
(4,2) 3 -3 (8,2) 5 -1
(4,4) 4 -2 (8,4) 6 0
(4,6) 5 -1 (8,6) 7 1
(4,8) 6 0 (8,8) 8 2
(4,10) 7 1 (8,10) 9 3
Se puede observar que la suma de los errores muestrales es cero
14 CAPITULO 1. DISTRIBUCIONES MUESTRALES
1.4. Distribuciones muestrales
Se ha dicho que uno de los objetivos de la estadıstica es saber acerca del comportamiento
de parametros poblacionales tales como: la media (µ), la varianza (σ2) o la proporcion
(π). Para ello, Se extrae una muestra aleatoria de la poblacion y se calcula el valor de un
estadıstico correspondiente, por ejemplo, la media muestral (X), la varianza muestral
(S2) o la proporcion muestral (p).
Un estadıstico es una variable aleatoria, informalmente esto es cierto, ya que su valor
depende de los elementos elegidos en la muestra seleccionada. La veracidad formal de
esta declaracion se da en el siguiente teorema (sin demostracion).
Teorema 1.1 Sean
X1, X2, ..., Xn n variables aleatorias. Definamos Y = f(X1, X2, ..., Xn), entonces Y
es tambien una variable aleatoria.
El teorema anterior establece que una funcion de una o mas variables aleatorias es
tambien una variable aleatoria,, y como un estadıstico es una funcion de la muestra
(las cuales son variables aleatorias), entonces un estadıstico es una variable aleatoria,
y en consecuencia tiene asociada una distribucion de probabilidad la cual es llamada
la Distribucion Muestral del Estadıstico.
Veamos a continuacion el calculo de la distribucion muestral de los estadısticos mas
usados.
1.4.1. Empıricamente
Para hallar empıricamente la distribucion muestral de un estadıstico es necesario
seleccionar todas las muestras de dicha poblacion y a partir de dicha informacion
1.4. DISTRIBUCIONES MUESTRALES 15
construir la distribucion de frecuencia relativa de los valores del estadıstico, la cual
es considerada como su distribucion muestral. Veamos a continuacion el calculo de
la distribucion muestral de dos estadısticos muy importantes, la media muestral y la
proporcion.
Distribucion muestral de la media
Para hallar la distribucion muestral de la media se procede de la siguiente manera:
1. Se seleccionan desde la poblacion todas las muestras posibles de tamano n,
2. En cada muestra se calcula la media muestral.
3. A partir de dicha informacion se construye la distribucion de frecuencias relativas
de las medias muestrales, la cual se define como su distribucion muestral.
Ejemplo 1.6 A partir de la tabla del ejemplo anterior se tiene que X toma los valores
X = {2, 3, 4, 5, 6, 7, 8, 9, 10} con las siguientes probabilidades:
P (X = 2) = P{(2, 2)} = 125
P (X = 3) = P{(2, 4)o(4, 2)} = 225
P (X = 4) = P{(2, 6)o(4, 4)o(6, 2)} = 325
...
P (X = 10) = P{(10, 10)} = 125
Por lo tanto, la distribucion muestral de la media esta dada en la siguiente tabla:
X 2 3 4 5 6 7 8 9 10
P (X = x) 125
225
325
425
525
425
325
225
125
16 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Ahora bien, como la poblacion es conocida podemos determinar su media y varianza
las cuales son µ = 6 y σ2 = 4 (comprobar dichos resultados). Y a partir de los datos
muestrales se tiene que:
E(X) = 2 ∗ 125
+ 3 ∗ 225
+ 4 ∗ 325
+ ...+ 10 ∗ 125
= 6
E(X2) = 22 ∗ 125
+ 32 ∗ 225
+ 42 ∗ 325
+ ...+ 102 ∗ 125
= 44
V ar(X) = E(X2)− [E(X)]2 = 44− 36 = 8
Por lo tanto, se cumple que
E(X) = µ
V ar(X) = σ2
n
Este resultado siempre se cumple y en el siguiente teorema se enuncia sin demostracion.
Teorema 1.2 Sea X1, X2, ..., Xn una muestra aleatoria extraıda de una poblacion cuya
media es µ y varianza σ2. Entonces
E(X) = µ
V ar(X) = σ2
n
Veamos otro ejemplo:
Ejemplo 1.7 Cierta empresa tiene 7 empleados en el area de produccion (considerados
como la poblacion). El salario por hora de cada trabajador se presenta en la siguiente
tabla
1.4. DISTRIBUCIONES MUESTRALES 17
Empleado Salario (BsF)
1 7
2 7
3 8
4 8
5 7
6 8
7 9
Como los datos anteriores son considerados la poblacion, la media y varianza
poblacional son µ = 7,71 y σ2 = 0,49. Ahora, para determinar la distribucion de la
media muestral, se seleccionaron todas las muestras posibles de tamano 2 sin reposicion
en la poblacion, y se calcularon sus medias. Hay 21 posibles muestras de tamano 2
(7
2
).
Las 21 medias de todas las muestras de tamano 2 que pueden tomarse de la poblacion,
se indican en la siguiente tabla:
Muestra Emp Salarios Suma X Muestra Emp Salarios Suma X
1 1,2 7,7 14 7.0 12 3,4 8,8 16 8.0
2 1,3 7,8 15 7.5 13 3,5 8,7 15 7.5
3 1,4 7,8 15 7.5 14 3,6 8,8 16 8.0
4 1,5 7,7 14 7.0 15 3,7 8,9 17 8.5
5 1,6 7,8 15 7.5 16 4,5 8,7 15 7.5
6 1,7 7,9 16 8.0 17 4,6 8,8 16 8.0
7 2,3 7,8 15 7.5 18 4,7 8,9 17 8.5
8 2,4 7,8 15 7.5 19 5,6 7,8 15 7.5
9 2,5 7,7 14 7.0 20 5,7 7,9 16 8.0
10 2,6 7,8 15 7.5 21 6,7 8,9 17 8.5
11 2,7 7,9 16 8.0
18 CAPITULO 1. DISTRIBUCIONES MUESTRALES
De acuerdo con esta tabla la media muestral solo puede tomar los valores 7.0, 7.5, 8.0 y 8.5,
es decir x = {7,0, 7,5, 8,0, 8,5}, cuyas probabilidades son las que se muestran en la siguiente
tabla (realizar los calculos para comparar los resultados):
X 7.0 7.5 8.0 8.5
P (X = x) 0.1429 0.4285 0.2857 0.1429
A partir de los datos muestrales se tiene que:
E(X) = 7,0 ∗ 0,1429 + 7,5 ∗ 0,4285 + 8,0 ∗ 0,2857 + 8,5 ∗ 0,1429 = 7,71
E(X2) = 7,02 ∗ 0,1429 + 7,52 ∗ 0,4285 + 8,02 ∗ 0,2857 + 8,52 ∗ 0,1429 = 59,71
V ar(X) = E(X2)− [E(X)]2 = 0,20
Por lo tanto, se cumple que
E(X) = µ
V ar(X) = σ2
n
Distribucion muestral de la proporcion
Existen ocasiones en las cuales no se esta interesado en la media de la muestra, sino que
se quiere investigar la proporcion de artıculos defectuosos o la proporcion de alumnos
aprobados en la muestra. La distribucion muestral de proporciones es la adecuada
para dar respuesta a estas situaciones. Esta distribucion se genera de igual manera
que la distribucion muestral de medias, a excepcion de que al extraer las muestras de
la poblacion se calcula en vez de la media muestral, el estadıstico proporcion el cual
esta dado por:
P =X
n
1.4. DISTRIBUCIONES MUESTRALES 19
donde X es el numero de exitos u observaciones de interes y n el tamano de la muestra.
Ejemplo 1.8 Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artıculos
defectuosos. Se van a seleccionar 5 artıculos al azar de ese lote sin reemplazo. Genere
la distribucion muestral de proporciones para el numero de piezas defectuosas.
Como se puede observar en este ejercicio la Proporcion de artıculos defectuosos de esta
poblacion es π = 412
= 13. Por lo que se puede decir que el 33% de las piezas de este
lote estan defectuosas.
Si X es el numero de artıculos defectuosos en la muestra, entonces X puede tomar los
valores 0,1,2,3,4, lo cual es equivalente a que P tome los valores 0, 15, 25, 35, 45con las
siguientes probabilidades:
P (x = 0) = P (P = 0) = 812
711
610
5948= 7
99
P (x = 1) = P (P = 0,2) =(51
)812
711
610
5948= 35
99
P (x = 2) = P (P = 0,4) =(52
)812
711
610
4938= 42
99
P (x = 3) = P (P = 0,6) =(53
)812
711
410
3928= 14
99
P (x = 4) = P (P = 0,8) =(54
)812
411
310
2918= 1
99
Por lo tanto, la distribucion muestral de la proporcion esta dada en la siguiente tabla:
P 0 0.2 0.4 0.6 0.8
P (P = p) 799
3599
4299
1499
199
Al igual que para la media se tiene que
E(P ) = 0 ∗ 799
+ 0,2 ∗ 3599
+ 0,4 ∗ 4299
+ 0,6 ∗ 1499
+ 0,8 ∗ 199
= 13= Π
20 CAPITULO 1. DISTRIBUCIONES MUESTRALES
1.4.2. Distribuciones muestrales de poblaciones con distribu-
cion conocida.
Se ha visto que para hallar la distribucion muestral de un estadıstico es necesario
seleccionar todas las muestras de dicha poblacion y a partir de dicha informacion
construir la distribucion de frecuencia relativa de los valores del estadıstico. Otra
manera de hallar la distribucion muestral de un estadıstico es basandose en el hecho
de que como un estadıstico es funcion de variables aleatorias cuya distribucion es
conocida, excepto quizas por sus parametros, entonces podemos hallar su distribucion
de probabilidad.
Distribucion muestral de la media
En esta seccion vamos a determinar la distribucion muestral de la media solo en el
caso en que la poblacion sea normal, y se tomara en consideracion los casos en que la
varianza es conocida y la varianza es desconocida.
1. Distribucion muestral de la media para una poblacion normal con
varianza conocida.
Al estudiar la distribucion normal consideramos algunas propiedades que posee
dicha distribucion, una de ellas era referente a la distribucion de una combinacion
lineal de variables aleatorias normales. Ası pues, sabemos que si X1, ..., Xn,
son variables aleatorias independientes distribuidas segun una N(µi, σ2i ), para
i = 1, ..., n y si a1, ..., an, son numeros reales, entonces la variable aleatoria
Y =n∑
i=1
aiXi = a1X1 + ...+ anXn
1.4. DISTRIBUCIONES MUESTRALES 21
sigue una distribucion N
(n∑
i=1
aiµi,
n∑i=1
a2iσ2i
)Este resultado nos sera de bastante utilidad para obtener la distribucion de la
media muestral, como se ve en el Teorema 1.3
Teorema 1.3 Sea x1, x2, ..., xn una muestra aleatoria extraıda de una poblacion
que se distribuye N(µ, σ2). Entonces la media muestral, x, se distribuye normal
con media µx = µ y varianza σ2x = σ2
n, es decir, x ∼ N(µ, σ
2
n)
Ejemplo 1.9 Sea x1, x2, ..., x8 una muestra aleatoria extraıda de una poblacion
que se distribuye N(5, 16), entonces por el teorema (1.3) se tiene que
µx = µ = 5
σ2x = σ2
n= 16
8= 2
Por lo tanto, x ∼ N(5, 2)
Ejemplo 1.10 Considere una muestra aleatoria de tamano 100 extraıda de una
poblacion que se distribuye N(20, 144), entonces por el teorema (1.3) se tiene que
µx = µ = 20
σ2x = σ2
n= 144
100= 1,44
Por lo tanto, x ∼ N(20, 1,44)
El resultado del teorema (1.3), permite hallar probabilidades sobre la media
muestral, lo cual como se vera mas adelante ayudara a medir el error al estimar
un parametro usando un estadıstico.
22 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Como x ∼ N(µ, σ2), entonces se define una nueva variable aleatoria Z, dada por
Z =X − µ
σ/√n
(1.1)
La cual se distribuye Normal Estandar, es decir, Z ∼ N(0, 1).
Ejemplo 1.11 El precio de venta de una casa nueva en Merida se distribuye
Normal con media 450000 BsF y desviacion tıpica de 64000 BsF. Si se toma una
muestra aleatoria de 100 casas nuevas de esta ciudad.
a) ¿Cual es la probabilidad de que la media muestral de los precios de venta sea
menor de 440000 BsF.? Se sabe que:
µx = µ = 450000
σ2x = σ2
n= 640002
100= 40960000
Entonces, x ∼ N(450000, 40960000). Ası,
P (x < 440000) = P
(x− µ
σx
<440000− 450000
6400
)= P (Z < −1,56) = 0,0594
b) ¿Cual es la probabilidad de que la media muestral se encuentre a menos de
12000 BsF de la media poblacional?
1.4. DISTRIBUCIONES MUESTRALES 23
Como x ∼ N(450000, 40960000), entonces
P (|x− µ| < 12000) = P (−12000 < x− µ < 12000)
= P
(−12000
6400<
x− µ
σx
−12000
6400
)= P (−1,88 < Z < 1,88)
= P (Z < 1,88)− P (Z < −1,88)
= 0,9700− 0,0300 = 0,9400
2. Distribucion muestral de la media para una poblacion normal con
varianza desconocida.
Hasta ahora estabamos admitiendo que se conoce la varianza de la poblacion de
la que se extrae la muestra, pero esta no sera la situacion general, sino que la
mayorıa de las veces no conocemos la varianza de la poblacion, entonces como
se dispone de una muestra aleatoria de tamano n, podemos, calcular la varianza
muestral S2 y utilizarla en lugar de la varianza poblacional σ2 desconocida, pues
S2 es, como veremos despues, un buen estimador de σ2.
Cuando σ2 es desconocido, la distribucion muestral de Z = X−µσ/
√ndepende del
tamano de la muestra. Veamos los siguientes dos casos:
a) El tamano de la muestra es grande (n ≥ 30).
Cuando el tamano de la muestra es grande, es decir,(n ≥ 30) la distribucion
del estadıstico:
Z =X − µ
S/√n
sigue siendo aproximadamente N(0, 1).
24 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Ejemplo 1.12 El precio de venta de una casa nueva en Merida se
distribuye Normal con media 450000 BsF. De una muestra aleatoria de 100
casas nuevas de esta ciudad se obtuvo que la desviacion estandar era de
60000.¿Cual es la probabilidad de que la media muestral de los precios de
venta sea menor de 460000 BsF.?
Se puede notar que la varianza de la poblacion no es conocida, pero como el
tamano de la muestra es mayor que 30 (n = 100), podemos usar la varianza
muestral en lugar de la varianza poblacional, con lo cual el estadıstico
Z = X−µS/
√nse distribuye N(0, 1). Por lo tanto,
P (x < 460000) = P
(x− µ
S/√n<
460000− 450000
60000/√100
)= P (Z < 1,67) = 0,9525
b) El tamano de la muestra es pequeno (n < 30).
Si el tamano de la muestra es pequeno, n < 30, los valores de la varianza
muestral S2 varıan considerablemente de muestra en muestra, pues S2
disminuye a medida que n aumenta, y la distribucion del estadıstico ya
no sera una distribucion normal.
Este problema fue resuelto en 1908 por el estadıstico Gosset a partir del
siguiente teorema.
Teorema 1.4 Sea x1, x2, ..., xn una muestra aleatoria extraıda de una
poblacion que se distribuye N(µ, σ2) donde σ2 es desconocido. Entonces el
estadıstico
T =X − µ
S/√n
1.4. DISTRIBUCIONES MUESTRALES 25
se distribuye t-Student con n− 1 grados de libertad.
La demostracion de este teorema se basa en la definicion de una variable
aleatoria t-Student, la cual como se vera en otro curso, es el cociente entre
una normal estandar y la raız cuadrada de una chi-cuadrado sobre sus grados
de libertad.
Ejemplo 1.13 Consideremos el ejemplo anterior, pero supongamos que
la muestra fue de 20 casas. Entonces, como la varianza poblacional es
desconocida y el tamano de la muestra es menor que 30, el estadıstico
T = X−µS/
√nse distribuye t-Student con 19 grados de libertad. Por lo tanto,
P (x < 460000) = P
(x− µ
S/√n<
460000− 450000
60000/√100
)= P (T < 1,67) ≈ 0,95
Distribucion muestral de la proporcion
La proporcion de la poblacion se define como Π = XN, en donde X es el numero de
elementos que poseen una cierta caracterıstica y N es el numero total de elementos de
la poblacion. De igual manera la proporcion muestral se define como P = xn, en donde
x es el numero de elementos de la muestra que poseen cierta caracterıstica y n es el
tamano de la muestra. Ası, se puede considerar una proporcion como una proporcion
de exitos, lo cual se obtiene dividiendo el numero de exitos entre el tamano muestral
n.
Hemos visto que la distribucion de probabilidad de la variable aleatoria X, numero de
exitos, depende de si la muestra se selecciona con o sin reemplazo, en el caso en que s
hace con reemplazo el numero de exitos x es una variable aleatoria que se distribuye
26 CAPITULO 1. DISTRIBUCIONES MUESTRALES
binomial con parametros n y Π, en cambio si el muestreo se hace sin reemplazo el
numero de exitos se distribuye hipergeometrica. Vemos cada caso por separado.
1. Muestreo con reemplazo Sea x el numero de exitos al seleccionar con
reemplazo n elementos de una poblacion de tamano N , en la que se sabe que el
Π% son exitos. La proporcion muestral se distribuye binomial, cuyas esperanzas
y varianzas son:
E(p) = Π
V ar(p) =Π(1− Π)
n
Ejemplo 1.14 En un salon de clases hay 30 estudiantes de los cuales el 20%
reprobaron un examen. Si se seleccionan aleatoriamente 10 estudiantes con
reemplazo, ¿cual es la probabilidad de que el 30% hayan reprobado el examen?
Sea X = {Numero de estudiantes que reprobaron el examen}. Como la seleccion
se hace con reemplazo, entonces X ∼ bin(10; 0,20). Ahora, p = 0,30 es equivalente
a X = 3, por lo tanto,
P (p = 0,30) = P (X = 3) =
(10
3
)(0,2)3(1− 0,2)7 = 0,2013
2. Muestreo sin reemplazo Sea x el numero de exitos al seleccionar sin reemplazo
n elementos de una poblacion en la que se sabe que el Π% son exitos. La
proporcion muestral se distribuye hipergeometrica, cuyas esperanzas y varianzas
son:
E(p) = Π
V ar(p) =Π(1− Π)
n
N − n
N − 1
1.4. DISTRIBUCIONES MUESTRALES 27
Ejemplo 1.15 Supongamos el ejemplo anterior, pero la seleccion se hace sin
reemplazo
Sea X = {Numero de estudiantes que reprobaron el examen}. Como la seleccion
se hace sin reemplazo, entonces X ∼ Hiperg(30; 6; 10). Por lo tanto,
P (p = 0,30) = P (X = 3) =
(63
)(247
)(3010
) = 0,2304
Se puede notar que la esperanza en ambos caso es la misma y la varianza es la
misma excepto por el factor que esta a la derecha del segundo caso, el cual se
conoce como factor de correccion por poblacion finita.
Distribucion muestral de la varianza
La distribucion muestral de la varianza, S2 tiene pocas aplicaciones practicas
en estadıstica, sin embargo, una funcion de dicho estadıstico, la cual sigue siendo
un estadıstico, si tiene importancia en estadıstica. Dicha funcion es (n−1)S2
σ2 cuya
distribucion se establece en el siguiente teorema.
Teorema 1.5 Sea (x1, ..., xn) una muestra aleatoria de tamano n, procedente de una
poblacion N(µ, σ2). Entonces se verifica que:
1. Los estadısticos x y S2 son independientes.
2. El estadıstico
(n− 1)S2
σ2=
n∑i=1
(xi − x)2
σ2
sigue una distribucion χ2 con n− 1 grados de libertad.
28 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Ejemplo 1.16 Supongamos que las onzas de lıquido que vierte una maquina embotella-
dora tiene una distribucion normal con σ2 = 1. Si se elige una muestra aleatoria de 10
botellas y se mide la cantidad de lıquido que contiene cada una,
1. ¿cual es la probabilidad de que la varianza muestral sea mayor que 1.2?
En esta parte debemos hallar P (S2 > 1,2), para ello usamos el hecho de que
(n−1)S2
σ2 ∼ χ2 con n− 1 grados de libertad. Entonces
P (S2 > 1,2) = P
((n− 1)S2
σ2>
(10− 1)1,2
1
)= P
(χ2 > 10,8
)≈ 0,25(0,2897)
2. ¿Entre que valores simetricos de la varianza se encuentran el 90% de las
observaciones?. En esta parte debemos hallar dos valores digamos b1 y b2 tales
que
P (b1 ≤ S2 ≤ b2)
Siguiendo el mismo procedimiento que en el inciso 1. se tiene que
P (b1 ≤ S2 ≤ b2) = P
((10− 1)b1
1<
(n− 1)S2
σ2<
(10− 1)b21
)= P
(9b11
< χ2 <9b21
)= 0,95
lo cual se cumple si,
9b11
= 3,325 y9b21
= 16,919
Por lo tanto, b1 = 0,369 y b2 = 1,88.
1.4. DISTRIBUCIONES MUESTRALES 29
Distribucion muestral de la diferencia entre 2 medias
En muchas situaciones surge la necesidad de comparar las medias muestrales de
dos poblaciones. Por ejemplo, supongamos que estamos interesados en comparar los
tiempos medios de duracion de dos artefactos electricos. La fabricacion de ambos
marcas de artefactos se realiza por companıas distintas y con diferentes procesos
de fabricacion. Por tanto, los artefactos producidos por cada companıa tendran una
distribucion diferente, una de la otra, en los tiempos de duracion.
Designamos por X1 la variable aleatoria que representa el tiempo de duracion
de la primera marca de artefacto y admitimos que sigue una distribucion N(µ1, σ21).
Analogamente la variable aleatoria X2 representa el tiempo de duracion de la segunda
marca de artefacto que sigue una distribucion N(µ1, σ21). Se selecciona una muestra
aleatoria de tamano n1, de la primera marca de artefacto y una muestra aleatoria
de tamano n2, de la segunda marca de artefacto, ambas muestras independientes.
Entonces si designamos por x1 y x2 los estadısticos medias muestrales de ambas
muestras, estamos interesados en conocer la distribucion muestral de la diferencia
∆x = x1 − x2 para las muestras respectivas de tamano n1 y n2 procedentes de dos
poblaciones normales e independientes. Al igual que para el caso de una poblacion
vamos a estudiar por separado cuando las varianzas poblacionales son conocidas y
cuando son desconocidas.
1. Varianzas Poblacionales conocidas.
De manera analoga al Teorema 1.3 que anunciabamos para la distribucion
muestral de la media, podemos enunciar el siguiente teorema para la diferencia
de medias muestrales.
30 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Teorema 1.6 Sean X11, X12, ..., X1n1 una muestra aleatoria extraıda de una
poblacion que se distribuye N(µ1, σ21) y X21, X22, ..., X2n2 una muestra aleatoria
extraıda de una poblacion que se distribuye N(µ2, σ22), independientes, y
supongamos que σ21 y σ2
1 son conocidas. Entonces la diferencias de medias, ∆X,
se distribuye normal con media ∆µ = µ1−µ2 y varianza σ2∆X
=σ21
n1+
σ22
n2, es decir,
∆X ∼ N(∆µ,σ21
n1+
σ22
n2). Por lo tanto, el estadıstico
Z =∆X −∆µ√
σ21
n1+
σ22
n2
∼ N(0, 1)
Aunque no se demostrara el teorema, es facil ver que
E(∆X) = E(x1 − x2) = E(x1)− E(x2) = µ1 − µ2
V ar(∆X) = V ar(x1 − x2) = V ar(x1) + V ar(x2) =σ21
n1+
σ22
n2
Ejemplo 1.17 Sean X11, X12, ..., X18 una muestra aleatoria extraıda de una
poblacion que se distribuye N(5, 16) y X21, X22, ..., X25 una muestra aleatoria
extraıda de una poblacion que se distribuye N(8, 25), entonces por el teorema
(1.6) se tiene que
∆µX = µ1 − µ2 = 5− 8 = −3
σ2∆X
=σ21
n1+
σ22
n2= 16
8+ 25
5= 7
Por lo tanto, ∆X ∼ N(−3, 7)
Al igual que para una muestra, el resultado del teorema (1.6), permite hallar
probabilidades sobre la diferencia de medias muestrales, lo cual como se vera mas
adelante ayudara a medir el error al estimar un parametro usando un estadıstico.
1.4. DISTRIBUCIONES MUESTRALES 31
Ejemplo 1.18 El precio de venta de una casa nueva en Merida se distribuye
Normal con media 450000 BsF y desviacion tıpica de 64000 BsF, en cambio en
San Cristobal se distribuye Normal con media 440000 BsF y desviacion tıpica de
36000 BsF. Si se toma una muestra aleatoria de 100 casas nuevas en Merida y
120 en San Cristobal . ¿Cual es la probabilidad de que el precio promedio de venta
sea mayor en Merida que en San Cristobal? Consideremos a Merida la poblacion
1 y a San Cristobal la poblacion 2, entonces
∆µX = µ1 − µ2 = 450000− 440000 = 10000
σ2∆X
=σ21
n1+
σ22
n2= 640002
100+ 360002
120= 51760000
por lo tanto, ∆X = x1 − x2 ∼ N(10000, 51760000).
Ası,
P (x1 > x2) = P (x1 − x2 > 0) = P (∆X > 0)
= P
(∆X −∆µ
σ2∆X
>0− 10000√51760000
)= P (Z > −1,39) = 0,9177
2. Varianzas Poblacionales desconocidas.
En general, las varianzas poblacionales no suelen ser conocidas. Ası pues, ahora
queremos obtener la distribucion de la diferencia de medias muestrales x1 − x2
cuando el muestro se realiza sobre dos poblaciones normales, independientes y
con varianzas desconocidas. En estas situaciones, debemos tomar en cuenta el
tamano de la muestra.
32 CAPITULO 1. DISTRIBUCIONES MUESTRALES
a) Tamano de las muestras son mayores que 30
Si el tamano de cada muestra es mayor que 30, la distribucion muestral
de la diferencia de medias sigue siendo normal pero sustituyendo σ2∆X
por
S2∆X
=S21
n1+
S22
n2. Es decir,
∆X ∼ N(∆µ, σ2∆X)
Ejemplo 1.19 La edad promedio de los estudiantes de la Universidad de
los Andes es 22 anos y la de los estudiantes de la Universidad de Oriente es
24 anos. Dada una muestra aleatoria de 50 estudiantes de la ULA se obtuvo
que la varianza era 25, y para 60 estudiantes de la UDO se obtuvo que la
varianza era de 16. Su suponemos que las poblaciones son normales.
1) ¿Cual es la distribucion muestral de la diferencia de las edades de los
estudiantes de la ULA con respecto a los de la UDO?
Sea X1 = La edad promedio de los estudiantes de la ULA ⇒ X1 = 22
Sea X2 = La edad promedio de los estudiantes de la UDO ⇒ X2 = 24
Como las varianzas poblacionales son desconocidas usamos las varian-
zas muestrales, las cuales son S21 = 25 y S2
2 = 16. Debido a que los
tamanos de muestras seleccionados son mayores que 30 (n1 = 50, n2 =
60), entonces ∆X = X1 − X2 ∼ N(∆µ;S2∆X
), donde
∆µ = µ1 − µ2 = 22− 24 = −2 S2∆X =
S21
n1
+S22
n2
=25
50+
16
60= 0,77
Es decir, ∆X ∼ N(−2; 0,77)
1.4. DISTRIBUCIONES MUESTRALES 33
2) ¿Cual es la probabilidad de que dicha diferencia sea mayor que 2?
P (|x1 − x2| > 2) = P (x1 − x2 > 2) + P (x1 − x2 < −2)
= P
(∆X −∆µ
S2∆X
>2− (−2)√
0,77
)+ P
(∆X −∆µ
S2∆X
<−2− (−2)√
0,77
)= P (Z > 4,55) + P (Z < 0) = 0 + 0,50 = 0,50
b) Tamano de al menos una de las muestras es menor que 30
Cuando las varianzas poblacionales son desconocidas y al menos uno de
los tamanos muestrales es menor que 30, al igual que en el caso de una
poblacion, se tiene que el estadıstico
T =∆X −∆µ
S∆X
se distribuye t-student con v grados de libertad. Donde los valores de S∆X y
v depende de si las varianzas poblacionales se consideran iguales o diferentes.
1) Si la varianzas se suponen iguales, se tiene que
S∆X =
√(n1 − 1)S2
1 + (n2 − 1)S22
n1 + n2 − 2
√1
n1
+1
n2
v = n1 + n2 − 2
34 CAPITULO 1. DISTRIBUCIONES MUESTRALES
2) Si la varianzas se suponen diferentes, se tiene que
S∆X =
√S21
n1
+S22
n2
v =(S21
n1+
S22
n2)2
(S21/n1)2
n1−1+
(S22/n2)2
n2−1
Ejemplo 1.20 Se aplicaron dos metodos para ensenar a leer a dos grupos
de ninos de primaria que se eligieron en forma aleatoria y se realizo una
comparacion con base en una prueba de comparacion de lectura al final del
perıodo de ensenanza. La siguiente tabla resume los valores de las medias
muestrales y las varianzas calculadas con los resultados de la prueba. Si se
supone que las puntuaciones obtenidas por cada metodos son normales con
media 60 y 65 respectivamente y que las varianzas poblacionales son iguales,
calcule la probabilidad de que el segundo metodo de ensenanza asegure en
promedio una mayor puntuacion que el primero.
Metodo 1 Metodo 2
Numero de ninos 11 14
Media 64 69
Varianza 52 71
El segundo metodo de ensenanza asegure en promedio una mayor puntuacion
que el primero, esta representado por el evento x1− x2 < 0. De esta manera
se tiene que
∆µ = µ1 − µ2 = 64− 69 = −5
1.4. DISTRIBUCIONES MUESTRALES 35
y
S∆X =
√(n1 − 1)S2
1 + (n2 − 1)S22
n1 + n2 − 2
√1
n1
+1
n2
=
√(11− 1)52 + (14− 1)71
11 + 14− 2
√1
11+
1
14
= 3,19
Por lo tanto,
P (x1 − x2 < 0) = P (∆X < 0)
= P
(∆X −∆µ
S∆X
<0− (−5)
3,19
)= P (T < 1,57) ≈ 0,95
Nota: Hacer el mismo ejemplo suponiendo varianzas diferentes.
Distribucion muestral del cociente de varianzas
Sean dos poblaciones X1 y X2, N(µ1, σ21), N(µ2, σ
22) e independientes, de las cuales
seleccionamos dos muestras aleatorias simples e independientes, de tamanos n1 y
n2, (x11, ..., x1n1 , ) y (x21, ..., x2n2), entonces pueden presentarse fundamentalmente dos
situaciones:
1. µ1 y µ2 son conocidas
2. µ1 y µ2 son desconocidas
1. µ1 y µ2 son conocidas Al ser conocidas las medias poblacionales µ1 y µ2 las
podemos utilizar para el calculo de las varianzas muestrales S∗21 y S∗2
2 ; y como
36 CAPITULO 1. DISTRIBUCIONES MUESTRALES
las muestras son independientes y ademas proceden de distintas poblaciones,
entonces los estadısticos:
S∗21 =
1
n1
n∑i=1
(x1i − µ1)2
S∗22 =
1
n2
n∑i=1
(x2i − µ2)2
son independientes y podemos expresarlos como:
n1S∗21 =
n∑i=1
(x1i − µ1)2 ⇒ n1S
∗21
σ21
=n∑
i=1
(x1i − µ1
σ1
)2 ∼ χ2n1
n2S∗22 =
n∑i=1
(x2i − µ2)2 ⇒ n2S
∗22
σ22
=n∑
i=1
(x2i − µ2
σ2
)2 ∼ χ2n2
pues la suma de n variables aleatorias N(0, 1), independientes y elevadas al
cuadrado siguen una χ2n. Y recordando que la variable aleatoria F de Snedecor
con n1 y n2 grados de libertad, Fn1,n2 , se define como el cociente entre dos
variables aleatorias χ2 independientes divididas cada una de ellas por sus grados
de libertad, tenemos que:
F =
n1S∗21
σ21
/n1
n2S∗22
σ22
/n2
=S∗21
S∗22
σ22
σ21
∼ Fn1,n2
2. µ1 y µ2 son desconocidas
1.4. DISTRIBUCIONES MUESTRALES 37
Al ser desconocidas las medias poblacionales, que sera lo que casi siempre ocurra,
y ser las muestras independientes y ademas procedentes de distintas poblaciones,
entonces los estadısticos:
S21 =
1
n1 − 1
n∑i=1
(x1i − x1)2
S22 =
1
n2 − 1
n∑i=1
(x2i − x2)2
son independientes y ademas
(n1 − 1)S21 =
n∑i=1
(x1i − x1)2 ⇒ (n1 − 1)S2
1
σ21
=n∑
i=1
(x1i − x1
σ1
)2 ∼ χ2n1−1
(n2 − 1)S22 =
n∑i=1
(x2i − x2)2 ⇒ (n2 − 1)S2
2
σ22
=n∑
i=1
(x2i − x2
σ2
)2 ∼ χ2n2−1
Analogamente a como ocurrıa en la situacion anterior, llegaremos a una F-
Snedecor con n1 − 1 y n2 − 1 grados de libertad, en efecto:
F =
(n1−1)S21
σ21
/n1 − 1
(n2−1)S22
σ22
/n2 − 1=
S21
S22
σ22
σ21
∼ Fn1−1,n2−1
Ejemplo 1.21 Se aplicaron dos metodos para ensenar a leer a dos grupos
de ninos de primaria que se eligieron en forma aleatoria y se realizo una
comparacion con base en una prueba de comparacion de lectura al final del
perıodo de ensenanza. La siguiente tabla resume los valores de las medias
muestrales y las varianzas calculadas con los resultados de la prueba. Si se
38 CAPITULO 1. DISTRIBUCIONES MUESTRALES
supone que las puntuaciones obtenidas por cada metodo son normales cuyas
varianzas poblacionales son 60 y 75 respectivamente, calcule la probabilidad de
que el segundo metodo presente mayor variabilidad que el primero.
Metodo 1 Metodo 2
Numero de ninos 11 14
Media 64 69
Varianza 52 71
El segundo metodo presente mayor variabilidad que el primero, esta representado
por el evento S21 < S2
2 . Como la medias poblacionales son desconocidas, se tiene
que:
P (S21 < S2
2) = P
(S21
S22
> 1
)= P
(S21
S22
σ22
σ21
> 175
60
)= P (F < 1,57) ≈ 0,95
Distribucion muestral de la Diferencia de Proporciones
Otro problema que se suele presentar es el de comparar las proporciones p1 y p2, de
dos poblaciones binomiales (si el muestreo es con reemplazo) o hipergeometricas (si
el muestreo es sin reemplazo), basandose en muestras aleatorias simples de tamano
n1 y n2, respectivamente, extraıdas de ambas poblaciones. La comparacion de dichas
proporciones se obtienen a traves del estadıstico ∆p = p1 − p2, cuya distribucion no
es conocida, ya que en teorıa no se conoce cual es la distribucion de la resta de dos
binomiales o de dos hipergeometricas. Por lo tanto, la distribucion de este estadıstico
se definira mas adelante.
1.4. DISTRIBUCIONES MUESTRALES 39
1.4.3. Distribuciones asintoticas
Existen situaciones en las que la distribucion de la poblacion no es conocida, pero si el
tamano de la muestra es grande comparado con el tamano de la poblacion, podemos
usar la distribucion normal como la distribucion del estadıstico de manera aproximada.
Dicho resultado se basa en lo que se conoce como el Teorema Central del Limite, el
cual se enuncia a continuacion sin demostracion:
Teorema 1.7 Sea X1, X2, ..., Xn una muestra aleatoria de una distribucion con media
µ y varianza σ2. Entonces, si n es suficientemente grande, la variable aleatoria
Y =n∑
i=1
Xi
tiene aproximadamente una distribucion normal con media nµ y varianza nσ2, lo cual
se denota como
n∑i=1
Xi → N(nµ;nσ2)
Una muestra es suficientemente grande si n ≥ 30.
Distribucion muestral de la media
En muchas situaciones la poblacion de partida de la cual se extrae la muestra no
es normal. En tales casos la distribucion muestral del estadıstico media muestral x,
sera aproximadamente normal. Vease en el siguiente corolario
Corolario 1.8 Sea x1, x2, ..., xn una muestra aleatoria extraıda de una poblacion cuya
distribucion no es normal, pero que se sabe que tiene media µ y varianza σ2, esta ultima
puede ser o no conocida. De acuerdo con el teorema central del lımite
40 CAPITULO 1. DISTRIBUCIONES MUESTRALES
X =
n∑i=1
Xi
n→ N
(µ;
σ2
n
)cuando la varianza es conocida, o
X =
n∑i=1
Xi
n→ N
(µ;
S2
n
)cuando la varianza es desconocida.
Ejemplo 1.22 Cierta fabrica produce alambres de acero que tiene una media de
resistencia a la traccion de 500 libras y una desviacion estandar de 20 libras. Si se
extrae una muestra aleatoria de 100 alambres de la lınea de produccion durante cierta
semana,
1. ¿cual es la probabilidad de que la media muestral difiera de 500 libras en 4 libras?
2. ¿cual es la probabilidad de que la media muestral sea menor de 496 libras?
Se puede notar que no se dice nada sobre la normalidad de la poblacion, pero como
el tamano de la muestra es mayor que 30 (n = 100)
Distribucion muestral de la varianza
Se vio que si la poblacion de donde se extraıa la muestra se distribuıa N(µ;σ2) entonces
(n− 1)S2
σ2=
n∑i=1
(xi − x)2
σ2
sigue una distribucion χ2 con n− 1 grados de libertad.
1.4. DISTRIBUCIONES MUESTRALES 41
Ahora, si la distribucion de la poblacion no es conocida, pero el tamano de la muestra
es suficientemente grande, se tiene que
X → N
(µ;
S2
n
)Por lo tanto, se mantiene el resultado anterior.
Distribucion muestral de la proporcion
Sea x el numero de exitos en una muestra de tamano n, extraıda de una poblacion
cuya proporcion de exitos es Π. Por el teorema central del limite, si n ≥ 30, se cumple
que
p → N(µp; σ2p)
donde
µp = E(p) = E(x
n) =
1
nE(x) =
1
n∗ nΠ = Π
σ2p = V ar(p) = V ar(
x
n) =
1
n2V ar(x) =
1
n2nΠ(1− Π) =
Π(1− Π)
n
Distribucion muestral de la diferencia de medias
Si las poblaciones de donde se extraen las muestras no son normales, pero los tamanos
de ambas muestras son grandes, entonces podemos aplicar el siguiente resultado
Corolario 1.9 Sean x11, x12, ..., x1n y x21, x22, ..., x2n muestras aleatorias extraıdas de
poblaciones cuya distribucion no es normal, pero que se sabe que tienen medias µ1 y µ2
42 CAPITULO 1. DISTRIBUCIONES MUESTRALES
y varianza σ21 σ2
2, respectivamente, estas ultimas puede ser o no conocidas. De acuerdo
con el teorema central del limite
∆X → N(∆µ;σ2∆X)
donde
∆µ = µ1 − µ2 σ2∆X =
σ21
n1
+σ22
n2
y
Z =∆X −∆µ
σ∆X
∼ N(0, 1)
cuando las varianzas son conocidas, o
∆X → N(∆µ;σ2∆X)
donde
∆µ = µ1 − µ2
y
Z =∆X −∆µ
S∆X
∼ N(0, 1)
cuando la varianzas son desconocidas.
Distribucion muestral del cociente de varianzas
no hay cambios
1.4. DISTRIBUCIONES MUESTRALES 43
Distribucion muestral de la Diferencia de Proporciones
Consideremos dos muestras aleatorias simples e independientes de tamano n1 y
n2, procedentes de poblaciones binomiales con parametros Π1 y Π2, respectivamente,
entonces la distribucion muestral de la diferencia de proporciones muestrales
∆p = p1 − p2
tendra aproximadamente (para n1 y n2 , grandes) una distribucion normal con
media
µ∆p = Π1 − Π2
y varianza
σ2∆p =
Π1(1− Π1)
n1
− Π2(1− Π2)
n2
es decir,
∆p → N(µ∆p;σ2∆p)
44 CAPITULO 1. DISTRIBUCIONES MUESTRALES
1.5. Ejercicios.
1. Una poblacion consiste en los cuatro valores siguientes: 12, 12, 14 y 16.
a) Enumere todas las muestras posibles de tamano 2 y calcule la media de cada
muestra.
b) Determine la distribucion muestral de la media.
c) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
d) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.
2. Una poblacion esta compuesta de los siguientes cinco valores: 2, 2, 4, 4 y 8
a) Enumere todas las muestras posibles de tamano 3 y calcule la media de cada
muestra.
b) Determine la distribucion muestral de la media.
c) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
d) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.
3. Hay cinco representantes de ventas en la agencia Escalante Motors. A
continuacion se listan los cinco representantes y el numero de autos que vendieron
la semana pasada:
1.5. EJERCICIOS. 45
Empleado Salario (BsF)
Ramon 8
Juan 6
Pedro 4
Luis 10
Victor 6
a) ¿Cuantas muestras de tamano 2 son posibles?.
b) Enumere todas las muestras posibles de tamano 2 y calcule la media de cada
muestra.
c) Determine la distribucion muestral de la media.
d) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
e) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.
4. Empresas POLAR tiene 20 representantes de ventas que venden su producto en
Merida. A continuacion se listan los numeros de unidades vendidas (en miles)
durante un mes por cada representante. Supongase que tales cifras son una
poblacion de valores:
2 3 2 3 3 4 2 4 3 2 2 7 3 4 5 3 3 3 3 5
a) Elabore un grafico de la distribucion de la poblacion.
b) Calcule la media poblacional
46 CAPITULO 1. DISTRIBUCIONES MUESTRALES
c) Seleccione al azar cinco muestras de 5 elementos cada una, y calcule la media
de cada muestra.
d) Calcule la distribucion de la media muestral.
e) Compare la media de la distribucion de medias muestrales, con la media de
la poblacion. ¿Se esperarıa que fueran iguales?.
f ) Elabore un grafico de las medias muestrales. ¿Observa alguna diferencia
entre la forma de la distribucion de dichas medias y la distribucion de la
poblacion.
5. Una empresa tiene seis representantes de ventas. En la tabla siguiente se indica
la cantidad de cocinas que cada uno vendio el mes pasado.
Vendedor Cocinas
Pedro 54
Maria 50
Jose 52
Luis 48
Victor 50
Ana 52
a) ¿Cuantas muestras de tamano dos se pueden hacer?.
b) Seleccione todas las muestras posibles de dos elementos y calcule la media
de unidades vendidas.
c) Organice la media muestral en una distribucion de frecuencia.
d) ¿Cual es la media de la poblacion?, ¿cual es la media de la media muestral?
e) ¿Cual es la forma de la distribucion de la media muestral?.
1.5. EJERCICIOS. 47
f ) ¿Cual es la forma de la distribucion de la poblacion?.
6. Como parte de su servicio al cliente, una empresa aerea selecciona aleatoriamente
10 pasajeros de uno de sus vuelos nacionales de las 9 de la manana. A cada uno de
los pasajeros seleccionados se le pregunta acerca de los servicios en el aeropuerto,
las comidas, los servicios a bordo, etc. Para tomar la muestra, a cada pasajero se
le dio un numero conforme abordaba el avion. Los numeros empiezan en 001 y
terminan en 250.
a) Seleccione al azar 10 numeros adecuados utilizando la tabla de numeros
aleatorios.
b) Otra manera de seleccionar los individuos serıa a traves de una muestra
sistematica. Seleccione una muestra sistematica usando la tabla de numeros
aleatorios para seleccionar el primer individuo.
c) Para ambas muestras determine la distribucion de probabilidad de la media
muestral, la media y la varianza.
7. De las muestras aleatorias de tamano n de poblaciones con las medias y
varianzas dadas a continuacion. Encuentre la media y la desviacion estandar
de la distribucion muestral de la media en cada caso.
a) n = 36, µ = 10, σ2 = 9.
b) n = 100, µ = 5, σ2 = 4.
c) n = 8, µ = 120, σ2 = 1.
8. Remıtase al ejercicio anterior.
48 CAPITULO 1. DISTRIBUCIONES MUESTRALES
a) Si las poblaciones muestredas son normales, ¿cual es la distribucion muestral
de la media para los incisos a, b, c?
b) Si las poblaciones muestredas no son normales, ¿cual es la distribucion
muestral de la media para los incisos a, b, c?, ¿En que se basa?.
9. Una muestra aleatoria de n observaciones se elige de una poblacion con desviacion
estandar σ = 1. Calcule el error estandar de la media para estos valores de n
a. n = 1 b. n = 2 c. n = 4 d. n = 9 e. n = 16
f. n = 25 g. n = 100
10. Remıtase al ejercicio anterior. Grafique el error estandar de la media contra el
tamano muestral n y una los puntos con una curva uniforme. ¿Cual es el efecto
de aumentar el tamano de la muestra en el error estandar?.
11. Suponga que se selecciona una muestra aleatoria de n = 25 observaciones de
una poblacion que tiene distribucion normal, con media igual a 106 y desviacion
estandar igual a 12.
a) De la media y la desviacion estandar de la distribucion muestral de la media.
b) Encuentre la probabilidad de que la media muestral sea mayor que 110.
c) Estime la posibilidad de que la media muestral se desvıe de la media de la
poblacion en no mas de 4.
12. La media de una poblacion normal es 60 y la desviacion estandar es 12. Se toma
una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral
a) sea mayor que 63.
b) menor que 56.
1.5. EJERCICIOS. 49
c) este entre 56 y 63.
13. La vida media de unas baterıas para radio portatil es 35 horas. La distribucion de
los tiempos de vida de estas baterıas sigue una distribucion normal con desviacion
estandar de 5.5 horas. Como parte del programa de pruebas de sus artıculos el
fabricante de radios portatiles prueba una muestra de 25 baterıas.
a) ¿Que se puede decir acerca de la forma de la distribucion de la media
muestral?.
b) ¿Cual es el error estandar de la distribucion de la media muestral?.
c) ¿Que fraccion de todas las muestras tendra una vida util mayor que 36
horas?.
d) ¿Que fraccion de todas las muestras tendra una vida util mayor que 34.5
horas?.
e) ¿Que fraccion de todas las muestras tendra una vida util entre 34.5 y 36
horas?.
14. Segun algunos estudios la estatura de los meridenos se distribuye normal con
media 1.70. De 50 meridenos seleccionados al azar se obtuvo que la desviacion
estandar era de 0.10, ¿cual es la probabilidad de que la estatura media de los 50
meridenos este por encima de 1.75?
15. El precio de las hamburguesas en la ciudad de Merida sigue una distribucion
normal cuyo precio promedio es de 20 BsF. Un viernes en la tarde se realizo
un estudio en varios negocios de hamburguesas de donde se registraron el precio
de 35 hamburguesas, encontrandose que las mismas presentaban una desviacion
50 CAPITULO 1. DISTRIBUCIONES MUESTRALES
estandar de 2 BsF. ¿Cual es la probabilidad de que el precio promedio de las 35
hamburguesas sea menor que 21 BsF?.
16. Segun algunos estudios la edad de los meridenos se distribuye normal con media
35 anos. De 25 meridenos seleccionados al azar se obtuvo que la desviacion
estandar era de 5 anos, ¿cual es la probabilidad de que la edad media de los
25 meridenos este por debajo de 38 anos?
17. El precio de los perros calientes en cierta ciudad sigue una distribucion normal
cuyo precio promedio es de 10 BsF. Una regulacion del gobierno establece que el
precio de los perros calientes no debe ser mayor a 9 BsF. Un estudio realizado
en varios negocios de comida informal se registro el precio de 22 perros calientes
encontrandose que los mismas presentaban una desviacion estandar de 2 BsF.
¿Cual es la probabilidad de que el precio promedio de los 10 perros calientes no
viole la regulacion?.
18. Suponga que el profesor universitario en instituciones con carreras de dos anos
gana un promedio de 65608 BsF. por ano con una desviacion estandar de 4000
BsF. En un esfuerzo por verificar este nivel del sueldo, se elige al azar una
muestra aleatoria de 60 profesores de una base de datos del personal para estas
instituciones en Venezuela.
a) Describa la distribucion muestral de la media.
b) ¿Dentro de que lımites esperarıa usted que se ubicara el promedio muestral
con probabilidad 0.95?
c) Calcule la probabilidad de que la media muestral sea mayor que 67000 BsF.?
1.5. EJERCICIOS. 51
d) Si su muestra aleatoria produjera en realidad una media muestral de 67000,
¿considerarıa esto poco comun?.
19. De acuerdo con un estudio, un contribuyente necesita 30 minutos para llenar,
copiar y enviar una determinada forma fiscal. Una agencia de investigacion
encuentra en una muestra de 40 contribuyentes una desviacion estandar de 8
minutos.
a) ¿Que se debe suponer acerca de la forma de la distribucion?.
b) En este ejemplo, ¿cual es el error estandar de la media?.
c) ¿Cual es la probabilidad de tener una media muestral superior a 32 minutos?.
d) ¿Cual es la probabilidad de tener una media muestral que este entre 32 y
35 minutos?.
e) ¿Cual es la probabilidad de tener una media muestral mayor que 35
minutos?.
20. En Venezuela la edad promedia en la que los hombres se casan por primera vez
es 24.8 anos. No se conoce ni la forma ni la desviacion estandar de la poblacion.
¿Cual es la probabilidad de encontrar en una muestra de 60 hombres que la edad
promedio a la que se casaron sea 25.1 anos?. Supongase que la desviacion estandar
muestral es 2.5 anos.
21. En un supermercado, la cantidad media de una compra es 23,50 BsF. No se conoce
ni la forma ni la desviacion estandar de la poblacion. Se toma una muestra de 50
clientes,Si la desviacion estandar de la muestra es 5 BsF, entonces:
a) ¿Cual es la probabilidad de que la media muestral sea inferior a 25 BsF?.
52 CAPITULO 1. DISTRIBUCIONES MUESTRALES
b) ¿Cual es la probabilidad de que la media muestral sea mayor que 22.5 y
menor que 25 BsF?.
c) ¿Entre que limites se encuentra el 90% de las medias muestrales?.
22. La media de una poblacion de forma desconocida es 75. Se toma una muestra de
40. La desviacion estandar de la muestra es 5. Calcule la probabilidad de que la
media muestral
a) sea menor que 74.
b) este entre 74 y 74.
c) este entre 76 y 77.
d) sea mayor que 77.
23. Se eligen muestras aleatorias de tamano n de poblaciones binomiales con los
parametros de poblacion Π dados a continuacion. Encuentre la media y la
desviacion estandar de la distribucion muestral de la proporcion p en cada caso
si el muestreo se hace sin reemplazo.
a) n = 10, p = 0,3
b) n = 15, p = 0,1
c) n = 5, p = 0,7
24. Realice el ejercicio anterior si el muestreo se hace con reemplazo.
25. Determine la distribucion muestral del ejercicio 23
26. Determine la distribucion muestral del ejercicio 24
1.5. EJERCICIOS. 53
27. La mayorıa de los venezolanos alivian el estres comiendo dulces. Segun un
estudio el 46% de los venezolanos comen en exceso comidas dulces cuando estan
estresados. Si se selecciona una muestra aleatoria sin reemplazo de 10 venezolanos
a) Determine la distribucion de la proporcion muestral.
b) ¿Cual es la probabilidad de que la proporcion muestral sea mayor que 0.5?
c) ¿Cual es la probabilidad de que la proporcion muestral este entre 0.3 y 0.4?
28. Resuelva el ejercicio 27 suponiendo que el muestreo se hace con reemplazo.
29. En una asamblea de deportes hay 4 personas que juegan futbol, 3 beisbol y 3
domino. Si se seleccionan 4 personas al azar sin reemplazo
a) ¿Cual es la distribucion muestral de la proporcion de personas que juegan
futbol?
b) ¿Cual es la probabilidad de que dicha proporcion sea menor que 0.5?
30. Resuelva el ejercicio 29 suponiendo que el muestreo se hace con reemplazo.
31. La produccion de leche de la companıa LACTOSA se distribuye normal con una
desviacion estandar de 0.1 litros. De una muestra de 60 litros de leche, ¿cual es
la probabilidad de que la varianza sea mayor a 0.0144 litros2?
32. Si cierto proceso productivo de azucar presenta una variabilidad mayor a 10000
gramos2 es necesario hacer un ajuste en la maquina. Se sabe por estudios
anteriores que la produccion de azucar se distribuye normal con una varianza
de 2500 gramos2. Si se selecciona una muestra de 30 paquetes de azucar, ¿Cual
es la probabilidad de que sea necesario reajustar la maquina?.
54 CAPITULO 1. DISTRIBUCIONES MUESTRALES
33. La duracion (en meses) de dos marcas de baterıas se distribuyen normal con
medias 38 y 35 respectivamente y desviaciones estandar 8 y 6 respectivamente.
Si se selecciona una muestra aleatoria de 36 baterıas de cada marca, ¿cual es la
probabilidad de que la duracion promedio de la marca A sea:
a) Superior a la de la marca B en dos meses o mas?
b) Inferior a la de la marca B en 2 meses o menos?.
34. Una tienda por departamentos tiene dos planes de cuentas de cargo disponibles
para sus clientes con cuenta corriente de credito. Los saldos de cada plan se
distribuyen normal con medias 15000 BsF y 18000 Bs, respectivamente. La tienda
selecciono una muestra aleatoria de 40 cuentas del plan A y 40 cuentas del plan
B, obteniendo que las medias y las desviaciones estandar eran 12750 y 2550 para
el plan A y 18700 y 2404 para el plan B. ¿cual es la probabilidad de que los saldos
promedios del plan A sean menor que los del plan B?.
35. Cierta marca de almohadas tienen un peso medio de 15 gramos y una desviacion
estandar de 0.006 gramos. Se toman dos muestras aleatorias incondicionales en
forma independiente de cierto dıa de produccion, con n1 = 500 y n2=800. ¿Cual es
la probabilidad de que las medias muestrales difieran en mas de 0.0006 gramos?,
¿de que difieran en menos de 0.0003 gramos?.
36. Dos marcas de tubos de television, A y B, poseen los siguientes parametros:
µA = 1,400 horas, σ2A = 40,000 horas2, µB = 1,200 horas y σ2
B = 10,000
horas2. Se extrae una muestra aleatoria de 125 tubos de cada marca; determine
la probabilidad de que
a) la marca A tendra una media de vida de por lo menos 160 horas mas que B
1.5. EJERCICIOS. 55
b) La marca A tendra una media de vida de por lo menos 250 hora mas que B
37. El sueldo anual de los profesores en cierta ciudad es de 120000 BsF como
promedio, con una desviacion estandar de 10000 BsF. En la misma ciudad, el
salario anual de los medicos es de 150000 BsF como promedio, con una desviacion
estandar de 15000 BsF. Se toma una muestra aleatoria de 100 de cada poblacion;
¿cual es la probabilidad de que las medias muestrales difieran en menos de
50000BsF; de que difieran en mas de 60000 BsF?.
38. El alcalde de la ciudad de Merida compra 100 bombillos de luz de la marca A y
otros 100 de la marca B. Al probar estos bombillos, hallo que xA = 1300 horas,
SA = 90 horas, xB = 1250 horas y SA = 100 horas. ¿Cual es la probabilidad de
que la diferencia entre las dos medias de poblacion correspondientes sea mayor
de 40 horas?.
56 CAPITULO 1. DISTRIBUCIONES MUESTRALES
Capıtulo 2
Inferencia Estadıstica: Estimacion
2.1. Introduccion.
En muchas investigaciones se esta interesado en estudiar una o mas poblaciones, las
cuales pueden ser caracterizadas por algunos parametros, es por ello que en multiples
estudios estadısticos se centre la atencion sobre dichos parametros. Por ejemplo,
supongamos que se desea conocer el ingreso promedio de los habitantes del Municipio
Libertador del Estado Merida, en dicho caso el parametro es la media poblacional µ.
Obtener el valor del parametro en general es difıcil, porque para ello serıa necesario
tener toda la informacion de la poblacion, por ejemplo, el valor de µ puede ser
calculado si contamos con el salario de todos los habitantes de la region en estudio,
pero evidentemente eso no es posible, bien sea porque no disponemos del tiempo o del
dinero necesario para recoger la informacion.
En tales situaciones se recomienda seleccionar una muestra aleatoria de dicha
poblacion y a partir de esos datos calcular el sımil de la muestra en la poblacion,
conocido como estadıstico, el cual es nos da informacion sobre el valor del parametro.
57
58 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
En nuestro ejemplo, seleccionamos una muestra aleatoria de trabajadores de la region
en estudio, a quienes se les tomarıa el sueldo mensual, y a partir de dichos datos se
calcula la media muestral X, el cual como veremos es el mejor estadıstico para estimar
la media poblacional µ. Este procedimiento se conoce como Inferencia Estadıstica.
Segun Casas(), el objetivo basico de la inferencia estadıstica es hacer inferencias
o sacar conclusiones sobre la poblacion a partir de la informacion contenida en una
muestra aleatoria de la poblacion. Mas especıficamente, podemos decir que la inferencia
estadıstica consiste en el proceso de seleccion y utilizacion de un estadıstico muestral,
mediante el cual, utilizando la informacion que nos proporciona una muestra aleatoria,
nos permite sacar conclusiones sobre caracterısticas poblacionales. Es decir, supongase
que se tiene una poblacion, la cual se representa por su funcion de distribucion
y el parametro poblacional se denota por θ, que toma valores dentro del espacio
parametrico Θ, el parametro puede ser cualquiera, por ejemplo, la media µ, la
varianza σ2 , o la proporcion poblacional π. Seleccionamos una funcion de las variables
aleatorias muestrales X1, X2, ..., Xn, que la denotaremos por θ = g(X1, X2, ..., Xn) y la
utilizaremos para obtener la inferencia sobre el valor del parametro θ.
Las inferencias sobre el valor de un parametro poblacional θ se pueden obtener
basicamente de dos maneras: a partir de estimacion o bien a partir de la prueba de
hipotesis.
En la estimacion, basta seleccionar un estadıstico muestral cuyo valor se
utilizara como estimador del valor del parametro poblacional.
En la prueba de hipotesis, se hace una hipotesis sobre el valor del parametro
θ y se utiliza la informacion proporcionada por la muestra para decidir si la
hipotesis se acepta o no.
2.2. ESTIMACION 59
Ambos metodos de inferencia estadıstica utilizan las mismas relaciones teoricas
entre resultados muestrales y valores poblacionales. Ası pues, una muestra es sacada
de la poblacion y un estadıstico muestral es utilizado para hacer inferencias sobre
el parametro poblacional. En estimacion, la informacion muestral es utilizada para
estimar el valor del parametro θ. En la prueba de hipotesis, primero se formula la
hipotesis sobre el valor de θ y la informacion muestral se utiliza para decidir si la
hipotesis formulada deberıa ser o no rechazada.
En este capıtulo nos ocuparemos de la estimacion estadıstica y dejaremos para el
capıtulo siguiente la prueba de hipotesis.
2.2. Estimacion
La estimacion estadıstica se divide en dos grandes grupos: la estimacion puntual
y la estimacion por intervalos.
La estimacion puntual consiste en obtener un unico numero, calculado a partir
de las observaciones muestrales, que es utilizado como estimacion del valor del
parametro θ. Se le llama estimacion puntual porque a ese numero, que se utiliza
como estimacion del parametro θ, se le puede asignar un punto sobre la recta
real.
En la estimacion por intervalos se obtienen dos puntos (un extremo inferior
y un extremo superior) que definen un intervalo sobre la recta real, el cual
contendra con cierta seguridad el valor del parametro θ.
Por ejemplo, si el parametro poblacional es el salario promedio de los habitantes del
Municipio Libertador del Estado Merida, basandonos en la informacion proporcionada
60 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
por una muestra podrıamos obtener una estimacion puntual del parametro µ, que lo
denotaremos por µ;µ = 1250 BsF, sin embargo, el intervalo de estimacion para µ serıa
de la forma (1200, 1300), es decir, de 1200 BsF a 1300 BsF, con un cierto margen de
seguridad.
2.2.1. Estimacion Puntual
Consideremos una poblacion con funcion de distribucion es F (x; θ), donde θ es
el parametro poblacional desconocido que toma valores en el espacio parametrico Θ.
Sea X1, X2, ..., Xn una muestra aleatoria extraıda de dicha poblacion. El estimador
puntual o simplemente estimador del parametro poblacional θ es una funcion
de las variables aleatorias u observaciones muestrales y se representa por θ =
g(X1, X2, ..., Xn).
Para una realizacion particular de la muestra x1, x2, ..., xn se obtiene un valor
especıfico del estimador que recibe el nombre de estimacion del parametro poblacional
θ y lo denotaremos por θ = g(x1, x2, ..., xn)
Vemos pues que existe diferencia entre estimador y estimacion. Utilizaremos el
termino estimador cuando nos referimos a la funcion de las variables aleatorias
muestralesX1, X2, ..., Xn, y los valores que toma la funcion estimador para las diferentes
realizaciones o muestras concretas seran las estimaciones.
El estimador es un estadıstico y, por tanto, una variable aleatoria y el valor de
esta variable aleatoria para una muestra concreta x1, x2, ..., xn sera la estimacion
puntual. Ademas como vimos antes, por ser el estimador un estadıstico este tiene
una distribucion de probabilidad que es la distribucion muestral del estadıstico.
Para clarificar la diferencia entre estimador y estimacion consideremos el siguiente
ejemplo: supongamos que pretendemos estimar la renta media µ de todas las familias de
2.2. ESTIMACION 61
una ciudad, para ello parece logico utilizar como estimador de la media poblacional µ la
media muestral X siendo necesario seleccionar una muestra aleatoria que supondremos
de tamano n = 80, a partir de la cual obtendrıamos la renta media de la muestra, por
ejemplo, x = 1500 BsF. Entonces el estimador de la media poblacional µ sera, µ = X,
es decir, el estadıstico media muestral X y la estimacion puntual sera µ = x = 1500
BsF. Observemos que designamos por X la variable aleatoria media muestral de las
variables aleatorias muestrales X1, X2, , .., Xn, y por x designamos una realizacion para
una muestra especıfica x1, x2, , .., xn, que nos da la correspondiente estimacion puntual
del parametro µ, es decir, µ = x.
Un problema que se consigue un estadıstico es que pueden existir varios estimadores
para un parametro, lo que trae como consecuencia que el estadıstico tenga que
seleccionar entre ellos el mejor. Una manera de hacer esta eleccion es basandose en
las propiedades deseables que un buen estimador deberıa tener. Veamos a continuacion
brevemente algunas propiedades que un buen estimados debe poseer.
Propiedades de un Estimador Puntual
1. Insesgado. El estadıstico θ = g(X1, ..., Xn) es un estimador insesgado del
parametro θ, si la esperanza matematica del estimador θ es igual al parametro θ,
esto es:
E(θ) = θ (2.1)
para todos los valores de θ.
Es facil ver que la media muestral X es un estimador insesgado de µ, pues
E(X) = µ. Se deja como ejercicio probar que la varianza muestral dada como
S∗2 =
n∑i=1
(xi − x)2
nno es insesgados y que la varianza muestral dada como
62 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
S2 =
n∑i=1
(xi − x)2
n−1si es insesgado.
2. Eficiente. En algunas situaciones podemos conseguirnos el caso en que dos
estimadores que tenemos a disposicion sean insesgados. En ese caso debemos
recurrir a otra propiedad que permita diferenciar a dichos estimadores. Una
opcion seria medir sus eficiencias. Un estimador θ1 es mas eficiente que otro
estimador θ2 si la varianza del primero es menor que la varianza del segundo.
Este criterio parece ser un concepto intuitivamente claro. Evidentemente cuanto
mas pequena es la varianza de un estimador, mas concentrada esta la distribucion
del estimador alrededor del parametro que se estima y, por lo tanto, es mejor.
La mejor ilustracion de la eficiencia es los estimadores es la estimacion de µ por la
media y la mediana muestrales. Si la poblacion esta distribuida simetricamente,
entonces tanto la media muestral como la mediana muestral son estimadores
insesgados de µ. Sin embargo podemos decir que la media muestral es mejor que
la media muestral como un estimador de µ, ya que V (x) = σ2
ny V (Med) =
1,57076σ2
n, es decir, la media muestral es mas eficiente que la mediana pues
V (x) < V (Med). Ası, concluimos que la media muestral es mejor estimador
que la mediana muestral como un estimador de µ.
3. Consistente. Hasta ahora hemos considerado propiedades de los estimadores
puntuales basados en muestras aleatorias de tamano n, pero parece logico esperar
que un estimador sera tanto mejor cuanto mayor sea el tamano de la muestra.
Ası pues cuando el tamano de la muestra aumenta y por tanto la informacion
que nos proporciona esa muestra es mas completa, resulta que la varianza del
estimador suele ser menor y la distribucion muestral de ese estimador tendera a
2.2. ESTIMACION 63
encontrarse mas concentrada alrededor del parametro que pretendemos estimar.
Por lo tanto diremos que un estimador insesgado es consistente si su varianza
tiende a disminuir a medida que el tamano de la muestra aumenta. Es decir:
V (θ) → 0 cuando n → ∞ (2.2)
Es facil ver que X es un estimador consistente, pues V (X) = σ2
nlo cual tiende a
cero cuando n es muy grande.
4. Suficiente. Una expresion matematica de esta ultima propiedad deseable, es
bastante complicada. Por fortuna, encontramos que este concepto implica un
significado intuitivo preciso. Se dice que un estimador es suficiente si toda la
informacion que contiene la muestra sobre el parametro esta contenida en el
estimador. El significado de la suficiencia reside en el hecho de que si existe
un estimador suficiente, es absolutamente innecesario considerar cualquier otro
estimador. Puede mencionarse ahora que X, p, S2,∆X y ∆p son estimadores
suficientes de los parametros µ, π, σ2,∆µ y ∆π.
Estimadores de Parametros usados en este curso
En la siguiente tabla se muestran los mejores estimadores de los parametros
mas usuales. Dichos estimadores son insesgados, consistentes, eficientes y suficientes.
Ademas se muestra su valor esperado y la varianza.
64 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Parametro (θ) Estimador (θ) E(θ) V (θ)
µ X µ σ2
n
π p π π(1−π)n
σ2 S2 σ2 -
∆µ ∆X ∆µσ21
n1+
σ22
n2
∆π ∆p ∆π π1(1−π1)n1
+ π2(1−π2)n2
2.3. Estimacion por Intervalo
En la seccion anterior, nos hemos ocupado de definir los estimadores puntuales y
als propiedades que estos deben poseer. Veıamos que los estimadores eran funciones
de las observaciones muestrales, y cuando se calcula el valor del estimador θ ;para una
muestra concreta entonces se tiene la estimacion puntual; valor que generalmente difiere
del verdadero valor del parametro θ y, en consecuencia, no nos proporciona suficiente
informacion sobre el parametro, siendo entonces deseable el acompanar a la estimacion
del parametro θ, de alguna medida decl posible error asociado a esta estimacion. Es
decir, asociado a cada estimacion del parametro daremos un intervalo:
[θ1(X1, ..., Xn); θ2(X1, ..., Xn)]
y una medida que nos refleje la confianza que tenemos acerca de que el verdadero
valor del parametro θ se encuentre dentro del intervalo.
Observemos que los extremos del intervalo variaran de manera aleatoria de una
muestra a otra, pues dependen de las observaciones de la muestra, luego tanto los
extremos del intervalo como la longitud del intervalo seran cantidades aleatorias y,
por tanto, no podremos saber con seguridad si el valor del parametro θ se encuentre
dentro del intervalo obtenido cuando se selecciona una sola muestra. El objetivo que
2.3. ESTIMACION POR INTERVALO 65
se pretende con los intervalos de confianza es obtener un intervalo de poca amplitud y
con una alta probabilidad de que el parametro θ se encuentra en su interior. Ası pues,
elegiremos probabilidades cercanas a la unidad, que se representan por 1 − α y cuyos
valores mas frecuentes suelen ser 0,90, 0,95 y 0,99.
Luego si deseamos obtener una estimacion por intervalo del parametro poblacional
θ desconocido, tendremos que obtener dos estadısticos θ1(X1, ..., Xn) y θ2(X1, ..., Xn)
que nos daran los valores extremos del intervalo, tales que
P [θ1(X1, ..., Xn) ≤ θ ≤ θ2(X1, ..., Xn)] = 1− α (2.3)
Al valor 1−α se le conoce como coeficiente de confianza y al valor 100(1−α)% se
le llama nivel de confianza.
Observando el intervalo dado en la expresion 2.3 se pone de manifiesto:
1. Que se trata de un intervalo aleatorio, pues los extremos dependen de la muestra
seleccionada y, por tanto, θ1 y θ2 son variables aleatorias.
2. Que el parametro θ es desconocido.
3. En consecuencia y antes de seleccionar una muestra no podemos decir que la
probabilidad de que el parametro θ tome algun valor en el intervalo (θ1, θ2) es
igual a 1−α, afirmacion que no serıa correcta despues de seleccionar la muestra.
Para una muestra concreta se tendrıan unos valores:
θ1(x,..., xn) = a y θ2(x,..., xn) = b
y no podemos afirmar que
P [a ≤ θ ≤ b] = 1− α
66 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
ya que no tiene sentido alguno, pues a, b y θ son tres valores constantes. Sin embargo,
una vez seleccionada la muestra y calculados, los valores de a y b si tiene sentido decir
que
La probabilidad es 1 si θ ∈ [a, b]
La probabilidad es 0 si θ /∈ [a, b]
Luego, no podemos referirnos a la probabilidad del intervalo numerico sino que nos
referiremos al coeficiente de confianza del intervalo, y en consecuencia al nivel de
confianza del intervalo, pues la probabilidad ya hemos indicado que, despues de extraıda
la muestra, sera 1 o cero.
Para precisar mas sobre la interpretacion del intervalo de confianza, consideramos
un numero grande de muestras del mismo tamano y calculamos los lımites inferior y
superior para cada muestra, es decir a y b, entonces se obtendra que aproximadamente
en el 100(1 − α)% de los intervalos resultantes estara en su interior el valor del
parametro θ, y en el 100α% restante no estara en su interes el valor del parametro
θ, y en consecuencia al intervalo (a, b) se le llama intervalo de confianza al nivel de
confianza del 100(1− α)%. Es decir, si tomamos 100 muestras aleatorias de tamano n
de la misma poblacion y calculamos los lımites de confianza 6 y 8 para cada muestra,
entonces esperamos que aproximadamente el 95% de los intervalos contendran en su
interior el verdadero valor del parametro p, y el 5% restante no lo contendran. Pero
como nosotros, en la practica, solo tomamos una muestra aleatoria y, por tanto, solo
tendremos un intervalo de confianza, no conocemos si nuestro intervalo es uno del 95%
o uno del 5%, y por eso hablamos de que tenemos un nivel de confianza del 95%.
La precision de la estimacion por intervalos vendra caracterizada por el coeficiente
de confianza 1 − α y por la amplitud del intervalo. Ası pues, para un coeficiente
2.3. ESTIMACION POR INTERVALO 67
de confianza fijo, cuanto mas pequenos sea el intervalo de confianza mas precisa
sera la estimacion, o bien para una misma amplitud del intervalo, cuanto mayor sea el
coeficiente de confianza mayor sera la precision.
2.3.1. Metodos de construccion de intervalos de confianza
Basicamente existen dos metodos para la obtencion de intervalos de confianza de
parametros. El primero, el metodo pivotal o metodo del pivote basado en la posibilidad
de obtener una funcion del parametro desconocido y cuya distribucion muestral no
dependa del parametro. El segundo, el metodo general de Neyman, esta basado en la
distribucion de un estimador puntual del parametro. En este curso solo construiremos
intervalos de confianza con el metodo de la cantidad pivotal.
Metodo de la cantidad pivotal
Antes de ver en que consiste el metodo tenemos que definir cantidad pivotal.
Definicion 2.1 (Cantidad Pivotal) Una cantidad pivotal o pivote, es una funcion
de las observaciones muestrales y del parametro θ, T (X1, ..., Xn; θ), cuya distribucion
muestral no depende del parametro θ.
A continuacion se presentan algunos ejemplos de cantidad pivotal.
1. Z = barX−µσbarX
es una cantidad pivotal ya que depende de la muestra a traves de
barX y del parametro µ, cuya distribucion es la normal estandar, la cual no
depende del valor de µ.
2. W = (n−1)S2
σ2 es una cantidad pivotal ya que depende de la muestra a traves de
S2 y de σ2, cuya distribucion es la chi-cuadrado, la cual no depende del valor de
σ2.
68 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
3. T = ∆X−∆µσ∆X
es una cantidad pivotal ya que depende de la muestra a traves de
∆X y del parametro ∆µ, cuya distribucion es la t-student, la cual no depende
del valor de ∆µ.
Ahora que sabemos que es una cantidad pivotal, vemos en que consiste el metodo
de la cantidad pivotal.
1. Definir una cantidad pivotal
2. Como la distribucion de la cantidad pivotal es conocida, dada un nivel de
confianza, se hallan los valores de a y b tales que P (a ≤ T (X1, ..., Xn; θ) ≤
b) = 1− α
3. Como T (X1, ..., Xn; θ) es una funcion del parametro, se despeja de la desigualdad
dicho valor, con lo cual se obtiene el intervalo de confianza del parametro deseado.
2.3.2. Intervalos de confianza en poblaciones normales
En esta seccion consideramos que la poblacion sera normal y obtendremos intervalos
de confianza para los parametros poblaciones en el caso de una muestra y de dos
muestras. Aplicaremos el metodo pivotal, pues en estos casos no existe gran dificultad
para obtener una funcion del parametro desconocido cuya distribucion muestral no
dependa del parametro.
1. Intervalo de confianza para la media de una poblacion normal
Sea x1, x2, ..., xn una muestra aleatoria extraıda de una poblacion N(µ, σ2), con
µ desconocido y σ2 puede ser o no conocida. Estamos interesados en hallar un
intervalo de confianza para µ al nivel de confianza 1 − α. Como σ2 puede ser o
no conocida, veamos cada caso por separado.
2.3. ESTIMACION POR INTERVALO 69
a) σ2 es conocida. En principio debemos encontrar un estadıstico (cantidad
pivotal o pivote) que dependa del parametro µ y de su estimador y cuya
distribucion muestral no dependa del parametro µ. En este caso el estadıstico
sera:
Z =X − µ
σ/√n
que se distribuye segun una N(0, 1).
Ahora, utilizando la tabla de la distribucion N(0, l), podemos encontrar dos
valores Zα/2 y Z1−α/2, (la seleccion de estos dos valores garantiza que la
amplitud del intervalo sea mınima) tales que:
P (Zα/2 ≤ Z ≤ Z1−α/2) = 1− α (2.4)
de donde se tiene que
P
(Zα/2 ≤
X − µ
σ/√n
≤ Z1−α/2
)= 1− α
multiplicando por σ/√n
P
(Zα/2
σ√n≤ X − µ ≤ Z1−α/2
σ√n
)= 1− α
restando X
P
(−X + Zα/2
σ√n≤ −µ ≤ −X + Z1−α/2
σ√n
)= 1− α
70 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Multiplicando por -1
P
(X − Zα/2
σ√n≥ µ ≥ X − Z1−α/2
σ√n
)= 1− α
que es equivalente a
P
(X − Z1−α/2
σ√n≤ µ ≤ X − Zα/2
σ√n
)= 1− α
como Zα/2 = −Z1−α/2 se tiene
P
(X − Z1−α/2
σ√n≤ µ ≤ X + Z1−α/2
σ√n
)= 1− α
Por lo tanto, el intervalo de confianza para la media µ de una poblacion
N(µ, σ2) con σ2 conocida es:
[x− Z1−α/2
σ√n; x+ Z1−α/2
σ√n
](2.5)
Ejemplo 2.1 De una poblacion N(µ, 9) se selecciona una muestra aleatoria
cuya media es 25. Obtener un intervalo de confianza para la media
poblacional µ. Cuando el tamano de la muestra es n = 16 y el nivel de
confianza es del 95%. El intervalo de confianza se obtiene al usar la ecuacion
2.5, donde x = 25, n = 16 y 1− α = 0,95, de este ultimo dato se tiene que:
Z1−α/2 = Z0,975 = 1,96
2.3. ESTIMACION POR INTERVALO 71
Por lo tanto, el intervalo de confianza es
[25− 1,96
3√16
; 25− 1,963√16
]
[23,53; 26,47]
b) σ2 es desconocida. Cuando la varianza poblaciones es desconocida
debemos tomar en cuenta el tamano de la muestra. Se el tamano de la
muestra es mayor o igual que 30 seguimos usando el intervalo de confianza
de la ecuacion 2.5. Si el tamano de la muestra es menor que 30, usamos el
siguiente estadıstico como cantidad pivotal
T =X − µ
S/√n
que se distribuye segun una t-student con n− 1 grados de libertad.
Ahora, utilizando la tabla de la distribucion t-student, podemos encontrar
dos valores tα/2 y t1−α/2, (la seleccion de estos dos valores garantiza que la
amplitud del intervalo sea mınima) tales que:
P (tα/2 ≤ T ≤ t1−α/2) = 1− α (2.6)
Procediendo de igual manera al caso anterior se tiene que el intervalo de
confianza con un nivel de confianza 1− α para µ con σ2 desconocido es
[x− t1−α/2
S√n; x+ t1−α/2
S√n
](2.7)
Ejemplo 2.2 Un fabricante de una determinada marca de vehıculos de lujo
72 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
sabe que el consumo de gasolina de sus vehıculos se distribuye normalmente.
Se selecciona una muestra aleatoria de 6 carros y se observa el consumo
cada 100 km, obteniendo las siguientes observaciones Obtener el intervalo
de confianza para el consumo medio de gasolina de todos los vehıculos de
esa marca, a un nivel de confianza del 90%.
Con los datos de la muestra obtenemos la media y la varianza muestral, los
cuales son x = 19,48 y S2 = 1,12. El intervalo de confianza para la media
poblacional cuando σ2 es desconocida tiene la forma dada por la expresion
2.7, donde x = 19,48, S2 = 1,06, n = 6 y 1− α = 0,90, de este ultimo dato
se tiene que:
T1−α/2 = T0,95 = 2,015
Por lo tanto, el intervalo de confianza es
[19,48− 2,015
1,06√6; 19,48 + 2,015
1,06√6
]
[18,61; 20,35]
2. Intervalo de confianza para la varianza de una poblacion normal
Cuando se realizan inferencia sobre la varianza de una poblacion normal se debe
tomar en consideracion si la media poblacional es o no conocida.
a) µ es desconocida Supongamos una poblacionN(µ, σ2), en donde µ y σ2 son
desconocidos y deseamos obtener un intervalo de confianza para la varianza
poblacional σ2 al nivel de confianza del 100(1 − α)%. Para ello tomamos
una muestra aleatoria de tamano n, (X,, ..., X,) y utilizaremos un estadıstico
(cantidad pivotal o pivote) que dependa del parametro σ2 y de su estimador
2.3. ESTIMACION POR INTERVALO 73
y cuya distribucion muestral no dependa de los parametros desconocidos.
Ese estadıstico sera:
W =(n− 1)S2
σ2
el cual se distribuye segun una chi-cuadrado con n − 1 grados de libertad,
χ2n−1, siendo S2 la varianza muestral.
Ahora, utilizando la tabla de la distribucion chi-cuadrado, podemos
encontrar dos valores χ2α/2 y χ2
1−α/2, (la seleccion de estos dos valores
garantiza que la amplitud del intervalo sea mınima) tales que:
P (χ2n−1,α/2 ≤ W ≤ χ2
n−1,1−α/2) = 1− α (2.8)
de donde se tiene que
P
(χ2n−1,α/2 ≤
(n− 1)S2
σ2≤ χ2
n−1,1−α/2
)= 1− α
dividiendo por (n− 1)S2
P
(χ2n−1,α/2
(n− 1)S2≤ 1
σ2≤
χ2n−1,1−α/2
(n− 1)S2
)= 1− α
Reordenando esta expresion se tiene
P
((n− 1)S2
χ2n−1,1−α/2
≤ σ2 ≤ (n− 1)S2
χ2n−1,α/2
)= 1− α
74 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
y el intervalo de confianza para σ2 al nivel de confianza del (1− α)% serıa:
[(n− 1)S2
χ2n−1,1−α/2
;(n− 1)S2
χ2n−1,α/2
](2.9)
b) µ es conocida En este caso tal estadıstico (cantidad pivotal o pivote) que
dependa del parametro σ2 y cuya distribucion muestral no dependa de σ2
sera:
W∗ =
n∑i=1
(Xi − µ)2
σ2
el cual se distribuye segun una chi-cuadrado con n grados de libertad, χ2n,
pues al ser la media µ conocida no hay que estimarla y el numero de grados
de libertad es n.
Razonando analogamente al caso anterior, en donde µ era desconocida,
llegamos a obtener el intervalo de confianza:
n∑
i=1
(Xi − µ)2
χ2n,1−α/2
;
n∑i=1
(Xi − µ)2
χ2n,α/2
(2.10)
Ejemplo 2.3 El precio de un determinado artıculo perecedero en los
comercios de alimentacion de una ciudad sigue una distribucion normal.
Se toma una muestra aleatoria de 8 comercios y se observa el precio de ese
artıculo, obteniendo las siguientes observaciones:
135, 125, 130, 139, 126, 138, 124, 140
2.3. ESTIMACION POR INTERVALO 75
Obtener al nivel de confianza del 95%.
a) Un intervalo de confianza para la media poblacional.
b) Un intervalo de confianza para la varianza poblacional.
A partir de las observaciones muestrales obtenemos que x = 131,75 y
S2 = 43,07
a) El intervalo de confianza para la media poblacional cuando σ2 es
desconocido y 1− α = 0,95 viene dado por:
[131,75− 2,365
6,56√8; 131,75 + 2,365
6,56√8
]
[126,25; 137,23]
b) El intervalo de confianza para la varianza poblacional cuando µ es
desconocido y 1− α = 0,95 viene dado por:
[(n− 1)S2
χ2n−1,1−α/2
;(n− 1)S2
χ2n−1,α/2
]
[(8− 1)43,07
χ27,0,975
;(8− 1)43,07
χ27,0,025
]donde χ2
7,0,975 = 16,015 y χ27,0,025 = 1,690, por lo tanto el intervalo de
confianza es [(7)43,07
16,015;(7)43,07
1,690
][18,83; 178,39]
3. Intervalo de confianza para la diferencia de medias en poblaciones
normales: Muestras independientes
76 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Sean X11, X12, ..., X1n1 y X21, X22, ..., X2n2 dos muestra aleatorias independientes
extraıdas de poblaciones normales, N(µ1, σ21) y N(µ1, σ
21), respectivamente.
Estamos interesados en hallar un intervalo de confianza del 100(1− α)% para la
diferencia de medias entre las dos poblaciones, ∆µ. Para hallar dicho intervalo de
confianza debemos considerar si las varianzas poblacionales son o no conocidas.
a) Varianzas conocidas En este caso el estadıstico (cantidad pivotal o pivote)
que depende del parametro ∆µ y de su estimador ∆X y cuya distribucion
muestral no depende del parametro es:
Z =∆X −∆µ
σ∆X
que se distribuye segun una N(0, 1), donde σ∆X =√
σ21
n1+
σ22
n2.
Procediendo de manera analoga al caso de una poblacion, se tiene que el
intervalo de confianza es
[∆X − Z1−α/2σ∆X ; ∆X + Z1−α/2σ∆X
](2.11)
b) Varianzas desconocidas Cuando las varianzas son desconocidas debemos
tomar en cuenta los tamanos de las muestras. Si los tamanos de muestras
son mayores que 30, el intervalo de confianza es el de la ecuacion 2.11. Por el
contario si los tamanos de las muestras son menores que 30, debemos estudiar
por separado el supuesto de que las varianzas sean iguales o diferentes.
1) Suponiendo varianzas iguales. Teniendo en cuenta los resultados
obtenidos en el capıtulo de distribuciones muestrales, se tiene que una
2.3. ESTIMACION POR INTERVALO 77
cantidad pivotal es
T =∆X −∆µ
S∆X
que se distribuye segun una t-student con v grados de libertad, donde
S∆X =
√(n1 − 1)S2
1 + (n2 − 1)S22
n1 + n2 − 2
√1
n1
+1
n2
v = n1 + n2 − 2
Por lo tanto, el intervalo de confianza es
[∆X − tv,1−α/2S∆X ; ∆X + tv,1−α/2S∆X
](2.12)
2) Suponiendo varianzas diferentes. Si las varianzas se suponen
diferentes el estadıstico sigue siendo el mismo, pero en este caso
S∆X =
√S21
n1
+S22
n2
v =(S21
n1+
S22
n2)2
(S21/n1)2
n1−1+
(S22/n2)2
n2−1
Por lo tanto, el intervalo de confianza es
[∆X − tv,1−α/2S∆X ; ∆X + tv,1−α/2S∆X
](2.13)
4. Intervalo de confianza para la diferencia de medias en poblaciones
normales: Muestras dependientes
Ahora tratamos construiremos un intervalo de confianza para la diferencia
78 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
de dos medias cuando las muestras extraıdas de las poblaciones normales no
son independientes y las varianzas poblacionales no tienen porque ser iguales.
Es decir, supongamos que obtenemos una muestra aleatoria de n pares de
observaciones (X1, Y1)...(Xn, Yn) de poblaciones normales con medias µX y µY , en
donde (X1, ..., Xn) indica la muestra de la poblacion con media µX , y (Y1, ..., Yn)
indica la muestra de la poblacion con media µY .
En este caso podemos reducir la informacion a una sola muestra (D1, ..., Dn) en
donde:
Di = Xi − Yi , i = 1, 2, ..., n
y por las propiedades de la distribucion normal, esta muestra (D1, ..., Dn)
procedera tambien de una poblacion normal de media:
µD = E(D) = E(X − Y ) = E(X)− E(Y ) = µX − µY
y varianza desconocida σ2D.
La varianza poblacional, σ2D, se puede estimar por la varianza muestral S2
d que
serıa la varianza de las diferencias que constituyen la muestra:
S2d =
1
n− 1
n∑i=1
(Di − D)2
siendo
D =1
n
n∑i=1
Di
Un estimador puntual de la media poblacional de las diferencias, µD, viene dado
por D.
2.3. ESTIMACION POR INTERVALO 79
Como la varianza poblacional es desconocida y pretendemos obtener un intervalo
de confianza, al nivel de confianza del 100(1 − α)%, para µD procederemos de
manera analoga al cuando se busco el intervalo de confianza para la media de una
poblacion normal cuando σ2 era desconocida. Ası pues, buscaremos un estadıstico
(cantidad pivotal o pivote) que depende del parametro µD y de su estimador
y cuya distribucion muestral no depende de los parametros desconocidos. Ese
estadıstico es:
T =D − µD
SD
que se distribuye segun una t-student con n − 1 grados de libertad, donde
SD = Sd√n.
Por lo tanto, el intervalo de confianza es
[D − t(n−1),1−α/2
Sd√n; D + t(n−1),1−α/2
Sd√n
](2.14)
Ejemplo 2.4 La tabla siguiente muestra el consumo de gasolina por 1.000 km
de una muestra aleatoria de 9 carros con dos carburantes X e Y . Si admitimos
que los consumos de gasolina se distribuyen normalmente, obtener un intervalo
de confianza al nivel de confianza del 99% para la diferencia de las medias
poblacionales.
De la tabla ?? obtenemos que d = 2 y S2d = 26,75. Por lo tanto el intervalo de
confianza usando la ecuacion 2.4 es
[2− t8,0,995
5,17√9; 2 + t8,0,005
5,17√9
]
80 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Tabla 2.1: Consumo de gasolina por 1000 km, para los modelos X e Y
Modelo X Modelo Y Diferencias di d2i1 132 124 8 642 139 141 -2 43 126 118 8 644 114 116 -2 45 122 114 8 646 132 132 0 07 142 145 -3 98 119 123 -4 169 126 121 5 25
como t8,0,995 = 3,355 se tiene que el intervalo de confianza es
[−3,781; 7,781]
5. Intervalo de confianza para el cociente de varianzas en poblaciones
normales Sean X11, X12, ..., X1n1 y X21, X22, ..., X2n2 dos muestra aleatorias
independientes extraıdas de poblaciones normales, N(µ1, σ21) y N(µ1, σ
21),
respectivamente, cuyas varianzas son desconocidas y las medias pueden ser
o no conocidas. Estamos interesados en hallar un intervalo de confianza del
100(1− α)% para el cociente de as varianzas entre las dos poblaciones,σ21
σ22. Para
hallar dicho intervalo de confianza debemos considerar si las medias poblacionales
son o no conocidas.
a) Medias desconocidas Teniendo en cuenta la seccion del capıtulo anterior
, en donde estudiamos la distribucion del cociente de varianzas cuando las
medias poblacionales eran desconocidas, entonces, aquı podemos utilizar
como estadıstico (cantidad pivotal o pivote) que dependa de los parametros
2.3. ESTIMACION POR INTERVALO 81
desconocidos
sigma21 y σ22 y de sus estimadores y cuya distribucion muestral no dependa
de los parametros, el estadıstico:
F =
(n1−1)S21
σ21
/n1 − 1
(n2−1)S22
σ22
/n2 − 1=
S21
S22
σ22
σ21
el cual se distribuye F con n1 − 1 y n2 − 1 grados de libertad, Fn1−1,n2−1,
Ahora, utilizando la tabla de la distribucion F , podemos encontrar dos
valores Fα/2;n1−1,n2−1 y F1−α/2;n1−1,n2−1, (la seleccion de estos dos valores
garantiza que la amplitud del intervalo sea mınima) tales que:
P (Fα/2;n1−1,n2−1 ≤ F ≤ F1−α/2;n1−1,n2−1) = 1− α (2.15)
de donde se tiene que
P
(Fα/2;n1−1,n2−1 ≤
S21
S22
σ22
σ21
≤ F1−α/2;n1−1,n2−1
)= 1− α
multiplicando porS22
S21
P
(S22
S21
Fα/2;n1−1,n2−1 ≤σ22
σ21
≤ S22
S21
F1−α/2;n1−1,n2−1
)= 1− α
Invirtiendo cada termino y cambiando el orden de la desigualdad de tiene
P
(S21
S22
1
F1−α/2;n1−1,n2−1
≤ σ21
σ22
≤ S21
S22
1
Fα/2;n1−1,n2−1
)= 1− α
82 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
y el intervalo de confianza paraσ21
σ22al nivel de confianza del (1− α)% serıa:
[S21
S22
1
F1−α/2;n1−1,n2−1
;S21
S22
1
Fα/2;n1−1,n2−1
](2.16)
b) Medias conocidas
En este caso usamos como cantidad pivotal el estadıstico
F =
(n1)S∗21
σ21
/n1
(n2)S∗22
σ22
/n2
=S∗21
S∗22
σ22
σ21
el cual se distribuye F con n1 y n2 grados de libertad, Fn1−1,n2−1.
Procediendo de manera analoga al caso anterior obtenemos el siguiente
intervalo de confianza:
[S∗21
S∗22
1
F1−α/2;n1,n2
;S∗21
S∗22
1
Fα/2;n1,n2
](2.17)
donde
S∗21 =
1
n1
n∑i=1
(x1i − µ1)2 y S∗2
2 =1
n2
n∑i=1
(x2i − µ2)2
Ejemplo 2.5 Supongamos que la distribucion de las notas en la asignatura
de metodos estadısticos II sigue una distribucion normal en los dos grupos
existentes. Seleccionada una muestra aleatoria de 21 alumnos del primer
grupo y otra de 26 alumnos del segundo grupo, ambas independientes, se
obtiene como varianzas 1250 y 900, respectivamente. Obtener un intervalo de
confianza para el cociente de las varianzas poblacionales al nivel de confianza
del 90%.
2.3. ESTIMACION POR INTERVALO 83
Como las medias poblacionales son desconocidas utilizaremos la expresion
2.16 para hallar el intervalo de confianza. Donde n1 = 21, n2 = 26,
S21 = 1250 y S2
2 = 900. Usando la tabla F obtenemos que
F1−α/2;n1−1,n2−1 = F0,95;20,25 =1
F0,05;20,25= falta
Fα/2;n1−1,n2−1 = F0,05;20,25 = falta
Sustituyendo en la expresion del intervalo se tiene
[1250
900
1
F1−α/2;n1−1,n2−1
;1250
900
1
Fα/2;n1−1,n2−1
]
[0,69; 2,89]
2.3.3. Intervalos de Confianza para muestras grandes
En la mayorıa de las situaciones practicas la distribucion de la poblacion resulta
ser desconocida o no es normal, en dicho caso no podrıamos utilizar directamente los
resultados obtenidos en la seccion anterior. Sin embargo, si el tamano de la muestra es
suficientemente grande podemos utilizar el teorema central del limite para poder definir
la cantidad pivotal. Consideremos el caso del intervalo de confianza para la media.
Sea X1, X2, ..., Xn una muestra aleatoria suficientemente grande procedente de
una poblacion con distribucion desconocida y varianza σ2 finita conocida y deseamos
obtener un intervalo de confianza al nivel del 100(1−α)% para la media, desconocida,
µ de la poblacion. Puesto que se cumplen las condiciones del Teorema Central del
Lımite, podemos decir que el estadıstico
Z =X − µ
σ/√n
84 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
se distribuye aproximadamente N(0, 1). Por lo tanto, dicho estadıstico sera nuestra
cantidad pivotal, con el cual se tiene que
P
(Zα/2 ≤
X − µ
σ/√n
≤ Z1−α/2
)≃ 1− α
y de manera analoga a como procedıamos anteriormente, llegaremos a que el
intervalo de confianza al nivel del 100(1− α)% sera:
[x− Z1−α/2
σ√n; x+ Z1−α/2
σ√n
](2.18)
La diferencia con los intervalos obtenidos anteriormente es que aquellos eran exactos
y ahora son aproximados y solo son validos para muestras grandes, n > 30.
Cuando σ2 es desconocida se toma como valor aproximado la varianza muestral S2,
y se obtendrıa como intervalo de confianza:
[x− Z1−α/2
S√n; x+ Z1−α/2
S√n
](2.19)
Expresiones analogas a las obtenidas anteriormente, se tendra para el caso de la
diferencia de medias poblacionales.
Ejemplo 2.6 De los examenes realizados a nivel nacional, se extrae una muestra de
75 ejercicios correspondientes a mujeres y otra de 50 ejercicios correspondientes a
hombres, siendo la calificacion media de la muestra de mujeres 82 puntos con una
desviacion tıpica muestra1 de 8, mientras que para los hombres la calificacion media
fue de 78 con una desviacion tıpica de 6. Obtener el intervalo de confianza al nivel
de confianza del 95% para la diferencia de la puntuacion media de las mujeres y la
puntuacion media de los hombres.
2.3. ESTIMACION POR INTERVALO 85
Como las muestras son suficientemente grandes, pues son mayores que 30 y las
poblaciones no son normales podemos obtener un intervalo de confianza aproximado
utilizando la expresion 2.11 en donde sustituimos las varianzas poblacionales por las
varianzas muestrales obteniendo el intervalo:
[∆X − Z1−α/2σ§X ; ∆X + Z1−α/2§∆X
]De donde
x1 = 82, S1 = 8 y n1 = 75
x2 = 78, S=6 y n2 = 50
Por lo tanto,
∆x = x1 − x2 = 82− 78 = 4
S∆X =√
S21
n1+
S22
n2=√
6475
+ 3650
= 1,25
Sustituyendo en la expresion del intervalo tenemos:
[4− (1,96)(1,25); 4 + (1,96)(1,25)]
[1,55; 6,45]
2.3.4. Intervalo de Confianza para Proporciones
Intervalo de Confianza para una Proporcion
Sea una poblacion binomial B(1, π) y una muestra aleatoria de tamano n de esa
poblacion, es decir realizamos n repeticiones del experimento de Bernoulli que estamos
86 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
considerando, y deseamos obtener un intervalo de confianza al nivel del 100(1 − α)%
para el parametro poblacional π. Solo vamos a considerar el caso en que los tamanos
de muestras son grandes.
Como se vio antes el mejor estimador puntual de la proporcion poblacional, π, es
la proporcion muestral, p. Ademas en el capıtulo anterior se demostro que de acuerdo
con el Teorema Central del Limite
p → N
(π,
π(1− π)
n
)
Lo que nos permite decir que el estadıstico
Z =p− π√
π(1− π)/n(2.20)
se distribuye aproximadamente N(0, 1) cuando n es suficientemente grande.
En consecuencia este estadıstico Z lo podemos utilizar como cantidad pivotal o
pivote, pues depende del parametro y de su estimador y su distribucion es independiente
del parametro π, pues se trata de una N(0, 1). Por tanto, podremos obtener un intervalo
de confianza para el parametro π al nivel del 100(1− α)% a partir de la expresion.
P
(Zα/2 ≤
p− π√π(1− π)/n
≤ Z1−α/2
)= 1− α
Multiplicando cada termino de la desigualdad por√
π(1− π)/n, restado despues p
a cada termino y multiplicando por - 1, se tiene:
P(p− Zα/2
√π(1− π)/n ≤ π ≤ p+ Zα/2
√π(1− π)/n
)= 1− α (2.21)
2.3. ESTIMACION POR INTERVALO 87
Pero los lımites de la expresion 2.21 dependen del parametro desconocido π. Como
n es grande una solucion satisfactoria se obtiene sustituyendo π por su estimacion p en
el lımite interior y en el lımite superior, resultando:
P(p− Z1−α/2
√p(1− p)/n ≤ π ≤ p+ Z1−α/2
√p(1− p)/n
)= 1− α (2.22)
Luego el intervalo de confianza al nivel de confianza del 100(1 − α)% para el
parametro π sera:
[p− Z1−α/2
√p(1− p)/n; p+ Z1−α/2
√p(1− p)/n
)] (2.23)
Ejemplo 2.7 Se selecciona una muestra aleatoria de 600 familias, a las cuales se
les pregunta si poseen o no computador personal en casa, resultando que 240 de esas
familias contestaron afirmativamente. Obtener un intervalo de confianza al nivel del
95% para estimar la proporcion real de familias que poseen computador personal en
casa.
El estimador puntual de π sabemos que es p = xny para la muestra concreta de 600
familias la estimacion correspondiente sera p = 240600
= 0,40. Utilizando la Tabla de la
distribucion normal estandar se tiene que Z0,975 = 1,96. Sustituyendo en la expresion
C2.23 tendremos el intervalo de confianza pedido
[0,40− 1,96
√0,40(1− 0,40)/600; 0,40 + 1,96
√0,40(1− 0,40)/600
][0,36; 0,44]
88 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Intervalo de Confianza para la Diferencia de Proporciones
Ahora estamos interesados en estimar la diferencia entre dos parametros poblacio-
nales π1 y π2, es decir queremos obtener un intervalo de confianza para la diferencia
∆π = π1 − π2 de los dos parametros poblacionales. Para ello se seleccionan dos mues-
tras aleatorias independientes de tamano n1 y n2, de cada una de las dos poblaciones
B(l, π1) y B(1, π2), respectivamente. Los estimadores puntuales de los parametros π1 y
π2 son p1 y p2. Pero a nosotros nos interesa el intervalo de confianza para la diferencia
∆π = π1 − π2, para lo cual utilizamos como estimador de esta diferencia, el estadıstico
∆p = p1 − p2, cuya distribucion para muestras grandes (debido al teorea central del
limite) es aproximadamente normal, es decir,
∆p → N
(∆π,
π1(1− π1)
n1
+π2(1− π2)
n2
)Lo que nos permite decir que el estadıstico
Z =∆p−∆π√
π1(1−π1)n1
+ π2(1−π2)n2
(2.24)
se distribuye aproximadamente N(0, 1) cuando n es suficientemente grande.
Por tanto, tambien podemos escribir
P
Zα/2 ≤∆p−∆π√
π1(1−π1)n1
+ π2(1−π2)n2
≤ Z1−α/2
= 1− α
de donde llegaremos a
P(∆p− Z1−α/2σ∆p ≤ ∆π ≤ ∆p+ Z1−α/2σ∆p
)= 1− α (2.25)
2.3. ESTIMACION POR INTERVALO 89
donde
σ∆p =
√π1(1− π1)
n1
+π2(1− π2)
n2
Pero los lımites de la expresion 2.25 dependen de los parametros desconocidos π1 y
π2. Como n1 y n2 son grandes una solucion satisfactoria se obtiene sustituyendo cada
π por su estimacion p en el lımite interior y en el lımite superior, resultando:
P(∆p− Z1−α/2S∆p ≤ ∆π ≤ ∆p+ Z1−α/2S∆p
)≃ 1− α
donde
S∆p =
√p1(1− ⟨1)
n1
+p2(1− p2)
n2
Luego el intervalo de confianza al nivel de confianza del 100(1 − α)% para el
parametro π sera:
[∆p− Z1−α/2S∆p; ∆p+ Z1−α/2S∆p
)] (2.26)
Ejemplo 2.8 En una ciudad A se toma una muestra aleatoria de 98 cabezas de familia,
de los cuales 48 han sido poseedores de acciones de CANTV. Mientras que en otra
ciudad B se selecciona otra muestra aleatoria de tamano 127 cabezas de familia, de
los cuales 21 han sido poseedores de acciones de CANTV. Obtener un intervalo de
confianza al nivel del 95% para la diferencia entre las proporciones de cabezas de familia
que han sido poseedores de ese tipo de acciones en ambas ciudades.
De la informacion del enunciado se deduce:
n1 = 98, x1 = 48, p1 =4898
= 0,49
90 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
n2 = 127, x2 = 21, p1 =21127
= 0,165
Para el nivel de confianza del 95%, α = 0,05, se tiene Z0,975 = 1,96. Ademas
S∆p =
√0,49(1− 0,49)
98+
0,165(1− 0,165)
127= 0,118
Luego sustituyendo en la expresion 2.26 se tiene
[0,325− 1,96 ∗ 0,06; 0,325 + 1,96 ∗ 0,06)]
[0,21; 0,44)]
Como el 0 esta fuera del rango del intervalo, esto nos indica que es bastante mas
probable que un cabeza de familia de la ciudad A haya tenido acciones de CANTV que
un cabeza de familia de la ciudad B.
2.4. Ejercicios
1. Explique lo que significa margen de error en la estimacion puntual.
2. ¿Cuales son las caracterısticas del mejor estimador puntual para un parametro
poblacional?.
3. Calcule el margen de error al estimar una media poblacional µ para estos valores.
a) n = 30, σ2 = 0,2
b) n = 30, σ2 = 0,9
c) n = 30, σ2 = 1,5
2.4. EJERCICIOS 91
¿Que efecto tiene una varianza poblacional mas grande en el margen de error?.
4. Una muestra aleatoria de 50 observaciones produjo x = 56,4 y s2 = 2,6. De la
mejor estimacion para la media poblacional y calcule el margen de error.
5. Estimaciones de la biomasa terrestre, la cantidad total de vegetacion que tienen
los bosques de la Tierra, son importantes para determinar la cantidad de dioxido
de carbono no absorbido que se espera permanezca en la atmosfera de la tierra.
Suponga que una muestra de 75 parcelas de 1 metro cuadrado, elegidas al azr en
los bosques de Merida, produjo una biomasa media de 4.2 kilogramos por metro
cuadrado, con una desviacion estandar de 1.5 kg/m2. ¿Cual es el mejor estimador
de la biomasa promedio?. Estime la biomasa promedio para los bosques de Merida
y el margen de error para su estimacion.
6. A la mayorıa de los habitantes de un paıs les encanta participar, o por lo menos
ver, un evento deportivo. De una muestra de 1000 personas 780 respondieron que
si les gustaba participar o ver un deporte.
a) Identifique el mejor estimador puntual para la proporcionan de personas que
si les gustaba participar o ver un deporte.
b) Encuentre una estimacion puntual para dicha proporcion y el margen del
error.
c) La encuesta produce un margen de error de mas o menos 3.1%. ¿Esto
concuerda con sus resultados del inciso b? Si no, ¿que valor de p produce el
margen de error dado en la encuesta?.
7. Suponiendo que las poblaciones son normales, encuentre e interprete un intervalo
de confianza del 95% para la media poblacional para estos valores
92 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
a) n = 36, x = 13,1, σ2 = 3,42
b) n = 64, x = 2,73, s2 = 0,147
8. Encuentre e interprete un intervalo de confianza del 90% para la media
poblacional para estos valores
a) n = 49, x = 11,5, s2 = 1,64
b) n = 64, x = 15, σ2 = 9
9. Una muestra aleatoria de n = 300 observaciones de una poblacion binomial
produjo x = 263 exitos. Encuentre un intervalo de confianza del 90% para la
proporcion e interprete el resultado.
10. Una maquina de cafe llena los vasos con volumenes distribuidos normalmente con
una desviacion estandar de 0.11 oz. Cuando se toma una muestra de 23 vasos,
se encuentra un volumen promedio de 7.85 oz. Estime el verdadero volumen
promedio, de llenado de los vasos con 95% de confianza.
11. Treinta artıculos seleccionados en la produccion tienen un costo medio de 180
Bs. Se conoce que la desviacion estandar de la poblacion es de 14 Bs. ¿Cual es el
intervalo de confianza al 99% que considere el verdadero costo medio?.
12. De un lote de 680 maquinas, se estudia una muestra de 72 computadoras de
cuarta generacion. Se desea conocer cual puede ser la duracion promedio de
un componente electronico en particular, si su vida promedio en la muestra
resulto ser de 4300 horas con desviacion estandar de 730 horas. Se requiere que
la estimacion proporcione una confianza del 90%.
2.4. EJERCICIOS 93
13. Cuando un envasador nuevo se empezo a utilizar en una muestra de 40 envases,
se encontro que los frascos de 100 ml eran llenados en promedio con 96 ml con
desviacion estandar de 8 ml.
a) Estime entre cuantos mililitros esta la verdadera cantidad media envasada
con un nivel de confianza del 90%.
b) ¿Se podrıa garantizar que ninguno de los frascos contiene menos de 90 ml.?.
14. El departamento de carnes de una cadena de supermercados empaqueta la carne
molida en bandejas de dos tamanos: una esta disenada para contener mas o menos
1 libra de carne, y la otra para casi 3 libras. Una muestra aleatoria de 35 paquetes
de las bandejas mas pequenas produjo mediciones de peso con un promedio de
1.01 libras y una desviacion estandar de 0.18 libras.
a) Elabore un intervalo de confianza de 99% para el peso promedio de los
paquetes que vende esta cadena de supermercados en las bandejas de carne
pequenas.
b) ¿Que significa la frase confianza de 99%¿.
c) Suponga que el departamento de control de calidad de esta cadena de
supermercados piensa que la cantidad de carne molida en las bandejas
pequenas debe ser en promedio 1 libra. ¿Debe preocupar al departamento
de control de calidad el intervalo de confianza del inciso a? Explique.
15. Una muestra aleatoria de 130 temperaturas corporales humanas tuvo una media
de 98.25 grados y una desviacion estandar de 0.73 grados.
a) Construya un intervalo de confianza de 99% para la temperatura corporal
promedio de personas sanas.
94 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
b) ¿El intervalo de confianza construido en el inciso a tiene el valor de 98.6
grados, la temperatura promedio usual citada por medicos y otrod? Si no es
ası, ¿que conclusiones obtiene?
16. Las especificaciones para una nueva aleacion de alta resistencia al calor establecen
que la cantidad de cobre en la aleacion debe ser menor del 23.2%. Una muestra
de 10 analisis de un lote del producto presenta una media de contenido de cobre
de 23% y una desviacion estandar de 0.24%. Estime el contenido medio de cobre
en este lote, usando un intervalo de confianza del 90% si se sabe que la cantidad
de cobre se distribuye normal.
17. Un muestreo aleatorio de n = 24 artıculos en un supermercado presenta una
diferencia entre el valor real y el valor marcado en este. La media y la desviacion
estandar de las diferencias entre el precio real y el precio marcado en los 24
artıculos son -37.14 y 6.42 respectivamente. Encuentre un intervalo de confianza
para la diferencia media entre el valor real y el marcado por artıculo en ese
supermercado, suponiendo que dicha diferencia se distribuye normal. Use 1−α =
0,05
18. La utilidad por cada auto nuevo vendido por vendedor varıa de auto a auto y
se distribuye normal. La utilidad promedio por venta registrada en la semana
pasada fue ( en miles de bolıvares ) 21, 30, 12, 62, 45, 51. Calcule un intervalo de
confianza del 90% para la utilidad promedio por venta.
19. Un investigador, desea estimar la verdadera proporcion de amas de casa que
prefieren la marca de detergente Ariel con un nivel de confianza del 95%. Sabiendo
que de una muestra de 150 amas de casa la proporcion de amas de casa que les
gusta Ariel es 0.47.
2.4. EJERCICIOS 95
20. De entre 2000 piezas se eligen 75 y se encuentra que en 30 hay defectos. Calcule
un intervalo de confianza del 90% para informar a la gerencia.
21. Se tomo una muestra aleatoria de 300 adultos, y 192 de ellos dijeron que siempre
votaban en las elecciones presidenciales.
a) Construya un intervalo de confianza de 95% para la proporcion de
venezolanos que afirman votar siempre en las elecciones presidenciales.
b) Una famosa encuestadora afirma que este porcentaje es de 67%. Con base
en el intervalo construido en el inciso a, ¿estarıa en desacuerdo con este
porcentaje? Explique.
c) ¿Se puede usar la estimacion del intervalo del inciso a para estimar la
proporcion real de venezolanos adultos que votan en la eleccion presidencial
de 2012? ¿Por que sı o por que no?.
96 CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
Capıtulo 3
Analisis de Varianza
3.1. Introduccion.
Hasta el momento hemos realizado inferencias con respecto a un parametro
poblacional y a la comparacion de un parametro entre 2 poblaciones. Para ello
hemos usado la distribucion normal, t - student, Chi cuadrado y F. Por lo general,
existen situaciones en las que deseamos comparar un parametro entre tres o mas
poblaciones, como por ejemplo el salario promedio de los trabajadores en 5 estados
de Venezuela. En principio el investigador podrıa pensar en resolver este problema
haciendo comparaciones dos a dos y usar para ello la distribucion normal o la t - student,
segun sea el caso. Dicho procedimiento es inadecuado por las siguientes razones:
1. El procedimiento es muy largo, ya que hay que realizar tantas pruebas como
parejas de tratamientos existan. Por ejemplo, si se desea probar la igualdad
de 5 medias poblacionales, usando comparaciones dos a dos, existen(52
)= 10
combinaciones posibles, es decir se tendrıan que realizar 10 pruebas de hipotesis,
usando en cada uno de los casos la distribucion normal o la t - student.
97
98 CAPITULO 3. ANALISIS DE VARIANZA
2. No se puede generalizar para todas las medias poblacionales, la conclusion se
obtiene por parejas de medias poblacionales.
3. Existe una alta probabilidad de cometer error tipo I, debido a que cuando se
compara una media poblacional con cada una de las otras medias poblacionales
y se realiza una prueba para cada par de medias, es muy probable que se llegue
a concluir que existen diferencias significativas para algunos pares cuando en
realidad no existe diferencia entre ellas. Por ejemplo, si la probabilidad de no
rechazar H0 en cada prueba es 1−α = 0,95, entonces la probabilidad de aceptar
H0 en las 10 pruebas es (0,95)10 = 0,6 si las pruebas son independientes, y la
probabilidad de Rechazar H0 en las 10 pruebas ES 1− (0,95)10 = 0,4, el cual es
el error tipo I.
Por estas razones es necesario considerar un metodo que tome en consideracion
todas las medias al mismo tiempo. Una de las aplicaciones del analisis de varianza es
precisamente resolver este problema.
3.2. ¿Que es el Analisis de Varianza?
Definicion 3.1 (Analisis de Varianza) Es una tecnica estadıstica que divide y
analiza la variabilidad total observada de una variable en porciones atribuibles a
distintos factores de interes para el investigador.
Para entender mejor la definicion veamos el siguiente ejemplo:
Ejemplo 3.1 Se desea estudiar el efecto que puedan tener 5 tipos de dietas en los
tiempo de coagulacion de la sangre extraıda de 24 animales. El analisis de varianza
3.2. ¿QUE ES EL ANALISIS DE VARIANZA? 99
supone que cualquier variacion que existe entre los promedios del tiempo de coagulacion
de la sangre se atribuye a:
1. Variacion de los tiempos de coagulacion dentro de las dietas.
2. Variacion debido a las dietas, esto es, debido a la composicion de cada dieta.
La variacion dentro de cada dieta se debe, por supuesto, a diversas causas, tal
vez al tipo de sangre, a la presion, o cualquier otro elemento no tomado en cuenta.
De cualquier manera dicha variacion es considerada como una variacion al azar o
aleatoria. En cambio, la variacion debido a la dieta, es una variacion que no depende
de variables asociadas con el animal sino de la composicion de la dieta. En este caso, el
analisis de varianza busca identificar cuanto de la variacion del tiempo de coagulacion
de la sangre se debe a la dieta y cuanto a otros elementos no tomados en cuenta .
3.2.1. El Analisis de Varianza en el Diseno de Experimentos.
Cuando se esta realizando una investigacion el investigador puede bien sea observar
las caracterısticas de los datos ya existentes (sin tener participacion en su generacion) o
imponer deliberadamente una o mas condiciones experimentales sobre los elementos en
estudio. En el segundo caso caso, se dice que el experimento fue disenado. El principal
proposito del diseno de un experimento es reducir la variabilidad de las respuestas,
pues previamente se establecen las variables que se piensan inciden sobre el fenomeno
en estudio, ası como sus posibles valores.
Algunos conceptos relacionados con el diseno de experimentos.
Definicion 3.2 (Variable dependiente o respuesta) Es la variable que nos in-
teresa medir o respuesta que se va estudiar, para determinar el efecto que tiene sobre
ella la o las variables independientes.
100 CAPITULO 3. ANALISIS DE VARIANZA
Definicion 3.3 (Variables independientes o factores) Son las variables que pue-
den influenciar en la variabilidad de la variable respuesta. Estas son controladas com-
pletamente por el experimentador.
Definicion 3.4 (Nivel del Factor) Es un valos de la variable independiente o
factor.
Definicion 3.5 (Tratamiento) Es un nivel o una combinacion de dos o mas niveles
de un factor o factores.
Definicion 3.6 (Unidad Experimental) Son los objetos sobre los cuales se aplican
los tratamientos para obtener una respuesta.
Definicion 3.7 (Error Experimental) Es la variacion que no se puede atribuir a un
cambio de tratamiento, es decir, a la que se produce por los factores extranos que pueden
influir en la respuesta y que deben ser controlados o eliminados por el investigador.
Definicion 3.8 (Aleatorizacion) Consiste en asignar en forma aleatoria los trata-
mientos a las unidades experimentales con el proposito de eliminar los sesgos que pro-
duce dicha asignacion.
Por lo general el diseno de un experimento comprende:
1. La seleccion de los factores que deben incluirse en el experimento y la
especificacion del o los parametros de interes.
2. Decidir cuanta informacion se debe utilizar para estimar los parametros.
3. Seleccionar los tratamientos que deben utilizarse en el experimento y el numero
de unidades experimentales que deben asignarse a cada uno.
3.2. ¿QUE ES EL ANALISIS DE VARIANZA? 101
4. Decidir como deben asignarse los tratamientos a las unidades experimentales.
Por lo tanto, dependiendo del numero de factores, seleccion de los tratamientos y
asignacion de los tratamientos a las unidades experimentales existen distintos tipos de
disenos de experimentos los cuales estudiaremos algunos de ellos mas adelante.
Una vez disenado y el experimento y recolectados los datos, interesa ver que factores
de los que tomaron en cuenta influyen sobre la variable respuesta. Para ello se realiza el
analisis de varianza, el cual como se vio antes consiste en separar la variacion total en
cada uno de sus tratamientos y ası determinar cual de ellos afecta significativamente
la respuesta.
3.2.2. Supuestos del Analisis de Varianza
Independientemente del diseno experimental usado para generar los datos, para que
el analisis de varianza tenga validez, se deben cumplir los siguientes supuestos:
1. Cada tratamiento representa una poblacion.
2. Normalidad: Las poblaciones de las que se extraen las muestras se distribuyen
normal.
3. Homocedasticidad: Las varianzas poblacionales son iguales.
4. Los errores aleatorios son independientes y se distribuyen normal con media cero
y varianza constante.
Cuando los tamanos de muestras son grandes e iguales, el analisis de varianza
tiene la propiedad de ser robusta, es decir, la violacion de los supuestos no afecta
significativamente los resultados. Segun Mendenhall, violar el supuesto de una varianza
102 CAPITULO 3. ANALISIS DE VARIANZA
constante es mas grave, en particular cuando los tamanos de las muestras no son casi
iguales.
3.3. Diseno Completamente Aleatorizado (DCA)
3.3.1. Introduccion
Denominado tambien diseno de una forma o vıa de clasificacion. Es un diseno util
para describir un experimento en el que se desean comparar k tratamientos (niveles de
un factor), donde las unidades experimentales son homogeneas y los tratamientos son
asignados en forma completamente aleatoria a estas unidades experimentales.
Supongase que tenemos N unidades experimentales homogeneas y k tratamientos.
Sean las N unidades experimentales particionadas aleatoriamente (con igual proba-
bilidad) en k conjuntos de tamano nj . Sean los k tratamientos asignados a los k
conjuntos de forma tal que el j-esimo tratamiento es aplicado a cada una de las uni-
dades experimentales en el j-esimo conjunto. Este procedimiento define un diseno
completamente aleatorizado.
Dentro de las ventajas del diseno completamente aleatorizado se encuentran:
1. Es completamente flexible. Puede usarse con cualquier numero de tratamientos y
de replicas. El numero de replicaciones puede variar de tratamiento a tratamiento,
aunque esto no se debe hacer sin una buena razon, ya que si el diseno es
balanceado (el mismo numero de replicas por tratamiento), la prueba estadıstica
es relativamente insensible a pequenas violaciones del supuesto de igualdad de
varianzas y por otro lado, la potencia del test esta maximizado si las muestras
son de igual tamano.
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 103
2. El analisis estadıstico es facil de llevar a cabo aun si el diseno no es balanceado,
si el error difiere de tratamiento a tratamiento y si los diversos tratamientos
poseen varianzas distintas, lo cual se conoce como falta de homogeneidad
(heterogeneidad) del error experimental. Bajo estas condiciones, las pruebas de
hipotesis y la construccion del intervalo de confianza deben conducirse con un
cuidado especial cuando hay heterogeneidad de la varianza.
3. La sencillez del analisis no se pierde si algunas unidades experimentales o
tratamientos enteros faltan o se descartan. En este tipo de diseno, la informacion
que se pierde debido a observaciones faltantes es mınima con relacion a la
sufrida por otros disenos. El numero de grados de libertad para estimar el
error experimental es maximo, lo que incide en un aumento en la precision
del experimento. Esto resulta significativamente importante en experimentos
pequenos, es decir, en aquellos en los que se cuenta con pocos grados de libertad
para el error experimental.
Como la aleatorizacion no tiene restricciones, el error experimental incluye toda
la variacion entre las unidades experimentales excepto, la debida a los tratamientos.
Esto representa la principal desventaja del diseno completamente aleatorizado, lo cual
se traduce en ineficiencia. En muchas situaciones es posible agrupar las unidades
experimentales de modo que la variacion entre las unidades de un mismo grupo sea
menor que la variacion entre las unidades de diferentes grupos. Ciertos disenos sacan
ventaja de tal agrupamiento, ya que excluyen la variacion del error experimental entre
grupos y aumentan la precision del experimento.
A pesar de lo expuesto anteriormente, la aleatorizacion completa resulta ser
el procedimiento obvio en muchos tipos de experimentos de laboratorio, en los
104 CAPITULO 3. ANALISIS DE VARIANZA
que una cantidad de material esta completamente mezclada y luego se divide en
porciones pequenas para formar las unidades experimentales a los cuales se asignan
los tratamientos en forma aleatoria o, en experimentos con animales y plantas con
condiciones ambientales muy parecidas.
Ejemplo 3.1 Supongamos que deseamos analizar el tiempo de coagulacion para
muestras de sangre tomadas de animales sometidos a cuatro diferentes drogas A, B, C
y D. Las drogas fueron aplicadas aleatoriamente a los animales. Queremos entonces,
medir el efecto de las drogas sobre el tiempo de coagulacion.
3.3.2. El Modelo
La respuesta observada para cada tratamiento, Yij es una variable aleatoria que
puede ser expresada como la suma de dos componentes, a saber:
Un componente que mide la media de tratamientos
Un componente que representa al error aleatorio (termino de error aleatorio)
La media de los tratamientos muestra la influencia de los tratamientos sonre la
variable respuesta y el error es una cantidad aleatoria que no puede predecirse con
anticipacion, pero cuyo valor esperado es igual a cero.
El modelo matematico apropiado para describir las observaciones, esta dada por:
Yij = µj + εiji = 1, 2, · · · , nj
j = 1, 2, · · · , k(3.1)
donde:
Yij es la i-esima observacion del j-esimo tratamiento.
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 105
µj es la media del j-esimo tratamiento
εij es el error aleatorio, los cuales se suponen N(0, σ2) e independientes
El modelo estadıstico propuesto en 3.1, describe dos situaciones diferentes con
respecto al efecto de los tratamientos.
Los k tratamientos pueden ser escogidos a criterio o conveniencia del investigador.
En esta situacion, se desea probar hipotesis sobre las medias de los tratamientos,
y las conclusiones solamente pueden ser aplicadas a los niveles del factor
(tratamientos) considerados en el analisis. Este modelo es llamado modelo de
efectos fijos.
Si los k tratamientos constituyen una muestra aleatoria de la poblacion de
tratamientos, las conclusiones pueden extenderse a la poblacion de tratamientos.
Aquı los µj son considerados variables aleatorias. En este caso, las hipotesis seran
acerca de la variabilidad de los µj. Este modelo es llamado modelo de efectos
aleatorios o modelo de componentes de varianza
En este curso solo vamos a desarrollar el modelo de efectos aleatorios. Ahora bien,
los datos observados de un diseno completamente aleatorizado pueden presentase como
en la tabla 3.1
La hipotesis a probar en este tipo de disenos es que la media de los tratamientos
sean iguales, es decir,
H0 : µ1 = µ2 = · · · = µk
H1 : µi = µj para algun i = j (3.2)
106 CAPITULO 3. ANALISIS DE VARIANZA
Tabla 3.1: Datos Muestrales de un DCATratamiento
1 2 · · · kY11 Y12 · · · Y1k
Y21 Y22 · · · Y2k...
.... . .
...Yn11 Yn22 · · · Ynkk
Total Y,1 Y,2 · · · Y.k
nj n1 n2 · · · nk
Media Y,1 Y,2 · · · Y.K
Otra manera de plantear el modelo de un diseno completamente aleatorizado,
ecuacion ??, se tiene al expresar la media del j-esimo tratamiento, µj como
µj = µ+ τj
donde
µ es la media general.
τj es el efecto del j-esimo tratamiento
de esta manera, el modelo de un DCA se puede escribir como
Yij = µ+ τj + εiji = 1, 2, · · · , nj
j = 1, 2, · · · , k(3.3)
En este caso, la hipotesis a probar se puede plantear como
H0 : τ1 = τ2 = · · · = τk = 0
H1 : τi = 0 para algun i (3.4)
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 107
Para probar dicha hipotesis se realiza un analisis de varianza, cuyo desarrollo se
vera a continuacion.
3.3.3. Analisis de Varianza para el DCA
En el desarrollo analıtico del Analisis de varianza (ANDEVA) se necesita calcular:
El gran total: Y.. =k∑
j=1
Y.j =k∑
j=1
nj∑i=1
Yij.
El total para el tratamiento j: Y.j =
nj∑i=1
Yij. Y.j =Y.j
nj
El numero de observaciones: N =k∑
j=1
nj.
La gran media: Y.. =Y..
N.
La media del tratamiento j: Y.j =Y.j
nj.
Como se dijo antes el analisis de varianza busca separar la variabilidad total en
porciones significativas de variabilidad, en este caso, que solo hay un factor de interes
ademas del error aleatorio, se busca separar la variabilidad de las observaciones con
respecto a la media en 2 fuentes de variabilidad, una debida a los tratamientos y otra
al error aleatorio.
Una medida de la desviacion de las observaciones con respecto a la media esta dada
pork∑
j=1
n∑i=1
(Yij−Y..)2, la cual restandole y sumandole los promedios de los tratamientos
108 CAPITULO 3. ANALISIS DE VARIANZA
y ordenandolo convenientemente se tiene que
k∑j=1
nj∑i=1
(Yij − Y..)2 =k∑
j=1
nj∑i=1
(Yij − barY.j + Y.j − Y..)2 (3.5)
=k∑
j=1
nj∑i=1
[(Y.j − Y..) + (Yij − barY.j)]2 (3.6)
Al desarrollar el segundo miembro de la ecuacion 3.5, se obtiene
k∑j=1
nj∑i=1
(Yij − Y..)2 =k∑
j=1
nj∑i=1
[(Y.j − Y..)2 + 2(Y.j − Y..)(Yij − Y.j) + (Yij − Y.j)2]
=k∑
j=1
nj∑i=1
(Y.j − Y..)2 +k∑
j=1
nj∑i=1
2(Y.j − Y..)(Yij − Y.j) +k∑
j=1
nj∑i=1
(Yij − Y.j)2
=k∑
j=1
nj∑i=1
(Y.j − Y..)2 +k∑
j=1
nj∑i=1
(Yij − Y.j)2
Como las sumatorias que contienen productos cruzados son iguales a cero, se tiene que
k∑j=1
nj∑i=1
(Yij − Y..)2 =k∑
j=1
nj∑i=1
(Y.j − Y..)2 +k∑
j=1
nj∑i=1
(Yij − Y.j)2 (3.7)
La ecuacion 3.7 representa la descomposicion de la suma de cuadrados total. La cual
se puede expresar de la siguiente manera
SCT = SCTr + SCE (3.8)
Esta ultima ecuacion es la ecuacion fundamental del Analisis de Varianza.
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 109
Para efecto de calculos, las formulas anteriores usualmente se desarrollan y se
reescriben de la forma siguiente
SCT =k∑
j=1
nj∑i=1
Y 2ij −
Y 2..
N
SCTr =k∑
j=1
Y 2.j
nj
− Y 2..
N
SCE = SCT − SCTr
En base a estos estadısticos, se obtienen dos estadısticos adicionales, usualmente
llamados Medias Cuadraticas o Cuadrados Medios y resultan de dividir cada suma de
cuadrados por su correspondiente grados de libertad.
Cuadrado medio de tratamientos
CMTr =SCTr
k − 1
y,
Cuadrado medio del error
CME =SCE
N − k
Cuyos valores esperados estan dados por:
E(CME) = σ2
E(CMTr) = σ2 +k∑
j=1
nj∑i=1
τ 2jk − 1
Observemos que si H0 : τj = 0∀j, es verdadera, E(CMTr) = σ2. Esto es, en este
caso se tienen dos estimadores insesgados e independientes de σ2, el CMTr y el CME.
110 CAPITULO 3. ANALISIS DE VARIANZA
Ahora bien, sabemos que SCT = SCTr + SCE y Ademas, puede demostrarse que
SCT
σ2∼ χ2
N−1 (3.9)
Si H0 es verdadera, y de acuerdo al teorema de Cochran es posible definir dos
estadısticos chi-cuadrados independientes
SCTr
σ2∼ χ2
k−1 (3.10)
SCE
σ2∼ χ2
N−k (3.11)
Por lo tanto, el estadıstico
F0 =SCTr
σ2 /k − 1SCE
σ2 /N − k=
CMTr
CME
(3.12)
sigue una distribucion F con k − 1 y N − k grados de libertad.
Estos resultados pueden ser resumidos bajo el formato general de la tabla de
ANDEVA, como se muestra en la tabla 3.2.
Tabla 3.2: Tabla de Analisis de Varianza
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio
Tratamiento SCTr k-1 CMTrF0
Error SCE N-k CME
Total SCT N-1
Rechazamos H0 sı y solo sı: F > F1−α,k−1,N−k
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 111
Ejemplo 3.2 Los datos que figuran en la tabla 3.3 son los resultados de un diseno
completamente aleatorizado para el cual la respuesta son los kilowats hora, empleados
por los sistemas de calentamiento (en cientos de kilowats hora) para casa muy similares
en un lugar dado, como funcion de cinco aislamientos termicos (en pulgadas). Con
base en esta informacion, ¿Existe alguna razon para creer que por lo menos algunos
consumos de energıa promedio para los cinco niveles de aislamiento son diferentes?.
Suponga un nivel de significacion igual a 0.01. Se desea probar la hipotesis
Tabla 3.3: Calor empleado para cinco niveles de aislamiento
Espesor del aislamiento del techo (pulgadas)
4 6 8 10 12
14.4 14.5 13.8 13.0 13.1
14.8 14.1 14.1 13.4 12.8
15.2 14.6 13.7 13.2 12.9
14.3 14.2 13.6 13.2
14.6 14.0 13.3
12.7
H0 : µ1 = µ2 = · · · = µ5 = µ
H1 : µi = µj para algun i = j (3.13)
o de manera equivalente
H0 : τ1 = τ2 = · · · = τ5 = 0
H1 : τj = 0 para algun j (3.14)
112 CAPITULO 3. ANALISIS DE VARIANZA
El numero de observaciones y los totales se encuentran en la tabla 3.4.
Tabla 3.4: Calculos del ejemplo 3.2Tratamiento
1 2 · · · k14.4 14.5 13.8 13.0 13.114.8 14.1 14.1 13.4 12.815.2 14.6 13.7 13.2 12.914.3 14.2 13.6 13.214.6 14.0 13.3
12.7Total 73.3 57.4 69.2 39.6 78nj n1 = 5 n2 = 4 n2 = 5 n4 = 3 n5 = 6
Por lo tanto, las sumas de los cuadrados son las siguientes:
SCT = 14,42 + 14,82 + ...+ 12,72 − 317,52
23= 11,05
SCTr =73,32
5+ 57,42
4+ 69,22
5+ 39,62
3+ 782
6− 317,52
23= 9,836
SCE = 11,05− 9,836 = 1,214
La informacion se ha agrupado en una tab;a de analisis de varianza que se muestra en
la tabla 3.5
Tabla 3.5: Tabla de Analisis de Varianza para el ejemplo 3.2
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio
Tratamiento 9.836 4 2.45936.48
Error 1.214 18 0.0674
Total 11.05 22
Dado que F = 36,48 > F0,99,4,18 = 4,58 se rechaza la hipotesis nula de que no existe
ningun efecto debido a los tratamientos. En relacion con lo anterior, existe una razon
3.3. DISENO COMPLETAMENTE ALEATORIZADO (DCA) 113
para creer que parte de los consumos promedios de energıa son diferentes para los cinco
niveles de aislamiento.
114 CAPITULO 3. ANALISIS DE VARIANZA
3.4. Metodos A posteriori
En algunas investigaciones, sus objetivos o la naturaleza propia del problema
indican que debe someterse a prueba la significacion de determinados tratamientos o de
una combinacion de los mismos. Esto es, existen situaciones en las que los tratamiento
bajo investigacion tienen alguna relacion lo cual incide en que unas comparaciones
son de mas interes que otras. A esto nos referimos como comparaciones a priori o,
preplaneadas.
Ahora bien, si una vez realizado el experimento y analizada la informacion,
rechazamos la hipotesis nula, significa que por lo menos una de las medias de los
tratamientos es diferente del resto o, que al menos un efecto de tratamiento difiere
significativamente de cero. Sin embargo, el rechazar la hipotesis nula no ofrece ninguna
informacion que permita dar respuesta a la siguiente interrogante; ¿Cual o cuales
medias difieren?
En esta seccion se van a desarrollar procedimientos que permiten probar la
significacion de algunas comparaciones entre los efectos de tratamientos o entre todas
las posible parejas entre tratamientos, en el primer caso se dice que son comparaciones
por contraste y en el segundo comparaciones multiples. Veamos a continuacion dichos
procedimientos:
3.4.1. Comparaciones por Contrastes
Aunque por lo general, se esta interesado en la comparacion de los tratamientos
agrupados por parejas, lo que se traduce en contrastar hipotesis del tipo H0 : µ1 = µ2,
o de manera equivalente H0 : µ1 − µ2 = 0, dando como consecuencia un total de(k2
)comparaciones, existen situaciones en las que es de interes comparar una combinacion
3.4. METODOS A POSTERIORI 115
lineal de tratamientos, las cuales se traducen en contrastar hipotesis de la forma
H0 :m∑j=1
cjµj = 0. La ecuacion que se presenta en la hipotesis antes planteada se
conoce como contraste.
Definicion 3.9 (Contraste) Un contraste (L) es una combinacion lineal de las
medias poblacionales de interes, es decir,
L =m∑j=1
cjµj (3.15)
donde
cj son numeros reales que cumplen con la condicionm∑j=1
cj = 0
µj es la media del j-esimo tratamiento.
Por ejemplo, las hipotesis nulas del tipo H0 : µi = µj, se pueden escribir como
H0 : µi − µj = 0, definen el contraste L = c1µ1 − c2µ2 donde c1 = 1 y c2 = −1. La
hipotesis H0 :µ1+µ2
2= µ3 define un contraste con c1 =
12, c2 =
12y c3 = −1.
Para probar dichas hipotesis, bajo el supuesto que la distribucion de las poblaciones
son N(µj, σ2), se usa como estimador L =
m∑j=1
cjµj =m∑j=1
cjYj, el cual se distribuye
normal con parametros
E[L] =m∑j=1
cjµj y V ar[L] = σ2
m∑j=1
c2jnj
L0 =
L−m∑j=1
cjµj√√√√σ2
m∑j=1
c2jnj
(3.16)
116 CAPITULO 3. ANALISIS DE VARIANZA
sigue una distribucion normal con media igual a cero y varianza igual a 1.
Como por lo general σ2 es desconocida, usamos CME como su estimador, de manera
que,
L0 =
L−m∑j=1
cjµj√√√√CME
m∑j=1
c2jnj
(3.17)
el cual se distribuye t-student con N − k grados de libertad. De esta forma la
expresion
L± tα/2,N−k
√√√√CME
m∑j=1
c2jnj
(3.18)
constituye un intervalo de confianza del 100(1− α)% para L.
Si el intervalo contiene el cero, se concluye que L es estadısticamente igual a cero.
Podemos indicar que rechazamos cuando |L0| > tα/2,N−k.
Metodo de Scheffe
Es un metodo alternativo del t-student para probar contrastes. En este caso
Scheffe propone el siguiente intervalo de confianza para el contraste L.
L± A
√√√√CME
m∑j=1
c2jnj
(3.19)
donde
A =√(k − 1)Fα,k−1,N−k
3.4. METODOS A POSTERIORI 117
Nuevamente si el intervalo de confianza no contiene al cero, entonces decimos que
la prueba es significativa, es decir que se rechaza la hipotesis de que el contraste sea
igual a cero.
3.4.2. Comparaciones Multiples
Metodo de la Diferencia Mınima Significativa (LSD)
Procedimiento propuesto por Fisher en el ano 1.935 y que consiste en realizar todas
las posibles comparaciones entre pares de medias, es decir, todos las(k2
)pruebas de la
forma:
H0 : µi = µj
H1 : µi = µj∀i = j (3.20)
Para probar dicha hipotesis se usa como estadıstico de prueba la diferencia entre los
valores estimados de las medias (medias muestrales), es decir Y.j−Y.k, cuya distribucion
(suponiendo que las poblaciones son N(µj, σ2)) es N [µj − µj′ , σ
2(1/nj + 1/nj′)]. Por
lo tanto, bajo la hipotesis nula cierta el estadıstico
Z =Y.j − Y.k
σ√
1/nj + 1/nk
(3.21)
se distribvuye normal estandar. Pro como σ2 es desconocido, se usa el CME para
estimarlo. asi, el estadıstico
T =Y.j − Y.k√
CME(1/nj + 1/nk)(3.22)
118 CAPITULO 3. ANALISIS DE VARIANZA
se distribuye t-student con N − k grados de libertad. Por lo tanto, se rechaza H0 si
|T | > tα/2,N−k, lo cual es equivalente a rechazar H0 si
|Y.j − Y.k| > tα/2,N−k
√CME(1/nj + 1/nk)
Otra manera de contrastar la hipotesis es construyendo el intervalo de confianza
para µj − µk el cual es
|Y.j − Y.k| ± tα/2,N−k
√CME(1/nj + 1/nk)
Si el intervalo no contiene el cero rechazamos H0.
Esta prueba es conocida
como LSD, pues segun Gutierrez(2006), tα/2,N−k
√CME(1/nj + 1/nk) es la mınima
diferencia que debe haber entre dos medias muestrales para poder considerar que los
tratamientos correspondientes son significativamente diferentes.
Metodo de los Rangos Estudentizados o Metodo de Tukey
Procedimiento aplicado para probar hipotesis de la forma H0 : µj − µk = 0,
inicialmente en disenos balanceados. Este metodo hace uso de la Distribucion del Rango
Estudentizado, el cual se define a continuacion.
Definicion 3.10 Sean Z1, ..., Zm y U variables aleatorias independientes, tales que
Zi ∼ N(0; 1)(i = 1, 2, ...m) y U ∼ χ2m. Sea ademas,
q = maxi =j
|Zi − Zj|√U/m
(3.23)
Decimos que q tiene una distribucion de rango estudentizado , lo que se denota,
3.4. METODOS A POSTERIORI 119
q ∼ qk;m.
Para probar H0 , se debe calcular:
T = qα;k,N−k
√CME/n (3.24)
donde qα;k,N−k es el punto superior α de la distribucion de rango estudentizado.
Existen tablas de estos valores que pueden ser consultadas en libros de disenos de
experimentos o modelos lineales.
Si |Y.j − Y.k| > T concluimos que µj y µk son diferentes, en otro caso, se consideran
iguales.
Para el caso no balanceado, Kramer (1.956) propone el siguiente cambio en 3.24
T = qα;k,fE
√1
2
(1
nj
+1
nk
)CME/n (3.25)
donde fE son los grados de libertad para el error. Este metodo es referido como el
metodo de Tukey-Kramer.
Metodo de los Rangos Multiples de Duncan
Test disenado para comparar todos los posibles pares de medias [k(k − 1)/2]. A
diferencia del test de Tukey, este usa diferentes valores crıticos, los cuales dependen del
rango de |Y.j y Y.k. Esto es, dependen del numero de medias entre ellas, una vez que
han sido ordenadas en forma ascendente.
Sean Y(,1), ..., Y(.k) las medias de tratamientos ordenadas en forma ascendente. Si
entre Y(.j) y Y(.k) hay p medias, entonces un test rango estudentizado de tamano α,
es conducido comparando Y(.j) − Y(.k) con Dp = rα(p, fε)√
CME
n, donde rα(p, fε) es el
120 CAPITULO 3. ANALISIS DE VARIANZA
rango significativo de la tabla de Duncan para el nivel α. Si Y(.j)− Y(.k) > Dp, entonces
µj y µk son significativamente diferentes.
El procedimiento de Duncan se desarrolla de la siguiente manera:
1. Ordenar las medias en forma ascendente.
2. Obtener las diferencias entre cada par de medias de la siguiente manera:
Y.(k) − Y.(1), Y.(k) − Y.(2), ..., Y.(k) − Y.(k−1), ..., Y.(2) − Y.(1)
3. Obtener rα(p, fε) y comparar Y.(k) − Y.(1) con Dk. Si esta diferencia no es
significativa, debemos considerar las diferencias Y.(k) − Y.(2) y Y.(k−1) − Y.(1)
y compararlas con Dk−1 , y ası sucesivamente hasta comparar las diferencias
Y.(k) − Y.(k−1), Y.(k−1) − Y.(k−2) con D2.
Si el modelo es no balanceado, n suele ser reemplazado por nh = kk∑
j=1
1
nj
.c
Metodo de Newman Keuls
Es un metodo restringido a la comparacion entre pares de medias. Es similar en
cuanto a su procedimiento, al Test de Rangos Multiples de Duncan, no ası en su
eficiencia, ya que la prueba de Duncan es mas eficaz. En este procedimiento las medias
deben ser ordenadas en forma ascendente y se requiere del calculo de todas las posibles
diferencias crıticas entre las medias. Estas diferencias crıticas estan dadas por:
NKp = qα;p,fE
√CME
np = 2, 3, ..., k (3.26)
3.4. METODOS A POSTERIORI 121
donde qα es el valor critico de la tabla de rango estudentizado. µj y µk, se consideran
significativamente diferentes si y solo si (Y(.j) − Y(.k)) > NKp.
Metodo de Dunnet
Existen situaciones en las que dentro del grupo de k tratamientos se tiene un
tratamiento control, y el objetivo principal del experimento es comparar a los (k − 1)
tratamientos restantes con este. Esto es, si el tratamiento S es el control, entonces
estamos interesados en probar la hipotesis:
H0 : µS = µj j = 1, ..., k; j = S
Para hacer las (k − 1) comparaciones se usa el procedimiento desarrollado por
Dunnett y el cual consiste en comparar (Y(.S) − Y(.j)) con el valor crıtico
D =
(2CME
n
)−1/2
dk−1,α,f si H1 : µs > µj
D′ = −(2CME
n
)−1/2
dk−1,α,f si H1 : µs < µj
D′′ =
(2CME
n
)−1/2
dk−1,α/2,f si H1 : µs = µj
Luego, rechazamos H0 sı y solo sı:
D ≥ D si H1 : µs > µj
D ≤ D′ si H1 : µs < µj
|D| = D′′ si H1 : µs = µj
122 CAPITULO 3. ANALISIS DE VARIANZA
3.5. Ejercicios
1. Demuestre que la suma de los productos cruzados en la descomposicion de la
suma de cuadrados es cero.
2. Obtenga las formulas usuales del analisis de varianza a partir de las formulas
teoricas.
3. Demuestre que
E(CME) = σ2
E(CMTr) = σ2 +k∑
j=1
nj∑i=1
τ 2jk − 1
4. Demuestre que
SCT
σ2∼ χ2
N−1
SCTr
σ2∼ χ2
k−1
SCE
σ2∼ χ2
N−k
5. Demuestre que
F0 =CMTr
CME
∼ Fk−1,N−k.
Nota: Establezca los supuestos necesarios.
6. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan
con metodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado,
el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en
el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Despues de
3.5. EJERCICIOS 123
un mes de entrenamiento se realiza un test de rendimiento consistente en un
recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes
Metodo I Metodo II Metodo III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11
A un nivel de confianza del 95% ¿Puede considerarse que los tres metodos
producen resultados equivalentes? O por el contrario ¿Hay algun metodo superior
a los demas?
7. Una lista de palabras sin sentido se presenta en la pantalla del ordenador
con cuatro procedimientos diferentes, asignados al azar a un grupo de sujetos.
Posteriormente se les realiza una prueba de recuerdo de dichas palabras,
obteniendose los siguientes resultados:
Proc. I Proc. II Proc. III Proc. IV
5 9 8 1
7 11 6 3
6 8 9 4
3 7 5 5
9 7 7 1
7 4 4
4 4
2
124 CAPITULO 3. ANALISIS DE VARIANZA
¿Que conclusiones pueden sacarse acerca de las cuatro formas de presentacion,
con un nivel de significacion del 5
8. Una egresada de contadurıa tiene ofertas de trabajo de cuatro empresas. Para
examinar un poco mas las propuestas, solicito a una muestra de personas de nuevo
ingreso, decirle cuantos meses trabajaron cada una para su compania, antes de
recibir un aumento de sueldo. La informacion muestral es:
A B C D
12 14 18 12
10 12 12 14
14 10 16 16
12 10
9 7 7 1
Al nivel de significancia de 0,05; existe alguna diferencia entre las cuatro empresas,
en el numero medio de meses antes de recibir un aumento de sueldo?
9. Cierta ciudad esta dividida en cuatro distritos. El jefe de policia quiere determinar
si hay alguna diferencia en el numero promedio de crımenes cometidos en cada
distrito. Registro el numero de crımenes reportados en cada distrito en una
muestra de seis dıas. Al nivel de significancia 0,05; puede el funcionario concluir
que hay diferencia en el numero promedio de crımenes?
3.5. EJERCICIOS 125
A B C D
13 21 12 16
15 13 14 17
14 18 15 18
15 19 13 15
14 18 12 20
15 19 15 18
10. En una empresa electronica se estudian cuatro tipos de circuitos para comparar la
cantidad de ruido de fondo asociado a cada circuito. Se han obtenido los siguientes
datos:
circuito Ruido observado
1 19 20 19 30 8
2 80 61 73 56 80
3 47 26 25 35 50
4 95 46 83 78 97
¿Es la cantidad media de ruido asociado a cada circuito la misma?, ¿que circuito
seleccionarıa?
126 CAPITULO 3. ANALISIS DE VARIANZA
Capıtulo 4
Diseno de Bloques Aleatorios
4.1. Introduccion.
Como se ha dicho antes, uno de los principales objetivos que se persigue al disenar
un experimento, es reducir el error aleatorio y de esta forma, incrementar la precision
de los resultados. En el diseno completamente aleatorio se supone que las unidades
experimentales son relativamente homogeneas con respecto a factores que afectan
la variable respuesta. Sin embargo algunas veces no tenemos disponibles suficientes
unidades experimentales homogeneas. Por lo tanto, cualquier factor que afecte la
variable respuesta y que varıe entre las unidades experimentales aumentara la varianza
del error experimental, disminuyendo ası la precision de las comparaciones.
Por ejemplo, consideramos el problema de determinar si distintas maquinas exhiben
diferente velocidad en el ensamblaje de un artıculo. El gerente de una empresa desea
comparar cuatro maquinas diferentes y tomar alguna decision acerca de cual maquina
adquirir de acuerdo a la velocidad de ensamblaje mostrada. El factor de interes es solo la
maquina, pero es importante tomar en cuenta que la operacion de las maquinas requiere
127
128 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
determinada destreza, pues operadores mas diestros pueden incidir en la disminucion
del tiempo de ensamblaje del artıculo. Esto implica que la velocidad de ensamblaje
no se debe solo a la diferencia entre los cuatro tipos de maquinas sino tambien a la
destreza de los operadores. En terminos de variabilidad, la variacion de los tiempos de
ensamblaje no se debe solo a la variacion producida por las maquinas sino tambien a
la variacion producida por los operadores.
Para disminuir tal variabilidad, su utilizan mecanismos conocidos como control
local. Uno de ellos es, disponer de unidades experimentales en varios grupos
homogeneos, llamados generalmente bloques, los cuales admiten variacion entre ellos.
En el ejemplo anterior se vio que hay dos factores que aportan sobre la variabilidad
de la respuesta, el tipo de maquina y el operador, pero como solo es de interes el
efecto que tiene la maquina, entonces es necesario controlar el efecto producido por
los operadores, esto se logra colocando los operadores como bloques, es decir, cada
operador debe usar las 4 maquinas, de esta manera la variabilidad producida por cada
operario se debera a la diferencia entre las maquinas.
Por lo tanto, los bloques se pueden definir como los valores de un factor que se
piensa influye sobre la respuesta pero que no es de interes en el estudio.
Usar bloques estratifica a las unidades experimentales en grupos homogeneos. Una
buena eleccion del criterio de bloqueo resulta en menor variacion entre las unidades
experimentales dentro de los bloques comparada con la variacion de las unidades
experimentales entre los bloques.
4.2. TIPOS DE DISENOS DE BLOQUES 129
4.2. Tipos de disenos de bloques
Dependiendo del tamano del bloque usado, existen dos tipos basicos de disenos de
bloques aleatorizados:
1. Diseno de bloque completo: Cada bloque contiene todos los tratamientos.
Esto es, el material experimental es dividido en b bloques de k unidades
experimentales cada uno, donde k representa el numero de tratamientos (Tabla
1)
2. Diseno de bloque incompleto: El tamano de al menos un bloque es menor
que el numero de tratamientos en el experimento. Existen dos tipos de bloques
aleatorizados incompletos:
a) b.1. Balanceado: Todos los bloques tienen el mismo tamano y el numero de
bloques en el que cualquier par de tratamientos aparece juntos, es constante.
Si ademas, el numero de tratamientos es igual al numero de bloques, decimos
que el diseno es simetrico. (Tabla 2)
b) No Balanceado: El numero de bloques que contiene cualquier par de
tratamientos no es constante, puede diferir de un par a otro. (Tabla 3)
4.3. Diseno de bloques aleatorizados con bloques
completos
Consideremos ahora en detalle el diseno de bloques aleatorizados con bloques
completos. La aleatorizacion se da de la siguiente manera: Los tratamientos son primero
numerados de 1 a k en cualquier orden. Las unidades en cada bloque son ademas
130 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
numeradas, convenientemente de 1 a k. Los k tratamientos son asignados en forma
aleatoria a las k unidades en cada bloque. La distribucion aleatoria puede ser hecha o
bien, consultando una tabla de numeros aleatorios, sorteos de lotes o el lanzamiento
de una moneda como se describe en el diseno completamente aleatorizado.
En este tipo de diseno, como se explico antes, sobre la variable respuesta influyen
tres factores: el factor de interes a traves de sus tratamientos, el factor que no es de
interes estudiar y el error experimental el cual contiene todas aquellas variables que no
han sido tomadas en cuenta. Por lo tanto la variable respuesta puede modelarse de la
siguiente manera:
Yij = µ+ βi + τj + εiji = 1, 2, · · · , b
j = 1, 2, · · · , k
donde
Yij es la observacion del j-esimo tratamiento en el i-esimo bloque.
µ es la media general
βi es el efecto del i-esimo bloque
τj es el efecto de j-esimo tratamiento
εij es el error aleatorio, los cuales se suponen N(0, σ2) e independientes
En este modelo, βi = µi. − µ y τj = µ.j − µ
Ademas suponiendo que el modelo es de efectos fijos se cumple que
b∑i=1
βi =k∑
j=1
τj = 0
4.3. DISENO DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS131
Un supuesto adicional a los ya considerados, es que el efecto de cada tratamiento es
el mismo en todos los bloques. Esto significa que no existe interaccion entre bloques y
tratamientos.
Ahora bien, los datos observados de un diseno en el cual los tratamientos son
arreglados en b bloques completos pueden presentase como en la tabla 4.1
Tabla 4.1: Datos para un DBCATratamiento Total
1 2 · · · k bloque
Bloque1 y11 y12 · · · y1k y1.2 y21 y22 · · · y2k y2....
......
. . ....
b yb1 yb2 · · · ybk yb.Total Trat y,1 y,2 · · · y.k y..
Al igual que en el diseno completamente aleatorizado la hipotesis a probar es:
H0 : µ1 = µ2 = · · · = µk (4.1)
H1 : µi = µj para algun i = j
que tambien se puede expresar como
H0 : τ1 = τ2 = · · · = τk = 0 (4.2)
H1 : τi = 0 para algun i
Para probar dicha hipotesis se realiza un analisis de varianza
132 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
Analisis de Varianza
La hipotesis dadas en (4.1) o (4.9) se prueba con un analisis de varianza con dos
criterios de clasificacion; se utilizan los dos criterios porque se controlan dos fuentes
de variacion: el factor de tratamientos y el factor de bloque.
Una medida de la desviacion de las observaciones con respecto a la media esta dada
pork∑
j=1
b∑i=1
(yij− y..)2, la cual restandole y sumandole los promedios de los tratamientos
y los bloques y el promedio general y ordenandolo convenientemente se tiene que
k∑j=1
b∑i=1
(yij − y..)2 =k∑
j=1
b∑i=1
[(yi. − y..) + (y.j − y..) + (yij − yi. − y.j + y..)]2 (4.3)
Al desarrollar el segundo miembro de la ecuacion 4.3, se obtiene
k∑j=1
b∑i=1
(yij − y..)2 =k∑
j=1
b∑i=1
(yi. − y..)2 +
k∑j=1
b∑i=1
(y.j − y..)2 +
k∑j=1
b∑i=1
(yij − yi. − y.j + y..)2
+ 2k∑
j=1
b∑i=1
(yi. − y..)(y.j − y..) + 2k∑
j=1
b∑i=1
(yi. − y..)(yij − yi. − y.j + y..)
= 2k∑
j=1
b∑i=1
(y.j − y..)(yij − yi. − y.j + y..)
Se puede probar que las sumatorias que contienen productos cruzados son iguales a
cero. Por lo tanto,
k∑j=1
b∑i=1
(yij − y..)2 =k∑
j=1
b∑i=1
(yi. − y..)2 +
k∑j=1
b∑i=1
(y.j − y..)2 +
k∑j=1
b∑i=1
(yij − yi. − y.j + y..)2
representa la descomposicion de la suma de cuadrados total. La cual se puede expresar
4.3. DISENO DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS133
de la siguiente manera
SCT = SCB + SCTr + SCE (4.4)
Para efecto de calculos, las formulas anteriores usualmente se desarrollan y reescriben
de la forma siguiente
SCT =k∑
j=1
b∑i=1
y2ij −y2..bk
SCB =b∑
i=1
y2i.k
− y2..bk
SCTr =k∑
j=1
y2.jb
− y2..bk
SCE = SCT − SCB − SCTr
Ahora bien, si el bloqueo es usado para reducir el error experimental, comparando los
modelos para los disenos completamente aleatorizados y de bloques completamente
aleatorizados para la i-esima observacion bajo el j-esimo tratamiento se tiene que:
ε∗ij = εij + βi (4.5)
donde ε∗ij es el error aleatorio del diseno completamente aleatorizado, εij el error para
el diseno de bloques completamente aleatorizado y βi el efecto de bloque. Esta igualdad
implica que la suma de cuadrados del Error en el Diseno Completamente Aleatorizado
es igual a la Suma de Cuadrados de Bloques mas la Suma de Cuadrados del Error en
el Diseno de Bloques, es decir :
SCE(DCA) = SCB + SCE(DBCA) (4.6)
134 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
Las sumas de cuadrados divididas por sus grados de libertad proveen otros estadısticos,
llamados cuadrados medios.
CMTr =SCTr
k − 1CMB =
SCB
b− 1CME =
SCE
(k − 1)(b− 1)(4.7)
Si la varianza de los errores se supone constante, sigma2, y ademas βi y τj son fijos,
entonces los valores esperados de estos cuadrados medios estan dados por:
E(CME) = σ2
E(CMTr) = σ2 +
bk∑
j=1
τ 2j
k − 1
E(CMB) = σ2 +
kn∑
i=1
β2i
b− 1
Si H0, en (4.1) o (4.9), es verdadera, el valor esperado del cuadrado medio de los
tratamientos esta dado por:
E(CMTr) = σ2
Por consiguiente, bajo la hipotesis nula cierta, el estadıstico
F 1c =
CMTr
CME
(4.8)
sigue una distribucion F con k − 1 y (b− 1)(k − 1) grados de libertad.
De aquı podemos indicar que cuando la hipotesis nula H0 no es verdadera, se espera
que ocurra un valor grande para F 1c , es decir, H0 debe ser rechazada. F
1c es chequeado
contra el valor crıtico Fα,k−1,(k−1)(b−1); si F1c es mayor que este valor crıtico, rechazamos
4.3. DISENO DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS135
H0.
Otra hipotesis de interes es medir el efecto del bloque, es decir, medir se el bloque
es o no necesario, la cual puede plantearse de la siguiente manera:
H20 : β1 = β2 = · · · = βb = 0 (4.9)
H21 : βi = 0 para algun i
Al igual que para el desarrollo anterior, si H20 es verdadera, el valor esperado del
cuadrado medio de los bloques esta dado por:
E(CMB) = σ2
Bajo H20 cierta, el cociente
F 2c =
CMB
CME
(4.10)
y H20 se rechaza si F 2
c es mayor que el valor crıtico Fα,k−1,(k−1)(b−1).
Todo este desarrollo lo podemos resumir como se muestra en la Tabla 4.2. Esta
tabla recibe el nombre de Tabla de Analisis de Varianza para el Diseno de Bloques
Completamente Aleatorizado.
Tabla 4.2: Tabla de Analisis de Varianza para el DBCA
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio
Tratamiento SCTr k-1 CMTrF 1c
Bloque SCB b-1 CMBF 2c
Error SCE (k-1)(b-1) CME
Total SCT N-1
136 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
Ejemplo 4.1 Se realiza un experimento para determinar el efecto que tiene el grado
de trabajo (vueltas por pulgada) en la resistencia del algodon. Se decide utilizar cinco
niveles para el grado de trabajo; 150, 163, 169, 178 y 10 vueltas por pulgadas. Se
sabe que ademas de este factor, existen otras posibles fuentes de variacion, como las
maquinas, operadores, material experimental, entre otros. Despues de una discusion
se decide ignorar el efecto de estos factores, excepto el factor maquinas, el cual
sera controlado. La variable respuesta medida es el numero de roturas por cada cien
libras de material. La tabla 3-1 muestra los resultados obtenidos:
Tabla 4.3: Numero de Rupturas por cada cien libras
Grados de Trabajo
10 163 169 178 190
Maquina
1 9 24 42 29 68
2 12 27 23 49 34
3 12 22 22 17 60
4 31 16 47 45 50
5 22 25 17 39 57
6 10 24 23 44 37
Probar la hipotesis de que no existen efectos de tratamientos a un nivel de
significacion del 5%.
Solucion:
El diseno utilizado en esta investigacion es un diseno de bloques completos, donde:
Tratamientos: Grados de Trabajo
Bloques: Maquinas
Variable Respuesta: Numero de roturas por cada cien libras de material
4.3. DISENO DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS137
La primera hipotesis a probar es:
H10 : τ1 = τ2 = τ3 = τ4 = τ5 = 0
Bajo el supuesto de normalidad se puede hacer uso de la tecnica de analisis de varianza
para probar dicha hipotesis.
Tabla 4.4: Tabla de totales
TratamientoTotal bloque
10 163 169 178 190
Bloque
1 9 24 42 29 68 172
2 12 27 23 49 34 145
3 12 22 22 17 60 133
4 31 16 47 45 50 189
5 22 25 17 39 57 160
6 10 24 23 44 37 138
Total Tratamiento 96 138 174 224 305 937
Ademas,6∑
j=1
5∑i=1
Y 2ij = 36475. Entonces
SCT = 36475− 9372
30= 7209, 367
SCB = 29732, 600− 9372
30= 466, 967
SCTr = 33,650, 167− 9372
30= 4384, 533
SCE = 7209, 367− 466, 967− 4384, 533 = 2357, 867
De aquı se puede construir la siguiente tabla de Analisis de Varianza: Si se usa un nivel
138 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
Tabla 4.5: Tabla de Analisis de Varianza para el DBCA
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio
Tratamiento 4384,533 4 1096,1339,298
Bloque 466,967 5 93,3930,792
Error 2357,867 20 93,393
Total 7209,367 29
de significacion del 5%, el valor crıtico es F4,20,0,05 = 2, 87 y dado que 9,298 es mayor
que 2,87, entonces se rechaza la hipotesis, es decir, se concluye que existe efectos del
grado de trabajo sobre el numero de roturas.
Al observar el valor de la Fc asociada con los bloques, 0.792, podemos concluir que
no existen diferencias significativas entre las maquinas, lo que implica que el diseno de
bloques no se justifica.
4.4. Preguntas y Ejercicios
1. ¿Que es un diseno de bloques completamente aleatorios?
2. ¿Cuando es apropiado utilizar un diseno de bloques completamente aleatorios?.
3. ¿Cual es el modelo de un diseno de bloques completamente aleatorios?
4. ¿Que diferencia hay entre un diseno completamente aleatorizado y uno de bloques
completos?.
5. Apoyandose en el modelo estadıstico para un diseno en bloques, ¿por que a traves
de este diseno se reduce el error aleatorio?.
4.4. PREGUNTAS Y EJERCICIOS 139
6. Explique por que el adjetivo aleatorios en el nombre del diseno de bloques
completamente aleatorios
7. Demuestre que los productos cruzados obtenidos en la particion de las sumas de
cuadrados son iguales a cero.
8. A continuacion se muestra una parte del ANOVA para un diseno en bloques, que
tiene tres tratamientos y cinco bloques, con una sola repeticion en tratamiento-
bloque.
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio calculado
Tratamiento 600
Bloque 850
Error 500
Total
a) Complete la tabla.
b) Escriba el modelo estadıstico y las hipotesis pertinentes.
c) Apoyandose en tablas de la distribucion F, decida i se aceptan o se rechazan
las hipotesis.
9. Realice el problema anterior, pero ahora suponga que no se hay bloqueado. ¿Se
hubiese obtenido las mismas conclusiones?. Argumente.
10. Una companıa farmaceutica realizo un experimento para comprobar los tiempos
promedio (en dıas) necesarios para que una persona se recupere d elos efectos
y complicaciones que siguen a un resfriado comun. En este experimento se
140 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
compararon las personas que tomaron distintas dosis diarias de vitamina C.
Para hacer el experimento se contacto a un numero determinado de personas,
que en cuanto les daba el resfriado empezaban a recibir algun tipo de dosis (las
cuales se iban rotando). Si la edad de estas es una posible fuente de variabilidad,
explique con detalle como aplicarıa la idea de bloqueo para controlar tal fuente
de variabilidad.
11. A continuacion se muestran los datos para un diseno en bloques al azar.
Tratamiento Total bloque
A B C
Bloque
1 3 7 4 y1. =
2 4 9 6 y2. =
3 2 3 3 yb. =
4 6 10 7 yb. =
Total Trat y,1 = y,2 = y,3 = y.. =
a) Complete los totales que se4 piden en la tabla anterior.
b) Calcule las sumas de cuadrados correspondientes.
c) Obtenga la tabla de analisis de varianza y anote las principales conclusiones.
d) De ser necesario realice el analisis a posteriori usando el metodo de la
diferencia mınima significativa.
12. Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar
moscas. Para ello, cada atomizador se aplica a un grupo de 100 moscas y se cuenta
el numero de moscas muertas, expresado en porcentajes. Se hicieron seis replicas,
pero estas se hicieron en dıas diferentes, por ello se sospecha que puede haber
4.4. PREGUNTAS Y EJERCICIOS 141
algun efecto importante debido a esta fuente de variacion. Los datos obtenidos
se muestran a continuacion.
Marca de atomizadorNumero de replica (dıa)
1 2 3 4 5 6
1 72 65 67 75 62 73
2 55 59 68 70 53 50
3 64 74 61 58 51 69
a) Formule las hipotesis adecuadas y el modelo estadıstico.
b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?.
c) ¿Hay algun atomizador mejor?.
d) ¿Hay diferencias significativas en los resultados de diferentes dıas en que se
realizo el experimento?. Argumente.
13. En una empresa lechera se tienen varios silos para almacenar leche (ciusternas de
60.000 L). Un aspecto crıtico para que se conserve la leche es la temperatura de
almacenamiento. Se sospecha que en algunos silos hay problemas, por ello durante
cinco dıas se decide registrar la temperatura a cierta hora crıtica. Obviamente la
temperatura de un dıa a otro es una fuente de variabilidad que podrıa impactar
la variabilidad total.
142 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
SiloDıa
Lunes Martes Miercoles Jueves Viernes
A 4.0 4.0 5.0 0.5 3.0
B 5.0 6.0 2.0 4.0 4.0
C 4.5 4.0 3.5 2.0 3.0
D 2.5 4.0 6.5 4.5 4.0
E 4.0 4.0 3.5 2.0 4.0
a) En este problema, ¿cual es el factor de tratamiento y cual el factor de bloque?
b) Formule las hipotesis adecuadas y el modelo estadıstico
c) ¿Hay diferencia entre los silos?
d) La temperatura de un dıa a otro es diferente?
14. Se diseno un experimento para estudiar el rendimiento de cuatro detergentes. Las
siguientes lecturas de ”blancura”se obtuvieron con un equipo especial disenado
para doce cargas de lavado distribuidas en tres modelos de lavadoras.
Detergente Lavadora 1 Lavadora 2 Lavadora 3
A 45 43 51
B 47 44 52
C 50 49 57
D 42 37 49
a) Senale el nombre del diseno experimental utilizado.
b) Formule la hipotesis que se quiere probar, de acuerdo al problema.
c) Realice el analisis estadıstico apropiado a estos datos y obtenga conclusiones.
4.4. PREGUNTAS Y EJERCICIOS 143
15. Una quımica desea probar el efecto que tienen cuatro agentes quımicos sobre
la resistencia de un tipo particular de tela. Como puede haber variabilidad
entre un rollo de tela y otro, decide utilizar un diseno aleatorizado por bloques,
considerando los rollos de tela como bloques. Ella selecciona 5 rollos y les aplica
los cuatro agentes quımicos en orden aleatorio. A continuacion, se proporcionan
los resultados de la resistencia a la tension. Analice estos datos y haga las
conclusiones apropiadas.
Agente quımicoRollo de tela
1 2 M3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
144 CAPITULO 4. DISENO DE BLOQUES ALEATORIOS
Capıtulo 5
Diseno en Cuadrado Latino
5.1. Introduccion.
En la seccion anterior se vio que una manera de reducir el error experimental era
tomando en cuenta otros factores que se piensan influyen sobre la variable respuesta,
En ese caso, se supuso que solo existıa un solo factor al cual se le llamo factor de
bloqueo, pues su funcion era bloquear la variabilidad que se producıa sobre la variable
respuesta. En esta seccion vamos a estudiar situaciones en las que consideramos dos
factores de bloqueo, en cuyo caso decimos que se esta realizando un diseno en cuadrado
latino.
5.2. Diseno en Cuadrado Latino
En este tipo de diseno se tiene que sobre la variable respuesta influyen cuatro
factores: el factor de interes a traves de sus tratamientos, 2 factores de bloqueo y el
error experimental el cual contiene todas aquellas variables que no han sido tomadas
145
146 CAPITULO 5. DISENO EN CUADRADO LATINO
en cuenta. Los 2 factores de bloque son conocidos como bloque columna y bloque fila, o
simplemente, columna y fila, estos deben tener el mismo numero de niveles, es por ello
que se llama cuadrado. Los tratamientos se denotan con las letras latinas, razon por la
cual se llama latino, y solo aparece uno por cada combinacion de fila-columna, por lo
tanto el numero de tratamientos es igual al numero de filas y columnas y en cada fila
y columna deben estar presentes todos los tratamientos, los mismos son asignados de
manera aleatoria en cada fila o columna.
Por lo tanto la variable respuesta, de un diseno con k tratamientos, k filas y k
columnas, puede modelarse de la siguiente manera:
Yijr = µ+ τi + βj + γrεij; (i, j, r) = 1, 2, · · · , k (5.1)
donde
Yijr es la observacion del tratamiento i, en la fila j y la columna r.
µ es la media general
τi es el efecto de i-esimo tratamiento
βj es el efecto del j-esimo nivel del factor fila.
γr es el efecto del r-esimo nivel del factor columna.
εijr es el error aleatorio, los cuales se suponen N(0, σ2) e independientes
Suponiendo que el modelo es de efectos fijos se cumple que
b∑i=1
τi =k∑
j=1
βj =k∑
j=1
γk = 0
5.2. DISENO EN CUADRADO LATINO 147
Un supuesto adicional a los ya considerados, es que los factores afectan los resultados
en forma independiente, uno de otro. Esto es, la interaccion no es importante o, no
existe.
Ahora bien, los datos observados de un diseno en el cual los k tratamientos son
arreglados en k filas y k columnas pueden presentase como en la tabla 5.1
Tabla 5.1: Aspectos de los datos en un diseno de cuadrado latinoColumna
1 2 3 · · · k
Fila
1 A = y111 B = y212 C = y313 · · · K = yk1k2 B = y221 C = y322 D = y423 · · · A = y12k3 C = y331 D = y432 E = y533 · · · B = y23k...
......
.... . .
...k K = ykk1 A = y1k2 B = y2k3 · · · J = yjkk
Al igual que en los disenos anteriores la hipotesis a probar es:
H0 : τ1 = τ2 = · · · = τk = 0 (5.2)
H1 : τi = 0 para algun i (5.3)
Para probar dicha hipotesis se realiza un analisis de varianza.
Analisis de Varianza
La hipotesis dada se prueba con un analisis de varianza con tres criterios de
clasificacion; se utilizan los tres criterios porque se controlan tres fuentes de variacion:
el factor de tratamientos y los dos factores de bloque.
Una medida de la desviacion de las observaciones con respecto a la media
148 CAPITULO 5. DISENO EN CUADRADO LATINO
esta dada pork∑
i=1
k∑j=1
k∑r=1
(yijr − ¯y...)2, la cual restandole y sumandole los promedios
de los tratamientos, de las filas, las columnas y el promedio general y ordenandolo
convenientemente se tiene que
k∑i=1
k∑j=1
k∑r=1
(yijk − ¯y...)2 =k∑
i=1
k∑j=1
k∑r=1
[(yi.. − y...) + (y.j. − y...) + (y..r − y...)(5.4)
+ (yij − yi.. − y.j. − y..r + 2y..)]2 (5.5)
Al desarrollar el segundo miembro de la ecuacion, y teniendo en cuenta que las
sumatorias que contienen productos cruzados son iguales a cero se obtiene
k∑i=1
k∑j=1
k∑r=1
(yijk − ¯y...)2 =k∑
i=1
k∑j=1
k∑r=1
(yi.. − y...)2 +
k∑i=1
k∑j=1
k∑r=1
(y.j. − y...)2
+k∑
i=1
k∑j=1
k∑r=1
(y..r − y...)2 +
k∑i=1
k∑j=1
k∑r=1
(yij − yi.. − y.j. − y..r + 2y..)2
lo cual representa la descomposicion de la suma de cuadrados total. Esta ecuacion
se puede expresar de la siguiente manera
SCT = SCTr + SCF + SCC + SCE (5.6)
Para efecto de calculos, las formulas anteriores usualmente se desarrollan y
reescriben de la forma siguiente
5.2. DISENO EN CUADRADO LATINO 149
SCT =k∑
i=1
k∑j=1
k∑r=1
y2ijr −y2...N
SCTr =k∑
i=1
y2i..k
− y2...N
SCF =k∑
j=1
y2.j.k
− y2...N
SCC =k∑
r=1
y2..rk
− y2...N
SCE = SCT − SCTr − SCF − SCC
los grados de libertad estan dados por
GLT = N − 1
GLTr = k − 1
GLF = k − 1
GLC = k − 1
GLE = GLT −GLTr −GLF −GLC = (k − 2)(k − 1)
los cuadrados medios en este caso son
CMTr =SCTr
k − 1CMF =
SCF
k − 1CMC =
SCC
k − 1CME =
SCE
(k − 2)(k − 1)
y el estadıstico de prueba es
150 CAPITULO 5. DISENO EN CUADRADO LATINO
F =CMTr
CME
(5.7)
La regla de decision es rechazar H0 si F > Fα;GLTr;GLE.
Otras hipotesis que pueden ser de interes son las siguientes
No existe efecto de fila
H0 : β1 = β2 = · · · = βk = 0 (5.8)
H1 : βj = 0 para algun j (5.9)
No existe efecto de columna
H0 : γ1 = γ2 = · · · = γk = 0 (5.10)
H1 : γr = 0 para algun r (5.11)
cuyos estadısticos de prueba son respectivamente
F F =CMF
CME
FC =CMC
CME
(5.12)
y las reglas de decision es rechazar H0 si F F > Fα;GLF ;GLEy FC > Fα;GLC ;GLE
.
Todo este desarrollo lo podemos resumir como se muestra en la Tabla 5.3. Esta
tabla recibe el nombre de Tabla de Analisis de Varianza para el Diseno de Cuadrados
Latinos.
Ejemplo 5.1 Se sospecha que cualquier estımulo produce cambios en la sensibilidad del
ojo humano adaptado a la oscuridad. Para investigar esto, se diseno un experimento
5.2. DISENO EN CUADRADO LATINO 151
Tabla 5.2: Tabla de Analisis de Varianza para el DCL
Fuente de Suma de Grado de Cuadrado F
Variacion Cuadrados Libertad Medio
Tratamiento SCTr k-1 CMTrFc
Fila SCF k-1 CMFF Fc
Columna SCC k-1 CMCFCc
Error SCE (k-1)(k-2) CME
Total SCT k2 − 1
el cual consistio en someter a cinco individuos durante cinco dıas seguidos a cinco
estımulos diferentes una vez que sus ojos se adaptaron a la oscuridad. Se registro como
resultado, sus sensibilidades a la prueba de bajo contraste de Luckiesh-Moss.
Tabla 5.3: Tabla de Analisis de Varianza para el DCL
Dıas
1 2 3 4 5
Sujetos
1 A=22 B=21 D=22 C=20 E=22
2 C=23 D=22 A=16 E=23 B=19
3 D=20 A=14 E=14 B=23 C=24
4 B=28 E=29 D=24 C=24 A=24
5 E=4 C=2 B=3 A=8 D=8
152 CAPITULO 5. DISENO EN CUADRADO LATINO
5.3. Preguntas y Ejercicios
1. ¿Que es un diseno de cuadrados latinos?
2. ¿Cuando es apropiado utilizar un diseno de cuadrados latinos ?.
3. ¿Cual es el modelo de un diseno de de cuadrados latinos?
4. ¿Que diferencia hay entre un diseno completamente aleatorizado, uno de bloques
completos y uno de cuadrados latinos?.
5. Apoyandose en el modelo estadıstico para un diseno de cuadrados latinos, ¿por
que a traves de este diseno se reduce el error aleatorio?.
6. Explique por que el el nombre de cuadrados latinos.
7. Demuestre que los productos cruzados obtenidos en la particion de las sumas de
cuadrados son iguales a cero.
8. Una companıa de mensajerıa esta interesada en determinar cual marca de llantas
tiene mayor duracion, la medida esta en terminos del desgaste. Para ella se planea
un experimento en el que se comparan las cuatro marcas de llantas sometiendolas
a una prueba de 32.000 kilometros de recorrido, utilizando cuatro diferentes tipos
de auto y las cuatro posiciones posibles de las llantas en el auto.
Carro
Posicion 1 2 3 4
1 C=12 D=11 A=13 B=8
2 B=14 C=12 D=11 A=3
3 A=17 B=14 C=10 D=9
4 D=13 A=14 B=13 C=9
5.3. PREGUNTAS Y EJERCICIOS 153
a) Anote la ecuacion del modelo y las hipotesis estadısticas correspondientes.
b) ¿Existen diferencias entre los tratamientos? ¿Cuales tratamientos son
diferentes entre sı?.
c) ¿Los factores de marca de llanta, tipo de auto y posiciones influyen en la
duracion?
9. Se quiere estudiar el efecto de cinco diferentes catalizadores (A,B,C,D y E) sobre
el tiempo de reaccion de un proceso quımico. Cada lote de material solo permite
cinco corridas y cada corrida requiere aproximadamente de 1.5 horas, por lo que
solo se pueden realizar cinco corridas diarias. El experimentador, decide correr
los experimentos con un diseno en cuadrado latino, para controlar activamente a
los lotes y dıas. Los datos obtenidos son:
Dıa
1 2 3 4 5
Lote
1 A=8 B=7 D=1 C=7 E=3
2 C=11 E=2 A=7 D=3 B=8
3 B=4 A=9 C=10 E=1 D=5
4 D=6 C=8 E=6 B=6 A=10
5 E=4 D=2 B=3 A=8 C=8
a) Anote la ecuacion del modelo y las hipotesis estadısticas correspondientes.
b) ¿Existen diferencias entre los tratamientos? ¿Cuales tratamientos son
diferentes entre sı?.
c) ¿Los factores de ruido, lote y dıa afectan el tiempo de reaccion del proceso?