Análisis Estadístico de Datos –Primavera2020

37
Análisis Estadístico de Datos – Primavera 2020

Transcript of Análisis Estadístico de Datos –Primavera2020

Page 1: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

Page 2: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

UNIDAD 1: Estadística Descriptiva

Definición de Estadística Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de explicar condiciones o situaciones, apoyando la toma de decisiones.

Conceptos Básicos en Estadística Población (N) Es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Corresponde al universo del que se desea medir alguna característica particular. Normalmente es demasiado grande para poder abarcarla. Ejemplo: Deseamos medir el rendimiento académico de los alumnos de Ingeniería en Administración de Empresas. Por lo que la población son todos los estudiantes de dicha carrera.

Muestra (n) Es un subconjunto que es extraído de la población, al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta

Ejemplo: Tomando el ejemplo anterior de Población, una muestra de ella serían los cursos.

Page 3: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

Muestreo:

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.

Unidad de Análisis: Las unidades de análisis, corresponden a los elementos de la población que serán observados. Por ejemplo: Personas, familias, hospitales, estudiantes, trabajadores, etc. Variable: Corresponde a una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. Observación: Son distintas características, propiedades o atributos observadas en un mismo sujeto u objeto. Dato: Corresponde a una característica o atributo en particular. Son medidas recopiladas en forma grupal o no agrupadas. Ejemplo:

Page 4: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

Clasificación de las Variables:

a) Variable Cuantitativa:

Describe una característica en términos de un valor numérico, que puede variar de un sujeto a otro o de un momento a otro en un mismo sujeto. Ejemplos: estatura en cm; peso en kg, edad en años, temperatura, sueldos (en miles $), ventas mensuales (en miles $), etc. Las variables cuantitativas se pueden clasificar en: a.1) Variable Cuantitativa Discreta:

Es aquella que sólo puede tener un número finito de valores en un intervalo cualquiera. Ejemplos: Número de hijos en una familia, Número de casos de una enfermedad en un año, Edad en años cumplidos, etc.

a.2) Variable Cuantitativa Continua: Es aquella que tiene un número infinito de valores posibles en un intervalo cualquiera. Ejemplos: peso en kg, longitud en metros, temperatura en grados, etc.

Page 5: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

b) Variable Cualitativa Describe una característica en términos de una cualidad, propiedad o atributo que posee o no un sujeto, o una propiedad o cualidad que posee o no un sujeto. Ej.: género, estado civil, nivel socioeconómico, tipo de sangre, afiliación a una AFP, enfermedad, etc. Las variables cualitativas se pueden clasificar en: b.1) Variable Cualitativa Nominal (o de clasificación):

Asigna como atributos nombres, rótulos o etiquetas sin sentido de magnitud, orden o jerarquía. Ejemplos: género, estado civil, nacionalidad, raza, etc.

b.2) Variable Cualitativa Ordinal (o de categoría):

Asigna atributos que tienen un ordenamiento jerárquico o sentido de magnitud. Ejemplos: intensidad de dolor, grado de satisfacción con la atención, grado de acuerdo con una opinión, etc.

Page 6: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

Representación Gráfica de la Información Para hacer más clara y evidente la información que nos proporcionan las tablas, se utilizan los gráficos. Existen múltiples tipos de gráficos, siendo los más usados frecuentemente: Gráfico de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el pictograma.

Gráfico Circular

ü Se utiliza para representar la frecuencia relativa porcentual (hi).

ü Se aplica para cualquier tipo de variable, pero de preferencia se aplica a variables cualitativas.

Histograma de frecuencias

ü Se utiliza para representar la distribución de frecuencias absolutas o relativas en una variable cuantitativa continua.

ü Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los intervalos.

Page 7: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Primavera 2020

Polígono de Frecuencias

ü Se utiliza para representar la distribución de frecuencias absolutas o relativas de una variable cuantitativa continua. Es útil cuando se quiere comparar dos distribuciones en un mismo gráfico.

Gráfico de Línea ü Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente

es el tiempo. ü Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la

variable.

Ejemplo: En IPG se desea estudiar la evolución de las matrículas en los últimos 5 años, en términos de los alumnos matriculados por género. Los resultados están detallados en la tabla adjunta.

Año Masculino Femenino2015 322 3192016 321 3192017 321 3202018 320 3192019 318 321

Page 8: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Gráfico de Dispersión ü Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje

representa una variable. ü El conjunto de todos los puntos se denomina nube de puntos. ü El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las

variables. Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos, de un grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla.

Si observas la trayectoria de la nube de puntos, podrás darte cuenta que existe una relación directa entre la altura y el peso delas personas.

Gráfico de Tallo y Hojas ü Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son

puestas en orden ascendente. Ejemplo: Consideremos las edades en años de un grupo de personas que asisten a un evento

Ahora es fácil observar, por ejemplo que:

1) La persona con menor edad tiene 16 años 2) La persona de mayor edad tiene 58 años 3) Existen tres personas con 45 años, etc.

Page 9: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Gráfico de Cajas y bigotes o Box Plot

ü Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los datos entre el percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote inferior indica los valores contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote superior representa los datos contenidos entre el percentil 75 y el valor máximo de la serie de datos.

2040

6080

100

X1 X2X3 X4X5 X6Y

Page 10: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Tablas de Distribución de Frecuencias (TDF)

Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Para la construcción de la distribución de frecuencias, se deben conocer los siguientes conceptos:

Ejemplo de Aplicación

Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa deportiva ubicada en el Costanera Center en un mes determinado.

Page 11: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

¿Cómo resumiría los datos anteriores?

Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones correspondientes.

¿Cómo se elabora la tabla de frecuencias?

Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como se indica a continuación:

Page 12: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Page 13: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Finalmente la TDF quedaría representada de la siguiente forma:

Page 14: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Ejercicios de Aplicación

1. Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con agua potable por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3).

Se pide:

a) Identificar población y variable (clasificarla).

b) Interprete el Histograma.

Page 15: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

2. De 221 chips de computadores inspeccionados por un fabricante. Se ha podido registrar los siguientes

defectos.

a) Identifique la variable y clasifíquela. Variable : Tipos de defectos o desperfectos que presentan los Chips.

Clasificación : Cualitativa Nominal

b) ¿Cuántos chips tienen la conexión deficiente? 116 Chips.

c) ¿Cuál es el porcentaje de los chips con tamaño incorrecto? 27,1%

d) Construya un gráfico adecuado que represente la información.

Defecto fi hi(%)Orificio no abierto 20 9,0%

Conexión deficiente 116 52,5%Chips tamaño incorrecto 60 27,1%

Otros 25 11,3%Total 221 100,0%

Defecto fi hi(%)Orificio no abierto 20 9,0%

Conexión deficiente 116 52,5%Chips tamaño incorrecto 60 27,1%

Otros 25 11,3%Total 221 100,0%

Page 16: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

3. El siguiente Histograma de Frecuencias corresponde a las calificaciones obtenidas en el examen final de

Matemáticas 2017 aplicada a un grupo de estudiantes de Ingeniería Comercial.

Determine:

a) El número de estudiantes de la carrera de Ingeniería Comercial que forman parte del estudio es: 80 estudiantes.

b) ¿Cuál es el rango de los datos? Interprete Rango = 100 – 50 = 50 puntos

c) ¿En qué rango se encuentra los estudiantes con mejores calificaciones? Los estudiantes con mejor calificación en el examen de Matemática 2017 se encuentran en el rango de 95 – 100 puntos. Siendo sólo 2 alumnos que se ubican en este rango.

d) ¿Cuántos estudiantes no superaron los 80 puntos? 58 estudiantes no superaron los 80 puntos.

e) ¿Qué porcentaje de estudiantes obtuvieron entre 75 y 90 puntos? Un 37,5% de los estudiantes obtuvieron una calificación entre 75 y 90 puntos.

f) ¿Cuál es la amplitud de los intervalos? La amplitud de los intervalos es de 5 puntos

g) ¿Qué porcentaje de estudiantes obtuvieron una calificación de a lo más 65 puntos? 21,25%

Page 17: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Medidas de Tendencia Central

Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una idea acerca del comportamiento de la variable, por ejemplo: el promedio de un conjunto de datos. Entre las medidas de tendencia central más importantes tenemos: - Media aritmética. - Moda. - Mediana.

1. La Media o Promedio

Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn. Entonces el promedio se define como la suma de los datos dividida por el total de la muestra y se denota

por:

1.1 La Media o promedio para Datos No Agrupados

Ejemplo: Se tienen las notas de 20 alumnos de un curso.

La nota promedio del curso fue de 5,3

X

n

xX

n

iiå

== 1

6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,83,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2

202,68,51,67,59,58,40,57,38,58,38,32,47,50,60,55,48,52,61,58,6 +++++++++++++++++++

=X

295,5209,105==X

Page 18: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

1.2 La Media o Promedio para Datos Agrupados en intervalos Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca de clase por la frecuencia de cada intervalo. Se suman los resultados de cada multiplicación y se dividen por el número total de datos.

La concentración promedio de proteínas en el plasma, en niños prematuros normales, es de 54,9 gramos.

2. La Moda Es aquel valor que más se repite, o que se presenta con mayor frecuencia dentro de un conjunto de datos, y se denota por Mo.

2.1 La Moda para Datos No Agrupados

Ejemplo: Considere las siguientes notas de un curso de 20 alumnos

La nota más frecuente en el curso fue 5,0

n

ixfiX

k

iå=

×= 1

´

405,67*2)5,62*55,57*135,52*125,47*65,42*2 +++++

=X

gramosX 9,5440195.2

==

3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,25,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8

Page 19: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

La moda es el estadístico de centralización adecuado si la variable está medida en escala nominal:

También se utiliza la moda si la variable está medida en escala ordinal o numérica discreta:

2.2 La Moda para Datos Agrupados

Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia

Ejemplo: A continuación, se tienen las edades de un grupo de personas que asistieron a una reunión.

La edad más frecuente en el grupo de personas que asistió a la reunión es de 26,5 años.

ALi *21

1Mo úûù

êëé

D+DD

+=

Edad fi16 - 20 820 - 24 1024 - 28 1528 - 32 1232 - 36 5

50 5,264*35524Mo =÷

øö

çèæ

++=

Page 20: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

3. La Mediana Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor de la variable que deja por debajo de sí al 50% de las observaciones. La mediana corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un estadígrafo de posición y de centralización. 3.1 Mediana para Datos No Agrupados

3.2 Mediana para Datos Agrupados en intervalos

Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta acumulada mayor a n/2.

Ejemplo: Distribución por edad de 975 individuos

El 50% de los individuos de la muestra tiene a lo más 57,1 años.

Afi

Fin

LiMeanterior

*2

÷÷÷÷

ø

ö

çççç

è

æ -+=

Edad fi Fi15 - 25 40 4025 - 35 67 10735 - 45 143 25045 - 55 180 43055 - 65 270 70065 - 75 275 975

9751,5710*

2704305,48755 =÷

øö

çèæ -

+=Me

Page 21: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Ejercicios de Aplicación

1. Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de personas con problemas respiratorios durante el mes de julio del 2019, considerado el mes más crítico en cuanto a niveles de contaminación. El estudio se basó en una muestra de 14 policlínicos de Santiago. Calcule e interprete las medidas de tendencia central.

28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15

Promedio: 23,2

Interpretación:

Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios durante el mes de julio del 2019.

Moda: 28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15

Interpretación:

El número más frecuente de atenciones en los policlínicos a personas con problemas respiratorios en el mes de julio del 2019 fue 15.

Mediana:

Primero ordenamos los datos de menor a mayor:

8 – 10 – 11 – 15 – 15 – 15 – 17 – 24 – 28 – 30 – 31 – 34 – 36 – 51

20,5

Interpretación:

El 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2019 a personas con problemas respiratorios.

=+++++++++++++

=14

15 34 15 31 15 51 11 8 17 30 36 10 2428 X

=+

=2

2417 Me

Page 22: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

2. El departamento de RRHH de una empresa, realizó un estudio para conocer las pérdidas anuales (en miles de

$) ocasionadas por las horas de atraso que registraron cada uno de sus 84 trabajadores. La siguiente tabla de frecuencias muestra las observaciones obtenidas

Distribución de trabajadores según pérdidas anuales

a) Identifique la variable y clasifíquela. Variable : Pérdidas anuales (en miles $) generada por horas de atraso de los trabajadores. Clasificación : Cuantitativa Continua.

b) ¿Qué porcentaje de individuos tienen perdidas entre $115.000 y $130.000? 33,3%

c) ¿Cuántos trabajadores tienen perdidas menores a $145.000? 77 trabajadores

d) Determine las pérdidas anuales promedio de los trabajadores. Interprete.

(en miles $)

La pérdida anual promedio ocasionada por los trabajadores por concepto de horas de atraso en la empresa fue de $118.750

e) ¿Cuál es la pérdida anual de los trabajadores que representa al 50% de los datos?

(en miles $)

El 50% de los trabajadores registraron pérdidas en el año por concepto de horas de atraso en la empresa de a lo más $118.200

marca de clase Perdidas anuales Trabajadoresxi (en miles $) fi hi(%) Fi Hi(%)

92,5 85 - 100 13 15,5% 13 15,5%107,5 100 -115 23 27,4% 36 42,9%122,5 115 - 130 28 33,3% 64 76,2%137,5 130 - 145 13 15,5% 77 91,7%152,5 145 - 160 6 7,1% 83 98,8%167,5 160 - 175 1 1,2% 84 100,0%

84

75,11884

1*5,1676*5,15213*5,13728*5,12223*5,10713*5,92 =+++++

=X

2,11815*28

36284

115 =÷÷÷÷

ø

ö

çççç

è

æ -+=Me

Li : 115 n : 84 Fianterior : 36 fi : 28 A : 15

Page 23: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Ejercicio Propuesto

La siguiente tabla de frecuencias corresponde a la distribución de sueldos (en miles $) de sus 150 trabajadores de la empresa “Tecnópolis”

Se pide:

a) ¿Cuál es el Rango de la variable?

Respuesta: $ 1.280.000

b) ¿Cuál es el sueldo promedio de los trabajadores de la empresa “Tecnópolis”

Respuesta: $ 721.067

c) ¿Cuál es el sueldo más frecuente en la empresa “Tecnópolis”

Respuesta: $ 627.368

d) Bajo qué valor se encuentra el 50% de los trabajadores con menores ingresos?

Respuesta: $ 681.081

Sueldos f i h i (%) F i H i (%) x´ i f i * x´ i240 - 400 18400 - 560 29560 - 720 37720 - 880 26

880 - 1.040 181.040 - 1.200 121.200 - 1.360 71.360 - 1.520 3

150

Page 24: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Medidas de Variabilidad o de Dispersión

Antes de empezar por revisar esta parte de la materia, te presento la siguiente tabla correspondiente a las notas de dos hermanos que van en el mismo curso de Estadística y que rindieron siete evaluaciones

Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión. Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir en términos de variación.

1. Rango: Se define el rango o recorrido de los datos como la distancia que existe entre el dato de mayor valor (máximo) y el de menor valor (mínimo).

Para el ejemplo anterior:

Rango(Calificaciones de Natalia) = 7,0 – 1,0 = 6 Rango(Calificaciones de Diego) = 4,0 – 4,0 = 0

Se puede apreciar que mientras mas heterogénea es la colección de datos mayor es el valor del rango. Sin embargo el Rango puede exagerar el grado de heterogeneidad del los datos, ya que sólo se está considerando los valores extremos de la variable en estudio.

2. Varianza Mide la dispersión del conjunto de datos con respecto a su media o promedio.

2.1 Varianza para datos no agrupados Su calculo es la media de las diferencias cuadráticas de cada observación con su media. Es representada como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos alrededor de la media. La varianza es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión.

Alumno Calificaciones PromedioDiego 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0Natalia 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0

XmínXmáxRango -=

Page 25: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Para determinar la varianza cuando se trata de datos no agrupados utilizamosla expresión:

Ejemplo: Consideremos las calificaciones obtenidas en Estadística por Natalia y Diego

Está muy claro que en el caso de Diego la variabilidad será CERO porque sus siete notas fueron las mismas. No ocurre lo mismo con Natalia que obtuvo notas distintas (muy buenas y muy malas). Calculemos entonces su varianza.

( ) ( ) ( )1...

222

212

--++-+-

=n

XXXXXXS n

Alumno Calificaciones PromedioDiego 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0Natalia 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0

67,4628

6914091417

)3(120)3()1()2(

2

22222222

==++++++

=

--+++++-+-

=

S

S

Donde: : Representa cada uno de los datos de la

muestra : Número total de observaciones

: Media o Promedio de la variable en estudio.

iX

nX

Page 26: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

2.2 Varianza para datos Agrupados

Ejemplo: Concentración de Proteínas totales del plasma en prematuros normales de 15 días de edad

Primero obtenemos la media o promedio del conjunto de dato:

Luego, calculamos la varianza:

3. Desviación Estándar (S) La desviación estándar es un índice numérico que mide la dispersión de un conjunto de datos con respecto a su media o promedio. Mientras mayor es la desviación estándar, mayor es la dispersión de los datos. Su cálculo es muy sencillo, sólo debes de obtener la raíz cuadrada de la varianza.

Ejemplo:

La desviación estándar de Natalia será:

La desviación estándar de concentración de proteínas será:

Interpretación: La mayoría de las concentraciones de proteínas en el plasma, están entre 54,9 -5,99 y 54,9 + 5,99, es decir entre 48,91g/l y 60,89 g/l.

( )1

*´1

2

2

-

-=å

n

fiXiXS

k

gramosxxxxxxX 9,5440

)5,672()5,625()5,5713()5,5212()5,476()5,422( =+++++

=

( ) ( ) ( ) ( ) ( ) ( ) 88,35140

2*9,545,675*9,545,6213*9,545,5712*9,545,526*9,545,472*9,545,42 2222222 =

--+-+-+-+-+-

=S

ianzaS var=

2,267,4S ==

99,588,35S ==

Donde: : Marca de clase del intervalo “i”

: Número total de observaciones : Frecuencia absoluta del intervalo “i”

: Media o Promedio de la variable en estudio.

iX´nfiX

Page 27: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Coeficiente de Variación

Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel de dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los datos. Se calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100.

Para el ejemplo de las calificaciones de Natalia, encontramos que:

Es decir, las notas de Natalia presentan un 55% de variabilidad o dispersión con respecto al promedio, la cual es muy Alta. Sus notas son muy heterogéneas.

En el caso de la concentración de proteínas en el plasma, el coeficiente de variación será:

Lo cual indica que la concentración de proteínas en el plasma presenta una variabilidad moderada con respecto a su media o promedio.

Criterios de Homogeneidad.

Homogéneo : Uniforme, semejante, similar, idéntico. Heterogéneo : Diverso, variado, mezclado, distinto.

Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al 100%.

%010X

S CV ´=

%55%10042,2

=´=CV

%9,10%1009,5499,5

=´=CV

Page 28: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Medidas de Posición

Las medidas de posición no centrales permiten conocer otros valores característicos de la distribución, que no son los valores centrales, los que nos ayudan a ubicar un dato dentro de la distribución. Entre las medidas de posición, están:

• Cuartiles • Quintiles • Deciles • Percentiles

1. Cuartiles (Ck) Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales, cada una de ellas con un 25% de las observaciones.

Para el cálculo de los Cuartiles en datos agrupados en intervalos utilizamos:

donde

Af

Fnk

LiCi

ianterior

k ×÷÷÷÷

ø

ö

çççç

è

æ -+= 4

*

3,2,1=k

Page 29: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

2. Quintiles (Qk) Los quintiles son valores que dividen a la muestra ordenada en forma ascendente en 5 partes iguales, cada una de ellas con un 20% de las observaciones.

Para el cálculo de los Quintiles en datos agrupados en intervalos utilizamos:

donde

Af

Fnk

LiQi

ianterior

k ×÷÷÷÷

ø

ö

çççç

è

æ -+= 5

*

4,3,2,1=k

Page 30: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

3. Deciles (Dk) Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes iguales, cada una de ellas con un 10% de las observaciones.

Para el cálculo de los Quintiles en datos agrupados en intervalos utilizamos:

donde

4. Percentiles para Datos Agrupados en Intervalos (Pk) Los percentiles son valores que dividen a la muestra ordenada en forma ascendente en 100 partes iguales, cada una de ellas con un 1% de las observaciones. Si los datos de la variable se presentan agrupados en intervalos, se deben seguir los siguientes pasos:

Primero: Calcular frecuencias acumuladas simples (Fi)

Segundo: Determinar el intervalo, que contiene el primer Fi que supere a

Tercero: Reemplazar los datos disponibles en la expresión:

Donde

Af

Fnk

LiDi

ianterior

k ×÷÷÷÷

ø

ö

çççç

è

æ -+= 10

*

9,8,7,6,5,4,3,2,1=k

÷øö

çèæ100*nk

Af

Fnk

LIPi

ianterior

k ×÷÷÷÷

ø

ö

çççç

è

æ -+= 100

*

99,.....,4,3,2,1=k

Page 31: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Para facilitarte más la vida, vamos a quedarnos sólo utilizando la fórmula de percentiles, ya que los cuartiles, quintiles y deciles, se encuentran dentro de los percentiles. Sólo que debes tener claro lo siguiente:

Cuartil 1 = Percentil 25 Cuartil 2 = Percentil 50 = Mediana Cuartil 3 = Percentil 75

Quintil 1 = Percentil 20 Quintil 2 = Percentil 40 Quintil 3 = Percentil 60 Quintil 4 = Percentil 80

Decil 1 = Percentil 10 Decil 2 = Percentil 20 Decil 3 = Percentil 30 Decil 4 = Percentil 40 Decil 5 = Percentil 50 = Mediana Decil 6 = Percentil 60 Decil 7 = Percentil 70 Decil 8 = Percentil 80 Decil 9 = Percentil 90

Page 32: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Ejercicio de Aplicación

Ahora revisaremos paso a paso el siguiente ejercicio en donde aplicaremos todo lo visto durante la semana 3 y tambien de la semana 2 para reforzar la materia de medidas de tendencia central. En la siguiente tabla se muestra los montos (en miles $) por concepto de devolución de impuestos que realizo el SII a una muestra de 1000 contribuyentes en abril 2019

Se pide:

a) Identifique y clasifique la variable en estudio. ¿Cuál es la unidad de observación? Variable en estudio: Montos (en miles $) por concepto de devolución de impuestos.

Clasificación: Cuantitativa Continua.

Unidad de Observación: Contribuyentes que recibieron devolución de impuestos por parte del SII.

b) Construya una TDF considerando las frecuencias absolutas (fi) y relativas (hi)

Devolución de impuestos(en miles $)

Número de contribuyentes

[ 80 – 120 ] 12( 120 – 160 ] 141( 160 – 200 ] 414( 200 – 240 ] 280( 240 – 280 ] 108( 280 – 320 ] 32( 320 – 360 ] 8( 360 – 400 ] 5

Total 1000

Devolución de impuestos(en miles $)

Número de contribuyentes

hi(%) Fi Hi(%)

[ 80 – 120 ] 12 1,20% 12 1,20%( 120 – 160 ] 141 14,10% 153 15,30%( 160 – 200 ] 414 41,40% 567 56,70%( 200 – 240 ] 280 28,00% 847 84,70%( 240 – 280 ] 108 10,80% 955 95,50%( 280 – 320 ] 32 3,20% 987 98,70%( 320 – 360 ] 8 0,80% 995 99,50%( 360 – 400 ] 5 0,50% 1000 100,00%

Total 1000

Page 33: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

c) Señale cuál sería el gráfico más adecuado para mostrar la información de los montos (en miles $) por concepto de devolución de impuestos.

Como se trata de una variable cuantitativa continua, en la que los datos se encuentran agrupados en intervalos, el gráfico recomendado es un Histograma de Frecuencias.

d) Determine e interprete las medidas de tendencia central para la variable en estudio

Promedio: Para calcular el promedio o media aritmética debes de calcular antes las marcas de clase para cada intervalo.

(en miles $)

Devolución de impuestos(en miles $)

Marca de clase (x´i)

Número de contribuyentes

[ 80 – 120 ] 100 12( 120 – 160 ] 140 141( 160 – 200 ] 180 414( 200 – 240 ] 220 280( 240 – 280 ] 260 108( 280 – 320 ] 300 32( 320 – 360 ] 340 8( 360 – 400 ] 380 5

1000

000.15*3808*34032*300108*260280*220414*180141*14012*100 +++++++

=X

4,199000.1360.199 ==X

Page 34: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Moda: Para calcular la moda, debes de tomar aquel intervalo en donde observes la mayor frecuencia absoluta (fi), eso te indica que la mayoría de los pacientes se encuentra en ese intervalo.

(en miles $)

Mediana

Para calcular la mediana, debes fijarte en el primer porcentaje acumulado (Hi%) que supere o contenga al 50% de los datos. Luego utilizas la fórmula.

(en miles $)

e) Determine la Varianza, Desviación Estándar y el Coeficiente de Variación e interprete.

Primero debemos conocer la media o Promedio, que ya se determinó anteriormente y que es:

Devolución de impuestos(en miles $)

Número de contribuyentes

[ 80 – 120 ] 12( 120 – 160 ] 141( 160 – 200 ] 414( 200 – 240 ] 280( 240 – 280 ] 108( 280 – 320 ] 32( 320 – 360 ] 8( 360 – 400 ] 5

8,18640*134273

273160Mo =÷øö

çèæ

++=

Devolución de impuestos(en miles $)

Número de contribuyentes

hi(%) Fi Hi(%)

[80 – 120] 12 1,20% 12 1,20%(120 – 160] 141 14,10% 153 15,30%(160 – 200] 414 41,40% 567 56,70%(200 – 240] 280 28,00% 847 84,70%(240 – 280] 108 10,80% 955 95,50%(280 – 320] 32 3,20% 987 98,70%(320 – 360] 8 0,80% 995 99,50%(360 – 400] 5 0,50% 1000 100,00%

5,19340*414

1532

1000

160 =÷÷÷÷

ø

ö

çççç

è

æ -+=Me

000.15*3808*34032*300108*260280*220414*180141*14012*100 +++++++

=X

4,199000.1360.199 ==X

Page 35: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Ahora procedemos a determinar la Varianza ( ) para datos agrupados en intervalos:

Ahora determinamos la Desviación Estándar(S), sacando la raíz cuadrada a la Varianza

Finalmente, obtenemos el Coeficiente de Variación:

El Coeficiente de Variación es de un 22%, lo cual indica que existe una variabilidad o dispersión moderada entre los montos de devolución de impuestos para la muestra seleccionada.

f) Determine e interprete el primer quintil

El primer quintil cubre el 20% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el Percentil 20. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 20%

2S

( )( ) ( )( ) ( )( ) ( )( )( )( ) ( )( ) ( )( ) ( )( )

110005*4,1993808*4,19934032*4,199300108*4,199260

280*4,199220414*4,199180141*4,19914012*4,1991002222

2222

2

--+-+-+-

+-+-+-+-

=S

326,1934999392.932.12 ==S

98,43326,1934

==

SS

%22

100*22,04,19998,43

%100*Pr

tan

=

==

=

CV

CV

omediodarEsDesviaciónCV

Devolución de impuestos(en miles $)

Número de contribuyentes

hi(%) Fi Hi(%)

[80 – 120] 12 1,20% 12 1,20%(120 – 160] 141 14,10% 153 15,30%

P20 (160 – 200] 414 41,40% 567 56,70%(200 – 240] 280 28,00% 847 84,70%(240 – 280] 108 10,80% 955 95,50%(280 – 320] 32 3,20% 987 98,70%(320 – 360] 8 0,80% 995 99,50%(360 – 400] 5 0,50% 1000 100,00%

Page 36: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

Eso te indicará que el P20 se encuentra en el intervalo 160 – 200. Ahora ya puedes reemplazar los datos en la fórmula

(en miles $)

Interpretación: El 20% de los contribuyentes con menores montos de devoluciones de impuestos, recibieron a lo más $164.500

g) Determine e interprete el tercer cuartil

El tercer cuartil cubre el 75% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el Percentil 75. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 75%

Eso te indicará que el P75 se encuentra en el intervalo 200 – 240. Ahora ya puedes reemplazar los datos en la fórmula

(en miles $)

Interpretación: El 75% de los contribuyentes con menores montos de devoluciones de impuestos, recibieron a lo más $226.100

5,16440*414

1531001000*20

16020 =÷÷÷÷

ø

ö

çççç

è

æ -+=P

Devolución de impuestos(en miles $)

Número de contribuyentes

hi(%) Fi Hi(%)

[80 – 120] 12 1,20% 12 1,20%(120 – 160] 141 14,10% 153 15,30%(160 – 200] 414 41,40% 567 56,70%

P75 (200 – 240] 280 28,00% 847 84,70%(240 – 280] 108 10,80% 955 95,50%(280 – 320] 32 3,20% 987 98,70%(320 – 360] 8 0,80% 995 99,50%(360 – 400] 5 0,50% 1000 100,00%

1,22640*280

5671001000*75

20075 =÷÷÷÷

ø

ö

çççç

è

æ -+=P

Page 37: Análisis Estadístico de Datos –Primavera2020

Análisis Estadístico de Datos – Otoño 2020

h) Sobre ¿qué valor se encuentra el decil con mayores montos en devoluciones de impuesto? La palabra clave aquí es “sobre qué valor”. El decil con mayores montos representa el 10% de los contribuyentes que más recaudaron. Por lo tanto, hay un 90% que se encuentra por debajo de ese monto. Eso quiere decir que debemos calcular el Percentil 90

(en miles $)

Interpretación: El 10% de los contribuyentes con mayores montos de devoluciones de impuestos, recibieron sobre los $259.600

Devolución de impuestos(en miles $)

Número de contribuyentes

hi(%) Fi Hi(%)

[80 – 120] 12 1,20% 12 1,20%(120 – 160] 141 14,10% 153 15,30%(160 – 200] 414 41,40% 567 56,70%(200 – 240] 280 28,00% 847 84,70%

P90 (240 – 280] 108 10,80% 955 95,50%(280 – 320] 32 3,20% 987 98,70%(320 – 360] 8 0,80% 995 99,50%(360 – 400] 5 0,50% 1000 100,00%

6,25940*108

8471001000*90

24090 =÷÷÷÷

ø

ö

çççç

è

æ -+=P