Preview only show first 10 pages with watermark. For full document please download

Muestreo

   EMBED


Share

Transcript

DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA AMPLIACIÓN DE TÉCNICAS CUANTITATIVAS TEORÍA, EJERCICIOS Y PRÁCTICAS 1 2 INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . . 6 APUNTES: 1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . 1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . . 11 11 12 13 13 15 16 16 16 17 2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 24 25 27 30 3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . . 3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 39 42 43 43 44 44 50 52 4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 63 63 64 65 68 69 70 71 72 72 74 18 19 19 3 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 75 82 82 84 86 5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 88 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 92 92 92 97 98 7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . . 7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . . 7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . . 7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 108 109 8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . . 8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . . 8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . . 8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . . 8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 117 117 117 119 123 126 126 128 9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . . 9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . . 9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . . 9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 130 131 132 134 136 137 10. Contrastes χ 2 de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Contrastes χ 2 de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . 10.2 Contrastes χ 2 de independencia. . . . . . . . . . . . . . . . . . . . . . . . 10.3 Contrastes χ 2 de homogeneidad. . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 110 112 112 114 143 147 150 152 11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . . 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . . 11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 162 165 168 176 178 179 181 EJERCICIOS: Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 196 207 217 220 230 234 236 240 248 PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 PRÁCTICAS: Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 279 286 293 311 317 320 327 330 333 337 351 366 FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . . 381 5 INFORMACIÓN GENERAL Licenciatura: Economía Carácter: Obligatoria Créditos: 4,5 Periodo lectivo: Segundo curso. Segundo cuatrimestre. Departamento: Métodos Cuantitativos para la Economía y la Empresa Objetivos de la Asignatura: o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e informáticas necesarias para poder abordar la resolución de supuestos prácticos. o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de los conceptos, la capacidad de elección del método en la resolución de los problemas prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo Excel y el paquete estadístico SPSS, así como la interpretación de los resultados. o Una hora de clase a la semana será en el aula de informática donde se utilizarán los programas Excel y SPSS. Sistema de Evaluación: • En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con ordenador (valorada como máximo en el 40% de la calificación), siendo necesario superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha información se facilitará por internet y/o en la fotocopiadora del centro. También se permite el uso de calculadora no programable en la prueba escrita. • Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria oficial de Junio. La superación de este examen o parte del mismo eximirá de la realización de todo el examen final (escrito y ordenador) o de alguna de las partes en esa convocatoria. 6 TEMARIO 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 7 5.4 Determinación del tamaño muestral. 6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral. 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 9. Medidas de localización espacial. 9.1 Introducción. 9.2 Cocientes de localización y especialización. 9.3 Coeficientes de localización sectorial. 9.4 Coeficientes de especialización regional. 9.5 Coeficientes de diversificación. 10. Contrastes χ 2 de Pearson. 10.1 Contrastes χ 2 de bondad de ajuste. 10.2 Contrastes χ 2 de independencia. 10.3 Contrastes χ 2 de homogeneidad. 11. Inferencia no paramétrica. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. 11.3 Contraste de Mann-Whitney. 11.4 Test de las rachas. 11.5 Test de los signos. 11.6 Test de Wilcoxon de los signos-rangos. 8 BIBLIOGRAFÍA SCHEAFFER, R.; MENDENHALL, W.; y OTT, L. (2006). Elementos de muestreo. International Thomson Editores. PALACIOS, F. y CALLEJÓN, J. (2004). Técnicas Cuantitativas para el Análisis Regional. Editorial Universidad de Granada. MANZANO, V.G.; ROJAS, A.J. y FERNÁNDEZ, J.S. (1996). Manual para Encuestadores. Ed. Ariel. MARTÍN-GUZMÁN, P. y MARTÍN PLIEGO, F. J. (1993). Curso básico de estadística económica. AC. Madrid. CASAS SÁNCHEZ, J.M. (1996). Inferencia Estadística para Economía y Administración de Empresas. Ed. Centro de Estudios Ramón Areces, S. A. LOHR, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores. SACHS, L. (1978). Estadística Aplicada. Ed. Labor s.a. Información en la WEB: En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a los alumnos sobre: ¾ Profesores que imparten la asignatura, despacho, correo electrónico, horario de tutorías... ¾ Programa de la asignatura ¾ Bibliografía ¾ Apuntes de clase ¾ Relaciones de ejercicios ¾ Prácticas de ordenador ¾ Sistema de evaluación ¾ Fechas de exámenes ¾ Calificaciones ¾ Revisión de exámenes ¾ Cualquier otra información que los profesores consideren importante. 9 10 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base en la información contenida en una muestra representativa. La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente tomadas sobre la base de la información de encuestas por muestreo. 1.1 Definiciones básicas En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las características de toda la población. Una buena muestra reproduce las características de interés que existen en la población de la manera más cercana posible. Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes que apoyarán a un determinado candidato Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no al candidato. La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe contener: ƒ una descripción de los elementos que serán incluidos, y ƒ una especificación de las mediciones que se van a considerar. 11 Una muestra es un subconjunto de la población. El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un candidato en una votación, la información disponible para el muestreo puede ser el censo de residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona muestreada es un votante censado o no. La población muestreada es la colección de todos los elementos posibles que podrían seleccionarse para la muestra. Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que cubren la población completa. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las familias sirven como unidades de muestreo y los elementos son los individuos que viven en una familia. El marco de muestreo es la lista de las unidades de muestreo. Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño como para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. 1.2 Selección de la muestra Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de información contenida en una muestra se controla por medio del número de datos muestrales y por el método usado para seleccionar los datos muestrales. Veamos algunos métodos: 1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo. Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base de otros diseños de muestreo. 2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se pueden dividir en grupos con diferentes opiniones sobre un determinado candidato. Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se 12 divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria simple de cada grupo. A la muestra resultante se le llama muestra aleatoria estratificada. 3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que componen una población se reúnen en unidades de muestreo de mayor tamaño, llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar de votantes individuales. En este caso las familias forman los conglomerados y los miembros de las familias son las unidades de muestreo. 4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos. 1.3 Fuentes de error 1.3.1 Errores de muestreo El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso de la muestra. Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la audiencia televisiva una determinada noche, la intención de voto de una región,.... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. Denotando por θˆ a un estimador de la característica θ , definimos el error de estimación como error de estimación = θˆ - θ Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso ocurre con una determinada probabilidad P  θˆ − θ ≤ B  = 1 − α   ,0 < α <1 donde  Límite para el Error de Estimación (LEE) con nivel de confianza 1 − α  B = Cota para el error de estimación con nivel de confianza 1-α  Error de estimación máximo con nivel de confianza 1-α  13 A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador: ( ) 1. θˆ es un estimador insesgado de θ y tiene una distribución Normal θˆ → N (θ , σ θˆ ) . Dado que θˆ − θ → N (0, σ θˆ ), entonces P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B     B B = P − ≤ Z ≤  = 1− α σ θˆ   σ θˆ donde Z = θ −θ B → N (0,1) . Por tanto, = z α (podemos obtenerlo en una tabla de 1− σθ σ θˆ 2 probabilidades de la N(0,1)) y el límite del error de estimación es B = z 1− α σ θˆ . Como 2 se puede observar, el límite del error de estimación dependerá del nivel de confianza y de la desviación típica del estimador (esto último dependerá de la variabilidad de la muestra y del tipo de muestreo). Tomando una confianza del 95% el límite del error de estimación será: B = z 0,975σ θˆ = 1,96σ θˆ ≅ 2σ θˆ . Entonces P  θˆ − θ ≤ 2σ θˆ  = 0,95   Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la desviación típica del estimador. (En muchos textos se denomina error típico a la desviación típica del estimador) 2. θˆ es un estimador insesgado de θ con desviación típica (error típico) σ θˆ . Por la desigualdad de Tchebyshev: () 1 P  θˆ − E θˆ ≤ kσ θˆ  ≥ 1 − 2   k , k ≥1 Dado que el estimador es insesgado y tomando k = 2 , 1 P  θˆ − θ < 2σ θˆ  ≥ 1 − 2 = 0, 75   2 Luego, con una confianza mayor del 75%, el límite del error de estimación es dos veces la desviación típica del estimador. Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador con una confianza del 95% si el estimador tiene distribución Normal y con una confianza 14 mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30, los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud del Teorema central del límite. La expresión P  θˆ − θ ≤ B  = 1 − α tiene una segunda lectura. Dado que   P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B  = P θˆ − B ≤ θ ≤ θˆ + B  = 1 − α   ( el verdadero valor del parámetro se encuentra entre los extremos del intervalo θˆ − B, θˆ + B ) con una confianza de 1 − α . 1.3.2 Errores de no muestreo Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa encuesta puede ser despreciable en comparación con los errores que no son de muestreo. Los errores de no muestreo más comunes son: 1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no está en la población muestreada. Una muestra así obtenida no es representativa de la población objetivo. 2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren del valor verdadero. La obtención de respuestas precisas en las encuestas es fundamental pero esto a veces no se consigue por diversos motivos: - A veces, las personas no dicen la verdad. - Las personas no siempre comprenden las preguntas. - Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera equivocada. - La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas obtenidas. 3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección. Puede ocurrir que las personas que respondan no representen a la población bajo estudio. Los errores de no muestreo pueden controlarse con las siguientes acciones: 1. Reentrevistas. 15 2. Recompensas e incentivos. 3. Entrevistadores adiestrados. 4. Verificación de datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.4 Métodos de recolección de datos También el método de recolección de datos es fundamental en la reducción de los errores de no muestreo. Destacamos como métodos más habituales: (A) Entrevista personal. (B) Entrevista por teléfono. (C) Cuestionarios autoaplicados. (D) Observación directa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.5 Diseño del cuestionario Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son los siguientes: - Decidir lo que se quiere descubrir. - Verificar las preguntas antes de realizar la encuesta. - Elaborar las preguntas de manera sencilla y clara. - Prestar atención al orden de las preguntas. - Decida si desea utilizar preguntas abiertas o cerradas. - Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar. - Utilice preguntas de opción forzosa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.6 Planificación de la encuesta Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse en cuenta en la planificación de una encuesta: 1. Establecer objetivos. 2. Población objetivo. 16 3. El marco. 4. Diseño del muestreo. 5. Método de recolección de datos. 6. Instrumentos de recolección de datos. 7. Selección y preparación de investigadores de campo. 8. Prueba piloto. 9. Organización del trabajo de campo. 10. Organización de la administración de datos. 11. Análisis de los datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.7 Razones para el uso del muestreo Entre otras muchas razones, destacamos: (a) Evitar la destrucción de la población. En algunos casos, una unidad de observación debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la población. Por ejemplo el muestreo en el control de calidad. (b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se pueden publicar de una manera programada. Por ejemplo las elecciones. (c) Economía y precisión. El muestreo puede proporcionar información fiable con costes mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus respectivas muestras son, con frecuencia, más precisas que las basadas en un censo, pues los investigadores pueden tener más cuidado al reunir los datos. Un censo completo necesita, por lo regular, de una gran organización administrativa e implica a muchas personas en la recolección de los datos. Con tal complejidad administrativa y la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores en la elaboración del censo. En una muestra, se puede dedicar más atención a la calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no contestan la encuesta. 17 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así seleccionada se le llama muestra aleatoria simple. En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da lugar a variables aleatorias independientes e idénticamente distribuidas. El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla la hipótesis de independencia. Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior distinción es irrelevante. En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin reemplazamiento. En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más, estas tablas de números aleatorios son sustituidas por la generación de números aleatorios mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan sencillo. Una alternativa a la formación de una lista numerada para la selección mediante números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según 18 este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo: Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica, sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página. Otros tipos de muestreo que se utilizan con cierta frecuencia son: ƒ Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra. ƒ Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos representativa de la población, respetando el tamaño relativo de los grupos que la integran. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres, tomamos una muestra que respete esos tamaños. Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo), la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números aleatorios. EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA. 2.2 Muestreo aleatorio simple en poblaciones infinitas. Supongamos que la característica en estudio de la población está representada por la variable Y (con media µ y varianza σ2), una muestra aleatoria simple de tamaño n estará representada por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.). (Observaciones en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos conducen a variables i.i.d.) 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. Como estimador de la media de la población, µ, se utiliza la media muestral, y . 19 y= 1 n ∑ yi n i =1 Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos evaluar también su bondad. Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza ( ) ( ) E y =µ V y = σ2 n Como estimador de la varianza de la población, σ 2 , se utiliza la cuasivarianza muestral, S 2 . S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 que también tiene la propiedad de ser insesgado E (S2 ) = σ 2 de forma que la varianza de la media muestral se estima de forma insesgada por V ( y) = S2 n Cuando las variables Y, Y1, ..., Yn son dicotómicas, sólo toman dos valores (0 y 1), su media µ representa una proporción y se nota como p y el estimador de la misma, la proporción muestral, por p p= 1 n ∑ yi , n i =1 yi = 0, 1 Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas antes. La varianza de la población es en este caso σ 2 = pq , donde q=1-p. Como antes, el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a S2 = n pq n −1 Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más propiedades de la media muestral, aparte de las mencionadas. Así, si Y → N ( µ , σ 2 ) y−µ σ n 20 σ 2 conocida → N (0,1) si Y → N ( µ , σ 2 ) σ 2 desconocida y−µ → tn −1 ≈ N (0,1) S n (en la práctica, para n > 30) si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞ y−µ σ ≈ n y−µ → N (0,1) S n (en la práctica, para n>30) un caso particular del anterior es cuando Y → B(1, p) , donde µ = p p− p ≈ pq n p− p n pq n −1 n = p− p → N (0,1) y= p (en la práctica, para n>30) pq n −1 Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y , o dicotómicas, p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente grande, por una distribución normal. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)     y−µ ≤ 1,96  = 0,95 P  −1,96 ≤ σ     n o en un caso más general     y−µ P  − Zα ≤ ≤ Zα  = 1 − α σ 2 2     n α=nivel de significación 1-α=nivel de confianza Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1,96≈2 De las probabilidades anteriores se puede hacer dos lecturas. La primera: σ σ  σ    P  −2 ≤ y−µ ≤2  = 0,95 ⇒ P  y − µ ≤ 2  = 0,95 n n n   21 En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0,95= nivel de confianza del 95%. y − µ = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero valor del parámetro que se quiere estimar, µ. 2 σ n = cota o límite para el error de estimación, es el máximo error de estimación que se puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2 S . n La segunda lectura: σ σ   Py −2 ≤ µ ≤ y+2  = 0,95 n n  expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre σ σ   entre los extremos del intervalo  y − 2 ,y+2 . n n  Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande, n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la respuesta. La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y varianza V ( X ) = σ 2 , entonces P  X − µ ≤ kσ  ≥ 1 − 1 k2 Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene σ  1  P y−µ ≤ 2  ≥ 1 − 4 = 0, 75 n  resultado parecido al que obteníamos anteriormente σ   P y−µ ≤ 2  = 0,95 n  salvo que en este caso lo más que podemos asegurar es que la probabilidad de que y−µ ≤2 22 σ n es mayor de 0,75. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado, hacemos una estimación puntual. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es S S   ,y+2  y−2  n n  En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un determinado valor, por ejemplo, se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del 5%. Lo anterior equivale a comprobar si  µ0 ∈  y − 2  S S  ,y+2  n n en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario. 2.2.3 Determinación del tamaño muestral. En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación, 2 σ n = B . La cantidad de información necesaria para conseguir lo anterior depende del tamaño de la muestra según la siguiente expresión 4 σ2 n = B2 ⇒ n = σ2 B2 4 = σ2 D , D= B2 4 El caso de la proporción es análogo al de la media, teniendo en cuenta que σ 2 = pq n= pq , D D= B2 4 Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. 23 b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a) p= 1 n 35 = 0,175 yi = ∑ n i =1 200 n = 200 q = 1 − 0,175 = 0,825 V ( p) = pq = 0, 000726 n −1 p ∈ (12,11% , 22,89% ) B = 2 V ( p ) = 0, 0539 b) B = 0, 03 B2 D= = 0, 000225 4 n= pq = 641, 6 ≈ 642 D c) B = 0, 03 D= B2 = 0, 000225 4 p = q = 0,5 n= pq = 1111,1 ≈ 1112 D d) n = 35 S 2 = 625 V ( y) = y= S 2 625 = = 17,8571 n 35 1 n 5600 yi = = 160€ ∑ n i =1 35 B = 2 V ( y ) = 8, 45€ „ 2.3 Muestreo aleatorio simple en poblaciones finitas. Suponemos que la población es finita, tiene N elementos, y además que la muestra se selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo aleatorio simple en poblaciones infinitas con variables i.i.d.) 24 2.3.1 Estimación de la media, proporción y total poblacionales. (A) Estimación de la media poblacional. Para estimar la media poblacional, µ, se utiliza la media muestral 1 n ∑ yi n i =1 Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra µ=y= ( ) E y =µ ( ) V y = σ2  N −n   n  N −1  En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población E (S2 ) = N σ2 N −1  N −1 2  E S  =σ2 N   De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por 2  N −1 2  1  N − n  S  N − n  V y = S   =     N  n  N −1  n  N  ( )  S2  expresión igual a la del caso de poblaciones infinitas,  V ( y ) =  , salvo el coeficiente n    N −n   que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).  N   N −n En la práctica el coeficiente c.p.f. suele despreciarse si   ≥ 0,95 o lo que es equivalente  N  si n ≤ 1 N = 5% N . En muchos casos N no está claramente definido o se desconoce, pero si 20  N −n N se supone suficientemente grande el c.p.f. se omite,   ≅ 1.  N  Para calcular el límite para el error de estimación , con un 95% de confianza, se halla 2 V ( y ) . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del 95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%. 25 (B) Estimación del total poblacional. Para estimar el total poblacional, τ, dado que µ = τ =Ny= N n τ N ⇒ τ = N µ utilizaremos el estimador n y . ∑ i =1 i Para hallar su varianza, recordemos las propiedades de la varianza V (kX ) = k 2V ( X ) V ( X + Y ) = V ( X ) + V (Y ) ( X e Y incorreladas) Varianza estimada de τ V (τ ) = V ( N y ) = N 2 V ( y ) = N 2 S2 N − n S2 = N ( N − n) n N n Como en el caso de la media, el límite para el error de estimación con una confianza del 95% está dado por 2 V (τ ) . Valiendo comentarios análogos a los hechos anteriormente. En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo, omitiéndose, para no repetirnos más, la referencia al límite para el error de estimación. Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución: V ( y) = Sn2−1 N − n 45000 1000 − 300 = = 105 300 1000 n N 2 V ( y ) = 2 105 = 20, 49€ (1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 ) τ = N y = 1000 ×1040 = 1.040.000€ 2 V (τ ) = N 2 V ( y ) = 1000 × 20, 49 = 20.490€ (valor exacto 20.493,9) (1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 ) „ (C) Estimación de la proporción poblacional. Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media muestral que tiene la siguiente notación en este caso 26 1 n ∑ yi , n i =1 p= su varianza estimada, teniendo en cuenta que S 2 = V ( p) = yi = 0, 1 n pq , es igual a n −1 S2 N − n pq N − n = n N n −1 N Para estimar el total poblacional de una variable dicotómica usamos V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) τ =Np pq n −1 2 V (τ ) = N 2 V ( p ) Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro. • La proporción de ellos que tienen algún tipo de trabajo. (i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando Sean yi , zi responden NO, yi = 1 cuando responden SI, análogamente para zi ). 100 yi = 70 ∑ Según la muestra i =1 100 z = 25 ∑ i =1 i Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Solución: 100 p1 = V ( p1 ) = y ∑ i =1 i 100 100 = 0, 70 (70%) p1 q1 N − n = 0, 0018855 n −1 N 2 V ( p1 ) = 0, 0868 (8, 68%) τ 2 = N p 2 = 900 × 0, 25 = 225 p2 = z ∑ i =1 i 100 V ( p2 ) = = 0, 25 (25%) p2 q2 N − n = 0, 0016835 n −1 N 2 V ( p 2 ) = 0, 0821 (8, 21%) 2 V (τ 2 ) = 900 × 0, 0821 = 73,89 „ 2.3.2 Determinación del tamaño muestral. El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B 27 ( ) 2 V ( y) = B ⇔ V y = V ( y) = σ2 N −n n N −1 =D ⇒ n= B2 =D 4 Nσ 2 ( N − 1) D + σ 2 Para estimar el total poblacional con un límite para el error de estimación B, dado que 2 V (τ ) = N 2 V ( y ) = B , se llega a la misma expresión de n pero con D = B2 4N 2 En la práctica la varianza poblacional σ 2 es desconocida. Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 , N −1 2   2 S .  aunque la estimación insesgada de σ es N   Si no se dispone de información previa para estimar la varianza podemos usar que en variables normales el rango de la muestra es aproximadamente cuatro veces su desviación típica σ≅ R 4 ⇔ σ2 ≅ R2 16 La proporción poblacional p es la media µ de una variable dicotómica ( B (1, p ) , E ( X ) = p , V ( X ) = pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq, obteniéndose n= Npq ( N − 1) D + pq D= B2 4 ( proporcion) D= B2 4N 2 (total ) En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información anterior, suponiendo p = 1 se obtiene un tamaño muestral conservador (mayor que el 2 requerido para obtener la cota del error de estimación prefijada). Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). 28 Solución: B2 10.0002 D= = = 25 4 N 2 4 ×1.0002 4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40.000 Nσ 2 n= = 615, 62 ≈ 616 ( N − 1) D + σ 2 „ Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites. Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: p1 = proporción de estudiantes que prefieren los exámenes en sábado. D1 = n1 = B12 (0,10) 2 = = 0, 0025 4 4 Np1q1 3.000 × 0, 60 × 0, 40 = = 93, 05 ≈ 94 ( N − 1) D1 + p1q1 (2.999 × 0, 0025) + (0, 60 × 0, 40) p2 = proporción de estudiantes que apoyan al equipo decanal. D2 = n2 = B22 (0, 05) 2 = = 0, 000625 4 4 Np2 q2 3.000 × 0,50 × 0,50 = = 353, 04 ≈ 354 ( N − 1) D2 + p2 q2 (2.999 × 0, 000625) + (0,50 × 0,50) para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de p1 disminuiría (con un 95% de confianza) hasta: 2 V ( p1 ) = 2 p1 q1 N − n 0, 60 × 0, 40 3.000 − 354 =2 = 0, 0489 (≅ 4,9%) n −1 N 353 3.000 o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor 29 Zα 2 V ( p1 ) = 0,10 ⇒ Zα 0, 02445 = 0,10 ⇒ Zα = 4, 09 2 2 buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%. „ EJERCICIOS RESUELTOS 1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en € 33,5 32 52 43 40 41 45 42,5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a) µ = y = S2 = 33,5 + ... + 39 = 40,89 € 9 ( ) 1 2 2 ( 33,5 − 40,89 ) + ... + ( 39 − 40,89 ) = 35, 67 9 −1 ( ) V y = S2 = 3,963 n ( ) B = 2 V y = 3,98 € ( 40,89 − 3,98 ; 40,89 + 3,98) = ( 36,91; 44,87 ) b) No, porque 45 ∉ ( 36,91; 44,87 ) σ2 S 2 35, 67 c) n = 2 ≅ 2 = = 35, 67 ≈ 36 compras B B 1 4 4 2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? 30 SOLUCIÓN: 655 = 0, 655 ⇒ 1.000 p= V ( p) = p = 65,5% pq 0, 655 × (1 − 0, 655) = = 0, 0002262012 n −1 999 2 V ( p ) = 0, 0301 ⇒ 3, 01% (65,5% − 3, 01% , 65,5% + 3, 01%) = (62, 49% , 68,51%) p ∈ (62, 49% , 68,51%) ⇒ p > 50% ⇒ sí se puede afirmar que la mayoría de los habitantes están en contra 3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN: Ri 2.200-1.200=1000 1.700-500=1.200 n1 = n2 = σ 12 D1 σ 22 D2 = σ 12 = σ 22 2 1 B 4 2 2 B 4 = = Ri ≈ σi 4 250 300 σ i2 62.500 90.000 62.500 62.500 = = 25 10.000 1002 4 4 90.000 90.000 = = 25 14.400 1202 4 4 n = n1 + n2 = 50 4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 31 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: N = 2.000 R = 11.000 − 1.200 = 9.800 ⇒ σ ≅ D= n= R = 2450 σ 2 ≅ 6.002.500 4 B 2 4002 = = 40.000 4 4 Nσ 2 = 139, 65 ≈ 140 ( N − 1) D + σ 2 B 2 0.052 = = 0, 000625 4 4 Npq n= = 333, 47 ≈ 334 ( N − 1) D + pq D= p = q = 0,5 Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334. n = 334 . 5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: N = 110 R = 1.800 − 1.500 = 300 ⇒ σ ≅ D= R = 75 σ 2 ≅ 5625 4 B 2 102 = = 25 4 4 Nσ 2 n= = 74,1 ≈ 75 ( N − 1) D + σ 2 D= 32 B 2 0.022 = = 0, 0001 4 4 p = q = 0,5 n= Npq = 105, 4 ≈ 106 ( N − 1) D + pq 6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. SOLUCIÓN: a) N = 25 n=5 14 y = = 2,8 ⇒ τ = N y = 70 5 S2 12, 7 = 25 × 20 = 1270 V (τ ) = N ( N − n) n 5 B = 2 V (τ ) = 71, 2741 Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. Véase ejercicio 10 de la relación del capítulo 6) b) p= 2 = 0, 4 ⇒ τ = N p = 10 5 V (τ ) = N ( N − n) pq 0, 24 = 25 × 20 = 30 n −1 4 B = 2 V (τ ) = 10,9545 7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se 33 toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.4 6 6.3 11 3.6 16 5.4 2 5.5 7 5.4 12 6.7 17 4.8 3 6.9 8 5 13 5.2 18 4.7 4 3.9 9 4.5 14 5.1 19 5.8 5 4.5 10 4.4 15 5.4 20 6.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto p= 15 = 0 '75 20 V ( p) = pq N − n 0 '75 × 0 '25 580 = = 0 '00954 n −1 N 19 600 2 V ( p) = 0 '1953 ( 0 '75 − 0 '1953 , 0 '75 + 0 '1953) = ( 0 '5547 , 0 '9453) b) B = 0 '10 D= ( 0 '10 ) n= 4 ( 55'47% , 94 '53% ) 2 = 0 '0025 Npq 600 × 0 '75 × 0 '25 = = 66 '77 ≈ 67 ( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 ' 25 ) 8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 Estime el total del dinero adeudado y establezca un límite para el error de estimación. 34 SOLUCIÓN: yi yi2 1260,25 1024,00 1849,00 1681,00 1936,00 1806,25 35,50 32,00 43,00 41,00 44,00 42,50 n n y = 238,00 ∑ y = 9556,50 ∑ i =1 i i =1 τ =Ny= 2 i N n n y = ∑ i =1 i 100 238=3966,6 6 2 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2  n  yi  ∑ n yi2 −  i =1  ∑ 1 2382  n = i =1 =  9556,50 −  = 23,1667 5 6  n −1 2 V (τ ) = 2 N ( N − n) S2 23,1667 = 2 100(100 − 6) = 381, 02 n 6 Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n = sx = desviación típica σ n − 1 = Sx de forma inmediata. σ n − 1 = S x = cuasidesviación típica 9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 35 SOLUCIÓN: N=5000, n=300 p= 51 pq N − n = 0,17 q = 1 − p = 0,83 V ( p) = = 0, 00044359197 2 V ( p) = 0, 0421 300 n −1 N 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: (con las funciones del modo SD de la calculadora) N=45, n=5 y= 1 n ∑ yi = 5, 26 n i =1 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 = 2,563 S2 N − n = 0, 4556 2 V ( y ) = 1,35 INTERV . CONF .: ( 3,91 min ., 6, 61 min .) n N Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no V ( y) = podemos aceptar esa hipótesis. 11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1.450; ∑ Y i =1 i i i =1 2 = 54.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700, n=50 2 y= 36 1 n 1450 yi = = 29 ∑ 50 n i =1  n  yi  ∑ n yi2 −  i =1  ∑ n S 2 = i =1 = 254 n −1 τ = N y = 20.300 V (τ ) = N ( N − n) S2 = 2.311.400 n B = 2 V (τ ) = 3.040, 66 ( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 ) Previsión más optimista: 23.340 ; previsión más pesimista: 17.259 37 3. Muestreo aleatorio estratificado. 3.1 3.2 3.3 3.4 Selección de una muestra aleatoria estratificada. Estimación de la media, proporción y total poblacionales. Determinación del tamaño muestral. Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 3.1 Selección de una muestra aleatoria estratificada. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección, llamados estratos, y la selección posterior de una muestra aleatoria simple en cada estrato. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: ƒ A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste (en tiempo y/o dinero) de la muestra. ƒ Además de las estimaciones para toda la población, este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos. Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a la derecha para la muestra): L = número de estratos N = tamaño de la población n = tamaño de la muestra N i = tamaño del estrato ni = tamaño de la muestra del estrato i L L N = ∑ Ni n = ∑ ni µi = media poblacional del estrato i y i = media muestral del estrato i i =1 τ i = total poblacional del estrato i 38 i =1 σ i2 = varianza poblacional del estrato i Si2 = varianza muestral del estrato i pi = proporción poblacional del estrato i p i = proporción muestral del estrato i ci = coste de una observación del estrato i 3.2 Estimación de la media, proporción y total poblacionales. En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato L N i y i es un estimador insesgado del total τ i , parece razonable estimar τ = ∑ τ i por i =1 L τ i =1 N τ st = ∑ N i y i y la media poblacional µ = mediante y st = 1 N L N y ∑ i =1 i i y st ≠ y en general ( y = media muestral de las n observaciones) NOTA: τ st ≠ τ en general ( τ = N y = estimador del total según un M.A.S.) Varianza estimada de y st 1 L 2 1 L 2 Si2 N i − ni ( ) N V y Ni = ∑ i i N2 ∑ N 2 i =1 ni N i i =1 (se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2) V ( y st ) = Varianza estimada de τ st Si2 N i − ni V (τ st ) = N V ( y st ) = ∑ N ni N i i =1 L 2 2 i En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación vistas en el capítulo anterior. Estimador de la proporción poblacional p p st = 1 N L ∑N i =1 i pi Varianza estimada de p st 1 L 2 1 L 2 p i q i N i − ni ( ) N V p Ni = ∑ i ∑ i N 2 i =1 N 2 i =1 ni − 1 N i Estimador del total poblacional τ V ( p st ) = L τ st = N p st = ∑ Ni p i i =1 39 Varianza estimada de τ st L V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 p i q i N i − ni ni − 1 N i Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la siguiente tabla: BARRIO A 26 34 36 32 38 39 29 37 38 35 41 28 41 37 29 BARRIO B 25 20 30 14 41 39 BARRIO C 22 14 17 15 11 21 14 20 24 Estime el tiempo medio que se ve la televisión, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato y1 = 34, 67 horas / semana y 2 = 28,17 h / s y 3 = 17,56 h / s S12 = 23, 24 S 22 = 112,57 S32 = 19, 28 y = 28, 23 S 2 = 92, 74 A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420 n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30 40 V ( y1 ) = S12 N1 − n1 = 1, 44 n1 N1 V ( y2 ) = 2 V ( y1 ) = 2, 40 h / s S22 N 2 − n2 = 17, 42 n2 N 2 2 V ( y 2 ) = 8,35 h / s V ( y3 ) = S32 N 3 − n3 = 1,99 n3 N 3 2 V ( y 3 ) = 2,82 h / s Para el conjunto de todos los hogares el estimador de la media es 1 3 ∑ Ni yi = 28, 23 h / s N i =1 y la varianza de este estimador la podemos calcular basándonos en las varianzas de los y st = estimadores de la media en cada estrato mediante V ( y st ) = 1 N2 3 N V ( y ) = 1, 24 ∑ i =1 2 i i o, si se prefiere, utilizando 1 3 2 Si2 N i − ni Ni ∑ N 2 i =1 ni N i el error para la estimación de la media para todos los hogares está dado por V ( y st ) = 2 V ( y st ) = 2, 22 h / s „ Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO SI SI NO SI SI SI NO SI SI SI SI SI SI NO NO NO NO NO SI NO SI NO SI SI NO NO SI Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato p1 = 7 = 0, 4667 15 p2 = 5 = 0,8333 6 p3 = 6 = 0, 6667 9 La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 1 3 ∑ Ni pi = 0, 60 N i =1 la varianza y error de estimación asociados son p st = 1 3 2 p i q i N i − ni Ni = 0, 00748 ∑ N 2 i =1 ni − 1 N i y el intervalo de confianza expresado en porcentajes es V ( p st ) = 2 V ( p st ) = 0,173 41 ( 60% ∓ 17,3% ) = ( 42, 7%, 77,3% ) „ 3.3 Determinación del tamaño muestral. El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene L 1 dado por 2 V ( y st ) = B donde V ( y st ) = 2 N N ∑ 2 i i =1 σ i2 Ni − ni ni N i − 1 . No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos la relación entre los ni y n . Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más adelante) , sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B (aproximado porque se hacen algunas modificaciones como N i − 1 ≅ N i , ... para resolver la anterior ecuación). N i2σ i2 ∑ L n= i =1 ωi L N 2D + ∑ N iσ i2 i =1 2 B D= 4 B2 y la misma expresión vale para el total tomando D = . 4N 2 Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las observaciones dentro de cada estrato. En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que en este caso particular σ i2 = pi qi L n= N i2 pi qi ∑ω i =1 i L N 2D + ∑ N i pi qi i =1 D= 42 B2 B2 (para estimar p) y la misma expresión vale para el total tomando D = . 4 4N 2 3.4 Asignación de la muestra. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto, pequeño error de estimación) al menor coste posible. El mejor esquema de asignación está influido por: • El número total de elementos en cada estrato. • La variabilidad de las observaciones en cada estrato. • El coste de obtener una observación en cada estrato. 3.4.1 Asignación óptima. La asignación que minimiza el coste para un límite para el error de estimación fijado se denomina asignación óptima y está dada por N jσ j cj ωj = L ∑ i =1 N iσ i ci sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación óptima L n= L N i σ i ci ∑ Ni σ i ci ∑ i =1 i =1 L N 2D + ∑ N iσ i2 i =1 En el caso dicotómico las anteriores expresiones toman los valores p jq j cj Nj ωj = L ∑N i =1 L n= N ∑ i =1 i L N ∑ pi qi ci i pi qi ci i =1 i pi qi ci L N 2D + ∑ N i pi qi i =1 En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la respuesta y la elección de n viene dada por 43 n= L Nσ C ∑ i i ci i =1 L Nσ ∑ i i =1 ci i donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3). Análogamente para el caso dicotómico sustituyendo σ i = pi qi . 3.4.2 Asignación de Neyman. Cuando los costes de observación de cada estrato son los mismos, las expresiones de la asignación óptima se simplifican y transforman en: Caso numérico N jσ j ωj = L ∑Nσ i i =1 i (∑ N σ ) 2 L n= i i =1 i L N D+∑ N iσ i2 2 i =1 Caso dicotómico ωj = N j p jq j L ∑N i =1 (∑ N L n= i =1 i i pi qi ) 2 pi qi L N 2D + ∑ N i pi qi i =1 A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide con la asignación óptima cuando los costes de observación son iguales en todos los estratos. Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún cuando los costes de observación no son idénticos, a veces, sencillamente porque no se conocen. 3.4.3 Asignación proporcional. Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las expresiones de la asignación óptima se simplifican y reducen a 44 Caso numérico Nj ωj = N L n= Nσ ∑ i i =1 ND + 1 N 2 i L Nσ ∑ i i =1 2 i Caso dicotómico Nj ωj = N L n= N pq ∑ i i =1 ND + 1 N i i L N pq ∑ i =1 i i i La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral de toda la muestra, y st = y (análogamente para p st y el total). Cuando se toma más de una medición en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos distintas asignaciones para cada variable que se mide. Con la asignación proporcional y tomando como n el máximo de los valores encontrados para cada estimación, estaremos utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que el establecido. Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los ωi dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: n = 100 ω1 = 0,10 ⇒ n1 = 10 ω2 = 0,90 ⇒ n2 = 90 2ª estimación: n = 40 ω1 = 0,50 ⇒ n1 = 20 ω2 = 0,50 ⇒ n2 = 20 45 Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. En la asignación proporcional no ocurre lo anterior pues los ω j = Nj N son iguales para todas las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: n = 100 ω1 = 0,30 ⇒ n1 = 30 ω2 = 0, 70 ⇒ n2 = 70 2ª estimación: n = 40 ω1 = 0,30 ⇒ n1 = 12 ω2 = 0, 70 ⇒ n2 = 28 tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Solución: a) Podemos comprobar que se cumple que 15 210 = = 0,5 30 420 ni N i = n N ∀i 6 84 = = 0, 2 30 420 9 126 = = 0,3 30 420 luego la asignación utilizada ha sido la proporcional. b) Según los datos anteriores estimaremos las varianzas de cada estrato por 2 σ 1 = S12 = 23, 24 46 2 σ 2 = S22 = 112,56 2 σ 3 = S32 = 19, 28 D= Ni σi ci Niσ i ci N iσ i ci 210 84 126 420 4,8208 10,6094 4,3909 1 3 2 1012,368 2673,5688 1106,5068 4792,4436 1012,368 297,0632 276,6267 1586,0579 N iσ i2 4880,4 9455,04 2429,28 16764,72 B2 1 = = 0, 25 4 4 3 n= Nσ ∑ i =1 i Ni σ i ci 3 ∑ ci i i =1 3 N 2D + ∑ N iσ i2 = 4792, 4436 × 1586, 0579 = 124,89 ( 4202 × 0, 25) + 16764, 72 i =1 N1σ 1 c ω1 = 3 1 = 0, 6383 N iσ i ∑ ci i =1 n1 = nω1 = 79, 71 ≈ 80 ω2 = 0,1873 n2 = nω2 = 23,39 ≈ 24 ω3 = 0,1744 n3 = nω3 = 21, 78 ≈ 22 n = 80 + 24 + 22 = 126 c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio n= 3 Nσ 600∑ i i ci i =1 3 Nσ ∑ i =1 i i ci = 600 × 1586, 0679 = 198,57 4792, 4436 y los tamaños de la muestra en cada estrato están dados por la asignación óptima n1 = 0, 6383n = 126, 75 ≈ 126 n2 = 0,1873n = 37,19 ≈ 37 n = 126 + 37 + 34 = 197 n3 = 0,1744n = 34, 63 ≈ 34 o bien resolviendo la ecuación c1n1 + c2 n2 + c3 n3 = 600 donde ni = ωi n c1ω1n + c2ω2 n + c3ω3 n = 600 n= 600 600 = = 198,57 c1ω1 + c2ω2 + c3ω3 3, 0216 A partir de n se obtienen los ni = ωi n según la asignación óptima. „ 47 Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa. Solución: a) Ni pi qi N i pi qi N i pi qi 210 84 126 420 0,4667 0,8333 0,6667 0,5333 0,1667 0,3333 52,2671 11,6685 27,9986 91,9342 104,7669 31,3075 59,3955 195,4699 B 2 0, 052 D= = = 0, 000625 4 4 (∑ N 3 n= i i =1 ) 2 pi qi 3 N 2D + ∑ N i pi qi = 195, 46992 = 188,98 ( 4202 × 0, 000625) + 91,9342 i =1 n1 = nω1 = n N1 p1q1 3 ∑N i =1 i análogamente n2 = 30, 27 ≈ 31 = 188,98 pi qi 104, 7669 = 101, 29 ≈ 102 195, 4699 n3 = 57, 42 ≈ 58 ⇒ n = 102 + 31 + 58 = 191 b) Ni 210 84 126 420 pi 0,5 0,5 0,5 qi 0,5 0,5 0,5 N i pi qi 52,5 21 31,5 105 L n= n1 = 204,878 N pq ∑ i =1 1 ND + N i i i L N pq ∑ i =1 i i i = 105 ( 420 × 0, 000625) + = 204,878 210 = 102, 439 ≈ 103 análogamente n2 = 40,98 ≈ 41 420 n = 103 + 41 + 62 = 206 48 105 420 n3 = 61, 46 ≈ 62 „ El muestreo estratificado no siempre conduce a un estimador con menor error de estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos. Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema queda bien ilustrado con el siguiente ejemplo. Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a N1 = 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). n1 = n Estrato 1 470 510 500 550 y1 = 507,5 S12 = 1091, 67 Estrato 2 490 500 470 520 550 500 y 2 = 505 S 22 = 750 Estrato 3 540 480 500 470 470 Estrato 4 450 560 460 440 580 y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Solución: y st = 1 N N1 = 0, 20 N 4 4 i =1 i =1 ∑ Ni yi = ∑ N2 = 0,30 N N3 = 0, 25 N N4 = 0, 25 N Ni y i = ( 0, 20 × 507,5 ) + ( 0,30 × 505 ) + ( 0, 25 × 492 ) + ( 0, 25 × 498 ) = 500,5€ N Obsérvese que cuando se utiliza la asignación proporcional y st = y , efectivamente y= 1 20 10010 yi = = 500,5€ ∑ 20 n i =1 49 En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad 1 V ( y st ) = 2 N 4 2  Ni Si2 N i − ni N i2 Si2 = = N  ∑ ∑ ∑ 2 ni N i ni i =1  N i =1 i =1 N 4 2 i 2  Si2  =  ni 1091, 67      2 750  2 870  2 4420  =  0, 202  +  0,30  +  0, 25  +  0, 25  = 88, 29 4 6   5   5     2 V ( y st ) = 18, 79 € Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es y= 1 20 ∑ yi = 500,5 € n i =1 que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente, pero la varianza estimada y error de estimación asociados toman los valores (se omite el c.p.f.): S n2−1 = 1520, 79 V ( y) = Sn2−1 N − n 1520, 79 = = 76, 04 20 n N 2 V ( y ) = 17, 44 € Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los medianos en otro, ... „ 3.5 Estratificación después de seleccionar la muestra. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según sexo y entrevista telefónica). Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. Entonces en lugar de usar y para estimar µ , podemos usar y st siempre que Ni sea conocido para todo i. N Obsérvese que en esta situación los ni son aleatorios, ya que varían de una muestra a otra aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido, 50 pero si Ni es conocido y ni ≥ 20 ∀i , entonces este método de estratificar después de la N selección es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. Si Ni se desconoce o no se puede tener una buena aproximación de su valor, N este método no debe usarse. Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el procedimiento se justifica pues tanto n1 como n2 superan 20. y1 = y st = 1 N 5730 = 95,5€ 60 2 2 i =1 i =1 ∑ Ni y i = ∑ V ( y st ) = 1 N2 y2 = 2080 = 52€ 40 Ni y i = (0,30 × 95,5) + (0, 70 × 52) = 65, 05€ N 2 N i2 ∑ i =1 2 Si2 Ni − ni N2 S2 N − n = ∑ i2 i i i ni N i ni N i i =1 N omitiendo el coeficiente corrector por poblaciones finitas se tiene 2  Ni N i2 Si2 ( ) = = V y st ∑ 2  ∑ ni i =1  N i =1 N 2 2 2 2  Si2   2 200  2 90  0,30 0, 70 = +      = 159, 225 60 40 n     i  2 V ( y st ) =25,24€ „ A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. 51 Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: y= 5730 + 2080 7810 = = 78,10€ 60 + 40 100 EJERCICIOS RESUELTOS 1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. SOLUCIÓN: a. Ni 164 186 350 ni 24 36 Si2 yi 972 463 202,396 96,721 y st = V ( y st ) = Ni y i 1 N2 1 N L L ∑N y i i =1 N i2 ∑ i =1 159.408 86.118 245.526 i = 0,854 0,806 245.526 = 701,50 350 Si2 N i − ni 268.624, 45 = = 2,19 ni N i 3502 2 2,19 = 2,96 52 N i − ni Ni Si2 N i − ni N ni N i 193.699,13 74.925,32 268.624,45 2 i b. y 2 = 463 V ( y2 ) = S 22 N 2 − n2 96, 721 186 − 36 = = 2,17 n2 N 2 36 186 2 2,17 = 2,94 2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: n= L Nσ C ∑ i i ci i =1 L Nσ ∑ i =1 i i Ni 9.000 1.000 10.000 ci = L Nσ C ∑ i ci i =1 L Nσ ∑ i i =1 ci 10 30 = ci L N Cσ ∑ i ci i =1 L σ∑ N i ci i =1 = L N C∑ i ci i =1 L N ∑ i =1 i ci = 20.000 × 3.028, 624 = 1784,81 33.937, 726 ωi Ni ci N i ci 2.846,05 182,574 28.460,5 2.846,05/3.028,624=0,9397 5.477,226 182,574/3.028,624=0,0603 3.028,624 33.937,726 1,0000 n1 = nω1 = 1.784,81× 0,9397 = 1677, 2 ≈ 1677 n2 = nω2 = 1.784,81× 0, 0603 = 107,59 ≈ 107 n = n1 + n2 = 1784 O bien c1n1 + c2 n2 = 20.000 c1ω1n + c2ω2 n = 20.000 9,397n + 1,809n = 11, 206n = 20.000 20.000 = 1.784,8 = n 11, 206 Y a partir de n se obtienen n1 y n2 como antes. 53 3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos ni n ∑ yi S i2 i =1 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. SOLUCIÓN: y1 = y st = Si 1 N 239 = 9,56 25 L L i =1 i =1 ∑ Ni y i = ∑ y2 = 174 = 9,16 19 y3 = 78 = 4,87 16 Ni y i = ( 0, 425 × 9,56 ) + ( 0,30 × 9,16 ) + ( 0, 275 × 4,87 ) = 8,15 N N i − ni 1 = 1 ⇒ V ( y st ) = 2 Ni N L N i2 ∑ i =1 Si2 N i − ni 1 = 2 ni N i N L N i2 ∑ i =1 2 2 L L Si2 N2 S2  N i  Si = ∑ i2 i = ∑ =   ni i =1 N ni i =1  N  ni 60, 77    2 63, 01   2 78, 24  =  0, 4252  +  0,30  +  0, 275  = 1,107 25   19   16   2 1,107 = 2,1 4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3,5 3,6 3,9 3,8 S i 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) 54 SOLUCIÓN: a) L N = ∑ N i = 1000 y st = i =1 1 N L ∑ Ni y i =3, 725 i =1 B = 2 V ( y st ) = 0,1973 b) n3 = nω3 = 100 N 3σ 3 = 100 4 ∑Nσ i =1 i V ( y st ) = 1 N2 L N i2 ∑ i =1 Si2 N i − ni = 0, 00973 ni N i µ ∈ ( 3,5277 , 3,9223) 350 × 1, 2 = (240 × 0,8) + (190 × 0,9) + (350 × 1, 2) + (220 × 0, 7) i = 100 × 0, 4482 = 44,82 ≈ 45 5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación óptima. Usamos que R≈4σ y por tanto estimamos que σ ≈ Ni ci 100 16 500 9 700 4 600 = 16n1 + 9n2 + 4n3 ci 4 3 2 ( ni = ωin ) Ri σi R . 4 N iσ i ci ωi 600-400 50 360-240 30 130-70 15 1250 0’1087 5000 0’4348 5250 0’4565 11500 1 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n 55 n = 600/7’4784 = 80’231 n1 = ω1n = 8’72 ≈ 8 n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36 C = (16×8) + (9×34) + (4×36) = 578 < 600 pero C’ = (16×9) + (9×35) + (4×37) = 607 > 600 6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni HOMBRES 2.500 MUJERES 2.700 ni 100 400 yi 120 250 9.000 16.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: Ni ni 2.500 2.700 5.200 100 400 500 Si2 yi 120 250 Ni y i 9.000 16.000 y st = 1 V ( y st ) = 2 N 1 N 300.000 675.000 975.000 L ∑N y i =1 i i = N i − ni Ni 0,96 0,85185 N i2 Si2 N i − ni ni N i 540.000.000 248.399.460 788.399.460 975.000 = 187,5 5.200 Si2 N i − ni 788.399.460 N = = 29,16 ∑ 5.2002 ni N i i =1 L 2 i 2 29,16 = 10,8 7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante 56 una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: 12 = 0, 24 50 p1 = p st = 1 N L ∑N i =1 L i pi = ∑ i =1 1 N2 130 = 0,52 q i = 1 − p i 250 Ni p i = ( 0,50 × 0, 24 ) + ( 0,50 × 0,52 ) = 0,38 ⇒ p st = 38% N Si V ( p st ) = p2 = N i − ni =1 ⇒ Ni p i q i N i − ni 1 = 2 ni − 1 N i N 2 L L pi qi N2 p q  Ni  pi qi = ∑ i2 i i = ∑ =   ni − 1 i =1 N ni − 1 i =1  N  ni − 1 i =1 i =1 0, 24 × 0, 76    2 0,52 × 0, 48  =  0,502  +  0,50  = 0, 0011812146 49 249     L N i2 ∑ L N i2 ∑ 2 V ( p st ) = 0, 0687 ⇒ 6,87% 8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros Técnicos Administrativos Si2 36 25 9 Ni 132 92 27 57 SOLUCIÓN: Ni 132 σ i ≈ Si 6 Niσ i 792 ωi 792 1.333 = 0,5941 460 = 0,3451 1.333 81 = 0, 0608 27 3 81 1.333 1.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 92 5 N jσ j ωj = n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14 L ∑Nσ i i =1 460 i n3 = 40 × 0, 0608 = 2, 4 ≈ 2 n = 40 9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. SOLUCIÓN: Ni ci pi qi pi qi ωi Ni pi qi ci 5.000 3 0,90 0,10 0,3 500 500 2.000 5 0,55 0,45 0,4975 199 199 3.000 4 0,70 0,30 0,45826 343,695 1.042,695 Donde se ha aplicado la asignación óptima: Nj ωj = L ∑N i =1 i 1.042, 695 = 0, 4795 = 0,1909 1.042, 695 343, 695 = 0,3296 1.042, 695 1 p jq j n1 = 200 × 0, 4795 = 95,9 ≈ 96 cj n2 = 200 × 0,1909 = 38, 2 ≈ 38 pi qi ci n3 = 200 × 0,3296 = 65,9 ≈ 66 n = 200 10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación. Omita el coeficiente corrector por población finita. 58 SOLUCIÓN: p= Estrato Ni ni pi A B 0.40 × N 0.60 × N N 67 133 200 2/67=0.030 6/133=0.045 pi qi ni − 1 0.000441 0.000326 1 ( ( 0.40 × N × 0.030 ) + ( 0.60 × N × 0.045) ) = ( ( 0.40 × 0.030 ) + ( 0.60 × 0.045) ) = 0.039 N ( ) ( ( 3.9% ) ) 1 0.402 × N 2 × 0.000441) + ( 0.602 × N 2 × 0.000326 ) = 2 ( N = ( 0.402 × 0.000441) + ( 0.602 × 0.000326 ) = 0.000188 V p = ( ) B = 2 0.000188 = 0.0274 ( 2.74% ) 11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. SOLUCIÓN p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ Ni 3   13   p i =  0, 60  +  0, 40  = 0,155 N 20   80   (15,5% ) 2 L L  Ni  pi qi p i q i N i − ni N i2 p i q i N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1 2 0,15 × 0,85 2 0,1625 × 0,8375 = ( 0, 60 ) + ( 0, 40 ) = 0, 00267 19 79 1 V ( p st ) = 2 N L 2 i 2 V ( p st ) = 0,103 (10,3% ) 12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando 59 Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. SOLUCIÓN: Ni Peso en gramos (con las funciones del modo SD de la calculadora) 12, 14, 12, 15, 12 S1 = 1, 4142 S12 = 2 16, 22, 24, 20, 20, 18 S 2 = 2,8284 S22 = 8 30, 33, 31, 34 S32 = 3,3333 σi S3 = 1,8257 σ 2 i Niσ i N iσ ωj = 2 i N jσ j ∑Nσ i =1 300 500 200 1,4142 2,8284 1,8257 2 8 3,3333 N = 1000 424,26 1414,2 365,14 600 4000 666,66 2203,6 5266,66 n= 1 (∑ N σ ) i =1 i 13, 79 ≈ 14 45,99 ≈ 46 11,87 ≈ 12 n = 72 2 i L i N D+∑ N iσ 2 i 0,1925 0,6418 0,1657 L B2 250.000 D= = = 0, 0625 2 4N 4.000.000 ni = 71, 66ωi L i =1 = 71, 66 2 i 13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. 60 b. Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a. p = pq 18 = 0, 001491 2 V ( p ) = 0, 0772 = 0,18 (18%) V ( p ) = n −1 100 b. p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ 1 V ( p st ) = 2 N Ni 2   16   p i =  0, 60  +  0, 40  = 0,14 N 20   80   ( 7, 72% ) (14% ) 2 L L  Ni  pi qi p i q i N i − ni N i2 p i q i N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1 = ( 0, 60 ) L 2 2 i 0,10 × 0,90 2 0, 20 × 0,80 + ( 0, 40 ) = 0, 00203 19 79 2 V ( p st ) = 0, 0901 ( 9, 01% ) c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A ( p1 = 0,10 ). En el apartado b. este hecho se corrige dando a p1 y p 2 las ponderaciones 0,60 y 0,40 respectivamente para estimar p. 14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21, 2 S1 = 12 y2 = 13,3 S 2 = 11 y3 = 26,1 S3 = 9 a. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. 61 b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. SOLUCIÓN: a. y st = V ( y st ) = 1 N L ∑N y i i =1 1 N2 L i N ∑ i =1 2 i = 3834 = 19,17 pedidos / semana 200 Si2 N i − ni = 6, 2965 ni N i 2 V ( y st ) = 5, 02 pedidos / semana b. Ni σi σ 2 i Niσ i N iσ ωj = 2 i N jσ j ∑Nσ i =1 100 70 30 12 11 9 144 121 81 N = 200 1200 770 270 14400 8470 2430 2240 25300 n= 2 i L i =1 62 i N D+∑ N iσ 2 i 1 (∑ N σ ) i =1 i 0,5357 0,3438 0,1205 L B2 9 D= = = 2, 25 4 4 ni = 43,52ωi L = 43,52 2 i 23,31 ≈ 24 14,96 ≈ 15 5, 24 ≈ 6 n = 45 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 4.1 Introducción. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende estimar el total sin conocer el número de elementos de la población y sí el valor total de la variable que proporciona la información auxiliar Denotemos por Y → Variable bajo estudio X → Variable que proporciona la información auxiliar Y supongamos que tenemos una muestra constituida por n pares: (x1 , y1 ),..., ( x n , y n ) A través de los datos muestrales se puede estimar la relación existente entre ambas variables. Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar. Aquí suponemos que el muestreo que se emplea es el aleatorio simple Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el número de empleados de la empresa. „ Dependiendo de la relación entre las variables X e Y utilizaremos: • Estimadores de razón ( y = bx ) 63 • Estimadores de regresión ( y = a + bx ) • Estimadores de diferencia ( y = a + x ) Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una fuerte relación lineal positiva ( rxy > 1 ). 2 4.2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y , se define la razón como el cociente: R= τy τx Es decir, la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y τ x = Nµ x , obtenemos R= µY µX De estas definiciones se deduce que τ y = Rτ x µ y = Rµ x Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R = r ): τˆy = rτ x µˆ y = r µ x Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra aleatoria simple: ( y1 , x1 ),..., ( y n , x n ) , podemos estimar R tomando el cociente entre las medias muestrales: • • 64 ESTIMADOR DE LA RAZÓN: VARIANZA ESTIMADA DE r : 1 n yi y n∑ i =1 r= = = x 1 n ∑ xi n i =1 n ∑y i =1 n i ∑x i =1 i 1 n 1 S2  N − n  2 2 Vˆ (r ) = 2 r  S = , ∑ ( yi − rxi ) r n − 1 i =1 µ x n  N  4.2.1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen, ( y = bx, en este contexto se nota b = r dado su significado ) ESTIMADOR DE LA MEDIA: µˆ y = rµ x • VARIANZA ESTIMADA DE µˆ y : S r2  N − n  2 ˆ ˆ V (µˆ y ) = µ x V (r ) =   n  N  • ESTIMADOR DEL TOTAL: τˆ y = rτ x • Observemos que no es necesario conocer el tamaño de la población N. • VARIANZA ESTIMADA DE τˆ y : τ x2 S r2  N − n  2 ˆ ˆ ˆ V (τ y ) = τ x V (r ) = 2   µx n  N  Comentarios sobre el uso de estos estimadores: • Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es más de 20 veces el tamaño de la muestra), es decir que N −n ≥ 0,95 , entonces N N −n ≅ 1 . (Véase ejercicio resuelto 4) N • De la relación µ x = τx N , conociendo dos de esos elementos se puede calcular el tercero. • A la hora de obtener Vˆ (τˆ y ) , si µ x es desconocida y no podemos utilizar la relación anterior entonces µ x ≅ x . Sin embargo, para estimar µˆ y necesitamos conocer el verdadero valor de µ x . • Son estimadores sesgados. • A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe una fuerte correlación entre las variables se comporta mejor el muestreo con información auxiliar (τˆ y = rτ x ) que el m.a.s (τˆ = Ny ) . Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a)) Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 65 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus respectivos límites para el error de estimación y compárelos. Solución 66 Y = " producción (toneladas, tm)" X = "superficie plantada (hectáreas, ha)" xi yi xi2 yi2 xi yi 3,7 4,3 4,1 5 5,5 3,8 8 5,1 5,7 6 3 7 5,4 4,4 5,5 12 14 11 15 16 12 24 15 18 20 8 20 16 14 18 13,69 144 44,4 18,49 196 60,2 16,81 121 45,1 25 225 75 30,25 256 88 14,44 144 45,6 64 576 192 26,01 225 76,5 32,49 324 102,6 36 400 120 9 64 24 49 400 140 29,16 256 86,4 19,36 196 61,6 30,25 324 99 5 5,9 5,6 5 7,2 105,2 TOTALES 15 18 17 15 22 320 25 225 75 34,81 324 106,2 31,36 289 95,2 25 225 75 51,84 484 158,4 581,96 5398 1770,2 Del enunciado y de la tabla anterior obtenemos n = 20 n ∑ xi = 105, 2 i =1 n ∑ xi2 = 581,96 i =1 1 n 105, 2 xi = = 5, 26 ∑ 20 n i =1 y= 1 n 320 ∑ yi = 20 = 16 n i =1 ( n ∑ yi = 320 x= sxy = τ x = 3.840 ha N = 750 socios )( i =1 sx2 = s 2y = ( 1 n ∑ xi − x n i =1 ( 1 n ∑ yi − y n i =1 ) 2 ) = 2 = n n ∑ yi2 = 5398 ∑x y i =1 i =1 i i = 1770, 2 2 1 n 2 581,96 xi − x = − 5, 262 = 1, 4304 ∑ 20 n i =1 2 1 n 2 5398 yi − y = − 162 = 13,9 ∑ n i =1 20 ) 1 n 1 n 1770, 2 x − x y − y = xi yi − x y = − ( 5, 26 × 16 ) = 4,35 ∑ ∑ i i n i =1 n i =1 20 Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene: S x2 = n 2 20 sx = 1, 4304 = 1,5057 n −1 19 S y2 = n 2 20 s y = 13,9 = 14, 6316 n −1 19 y hallando las raíces cuadradas obtenemos las desviaciones (s , s ) x y y cuasidesviaciones típicas ( S x , S y ) . Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n = sx = desviación típica σ n − 1 = S x de forma inmediata. σ n − 1 = S x = cuasidesviación típica   s 4,35 La relación entre las variables es alta  rxy = xy = = 0,9756  . Esto junto con la   sx s y 1,196 × 3, 728   información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón. Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). 67 20 r= ∑y i =1 20 i ∑x i =1 = 320 = 3, 042 tm/ha 105, 2 i τˆy = rτ x = 3, 042 × 3.840 = 11.680, 6 tm τ 3840 µ = x= = 5,12 ha / socio x N 750 µˆ y = r µ x = 3, 042 × 5,12 = 15,57 tm/socio 2 Sr = 20 1 20 1  20 2 2 20 2 2 2 − = + − y rx y r x r xi yi ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 S2  N − n  Vˆ ( µˆ y ) = r   = 0, 0344 n  N  ⇒   =0, 706  Bµ = 2 Vˆ ( µˆ y ) = 0,37 tm/socio 2 τ x2 Sr2  N − n  2 Sr  N − n  ˆ ˆ V (τ y ) = 2 =N   = 19.326, 75 µ x n  N  n  N  ⇒ Bτ = 2 Vˆ (τˆy ) = 278, 04 tm o Bτ = 750 × Bµ = 750 × 0,37 = 277,5 tm (no coinciden los dos procedimientos por los errores de redondeo en el valor de Bµ ). A continuación lo estimaremos utilizando muestro aleatorio simple. 320 y= = 16 tm / socio 20 S 2  N − n  14, 63  750 − 20  ˆ V y =  =   = 0, 712 20  750  n  N  ( ) Bµ = 2 0, 712 = 1, 69 tm / socio τˆ = Ny = 750 320 = 12.000 tm 20 2 2 S  N −n 2 14,63  750 − 20  ˆ ˆ V (τ ) = N   = 750   = 400.539,47 20  750  n  N  Bτ = 2 400.539, 47 = 1.265,76 tm o Bτ = 750 × Bµ Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando estimadores de razón. 4.2.2 „ Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error de magnitud B n= 68 Nσ r2 σ r2 + ND donde para estimar: • • • la razón: B 2 µ x2 D= 4 la media: B2 D= 4 el total: B2 D= 4N 2 Comentarios: • σ r2 se estima utilizando una muestra previa (tamaño n' ): σˆ r2 = S r2 . • Si µ x es desconcocido, µˆ x2 = x 2 Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b)) Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a 0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución Nσ r2 MEDIA: n = σ r2 + N Nσ r2 TOTAL: n = σ r2 + N B2 4N 2 2 B 4 = = 750 × 0, 706 = 42,6 ≅ 43 socios  0, 252  0, 706 +  750 ×  4   Nσ r2 750 × 0, 706 = = 37, 7 ≅ 38 socios 2 B  2002  2 σr + 0, 706 +   4N  4 × 750  Necesitamos al menos 43 socios para cumplir con ambos niveles de error. „ 4.3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. En el modelo lineal simple Y = a + bX , el método de mínimos cuadrados permite estimar a y b de la siguiente forma: 69 n sxy S xy bˆ = 2 = 2 = sx Sx ∑ ( y − y )( x − x ) i i =1 i n ∑(x − x ) i =1 2 i ˆ aˆ = y − bx donde 4.3.1 S x2 = 1 n 2 ( xi − x ) ∑ n − 1 i =1 sx2 = 1 n 2 ( xi − x ) ; ∑ n i =1 S xy = 1 n ∑ ( xi − x )( yi − y ) n − 1 i =1 sxy = 1 n 1 n x − x y − y = ( )( ) ∑ i ∑ xi yi − x y i n i =1 n i =1 Estimación de la media y el total poblacionales ˆ + bˆµ = y + bˆ ( µ − x ) µˆ yL = aˆ + bˆµ x = y − bx x x • ESTIMADOR DE LA MEDIA: • S2  N −n VARIANZA ESTIMADA DE µˆ yL : Vˆ (µˆ yL ) = L   n  N  siendo S L2 la varianza residual en el modelo lineal simple: ( ( 1 n S = ∑ yi − y + bˆ ( xi − x ) n − 2 i =1 2 L )) 2 2 n  2 sxy =  sy − 2 n − 2  sx  n 2 s y (1 − rxy2 )  = 2 n −  • ESTIMADOR DEL TOTAL: τˆ yL = Nµˆ yL • VARIANZA ESTIMADA DE τˆyL : Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL ) Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población N. No se puede estimar como τˆ yL = aˆ + bˆτ x ya que la recta de regresión no pasa por el punto (τ x ,τ y ) . Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a)) Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 70 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el límite para el error de estimación. Solución Denotamos Y = " ventas diaria (euros)"; X = " gastos diarios en publicidad (euros)" Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: n = 18 establecimientos N = 1.000 establecimientos µ x = 5€ x = 5, 0556€ y = 138,889€ sx = 1, 6375 ⇒ sx2 = 2, 6814 n 2 s y = 20,314 ⇒ s y2 = 412, 654 S y2 = s y = 436,928 n −1 sxy = 27, 7284 La relación entre las variables es fuerte: rxy = 0,8336 . ( µˆ yL = y + bˆ µ x − x ) s 27, 7284 ↓ bˆ = xy2 = = 10,341 2, 6814 sx µˆ yL = 138,314€ S L2 = n −1 2 S y (1 − rxy2 ) = 141, 6 n−2 Bµ = 2 Vˆ ( µˆ yL ) = 5,56 τˆyL = N µˆ yL = 138.314€ S2  N − n  Vˆ ( µˆ yL ) = L   = 7, 73 n  N  Bτ = N × Bµ = 1.000 × 5,56 = 5.560€ „ 4.3.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere la magnitud B 71 n= Nσ L2 σ L2 + ND donde para estimar: • la media: D = • el total: D= B2 4 B2 4N 2 σ L2 se estima utilizando una muestra previa (tamaño n' ): σˆ L2 = S L2 Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b)) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución n= Nσ L2 σ L2 + N 2 B 4N 2 = 1000 ×141, 6 = 361, 6 ≅ 362 establecimientos.  10002  141, 6 +  1000  4 × 10002   „ 4.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno. (y = a+ x ó y = y + ( x − x) a = y − x = d ) Comúnmente se emplea en procedimientos de auditoría. 4.4.1 Estimación de la media y el total poblacionales µˆ yD = y + (µ x − x ) = µ x + d • ESTIMADOR DE LA MEDIA: • S2  N −n VARIANZA ESTIMADA DE µˆ yD : Vˆ (µˆ yD ) = D   n  N  d = y−x 2 2 1 n 1 n ( ( ) ) ( y − x + d = d i − d ) , donde d i = y i − xi , por tanto S D2 es la ∑ ∑ i i n − 1 i =1 n − 1 i =1 cuasivarianza de los di . S D2 = • 72 ESTIMADOR DEL TOTAL: τˆ yD = Nµˆ yD • VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD ) Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a)) Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. (Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de diferencia) Solución Y = "gasto diario (euros)" Denotamos  "  X = "ingresos diarios (euros) Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: N = 200 establecimientos n = 10 establecimientos  x = 516€ y = 453,5€   sx = 115, 797 sx2 = 13.409 ⇒   s = 115, 738 s y2 = 13.395,3 ⇒  y  S 2 = 14883, 7  y  sxy = 13.396,5 La relación entre las variables es muy fuerte: rxy = 0,99958 µ x = 500€ rxy2 = 0,99916 . MUESTREO ALEATORIO SIMPLE S y2 = 14883, 7 µˆ = y = 453,5€ 2 y τˆ = Ny = 90.700€ ˆ µˆ ) = S  N − n  = 1.413,94 V(   n N  ˆ µˆ ) = 75,20€ Bµ = 2 V( Bτ = 200 × Bµ =15.040,97€ 73 ESTIMADORES DE RAZÓN r= y = 0,879 x 2 Sr = τ x = 200µ x = 100.000 τˆy = rτ x = 87.900€ µˆ y = r µ x = 439,5€ n 1 n 1  n 2 2 n 2 2 y rx y r x r xi yi − = + − 2 ( ) ∑ i i n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 S2  N − n  Vˆ ( µˆ y ) = r   = 21, 63 n  N  ⇒   = 227, 717  Bµ = 9,3€ Bτ = N × Bµ =1.860€ ESTIMADORES DE REGRESIÓN ( µˆ yL = y + bˆ µ x − x ) s 13.396,5 ↓ bˆ = xy2 = = 0,99907 13.409 sx µˆ yL = 437,515€ τˆyL = N µˆ yL = 87.503€ n −1 2 S y (1 − rxy2 ) = 14, 05 n−2 S2  N − n  Vˆ ( µˆ yL ) = L  ⇒  = 1,33 n  N  S L2 = Bµ = 2,3104€ Bτ = NBµ = 462, 09€ ESTIMADORES DE DIFERENCIA µˆ yD = µ x + d µˆ yD ↓ d = −62,5 = 437,5€ τˆyD = N µˆ yD = 87.500€ (con la calculadora hallamos σ n −1 sobre las diferencias di y lo elevamos al cuadrado) ( 1 n S = ∑ di − d n − 1 i =1 2 D S2  N − n  Vˆ ( µˆ yD ) = D   = 1,1875 n  N  ) 2 = 12,5 Bµ = 2 Vˆ ( µˆ yD ) = 2,179 Bτ = NBµ = 435,8899 4.4.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales n= 74 Nσ D2 σ D2 + ND „ donde para estimar: • • B2 la media: D = 4 el total: B2 D= 4N 2 σ D2 se estima utilizando una muestra previa (tamaño n' ): σˆ D2 = S D2 Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b)) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución Nσ D2 200 × 12,5 n= = = 20 establecimientos 2 B 3002 2 σD + N 12,5 + 4N 2 4 × 200 „ EJERCICIOS RESUELTOS 1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000 Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. SOLUCIÓN (trabajaremos en cientos de euros) xi yi xi yi xi2 yi2 240 125 57.600 15.625 30.000 310 150 96.100 22.500 46.500 200 100 40.000 10.000 20.000 360 175 129.600 30.625 63.000 1110 550 323.300 78.750 159.500 75 n N = 500 n = 4 r = ∑y i =1 n i ∑x i =1 = 550 = 0, 4955 τ y = rτ x = 0, 4955 × 150.000 = 74.325 cientos de € 1110 i τ y = 7.432.500 € 2 n 1 n 1  n 2 2 n 2  62, 2 2 S = y r x r xi yi  = + − = 20, 73 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  3 n − 1 i =1 n − 1  i =1 i =1 i =1  2 r Sr2 = 1.285, 4667 2 V (τ y ) = 2.267,568 V (τ y ) = N ( N − n) n τ y ∈ ( 72.057, 432 ; 76.592,568 ) en cientos de € Para expresarlo en € hay que multiplicarlo por cien. 2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: x = 9,1; 25 ∑x y = 2, 6; i =1 2 i = 2240; 25 ∑y i =1 2 i = 169; 25 ∑x y i =1 i i = 522 Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) n N = 275 n = 25 r = ∑x i =1 n ∑y i =1 2 S r2 = i = 2 x = 3,5 pers./ hab. µ y2 ≅ y = 2, 62 = 6, 76 y i n 1 n 1  n 2 2 n 2  xi + r ∑ yi − 2r ∑ xi yi  = 27,34375 ( xi − ryi ) = ∑ ∑  n − 1 i =1 n − 1  i =1 i =1 i =1  1 ( N − n) S r2 V (r ) = 2 = 0,1471 µy N n 2 V (r ) = 0, 767 3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla 76 m3 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. SOLUCIÓN: y = consumo de m3 litros de agua, X x = tamaño de la parcela en hectáreas x2 Y 50 150 60 70 100 120 80 60 90 60 840 600 1800 750 900 1100 1400 950 700 1000 720 9920 2500 22500 3600 4900 10000 14400 6400 3600 8100 3600 79600 y2 360000 3240000 562500 810000 1210000 1960000 902500 490000 1000000 518400 11053400 xy 30000 270000 45000 63000 110000 168000 76000 42000 90000 43200 937200 n r= y ∑ i =1 n i x ∑ i =1 = 9920 = 11'81 m3 / hectarea 840 i n 1 n 1  n 2 2 n 2  2 y + r x − r xi yi  = 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  n − 1 i =1 n − 1  i =1 i =1 i =1  1 = (11053400 + 11102297 '56 − 22136664 ) = 2114 '84 9 S r2 = 840 = 84 10 1 N − n Sr2 1 240 2114 '84 V (r ) = 2 = 2 = 0 '02877 µ x N n 84 250 10 µx = x = 2 V (r ) = 0 '3392 4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 77 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. Obtenga el límite para el error de estimación. SOLUCIÓN: Denotemos por Y = " consumo mensual" X = "ingresos mensuales" De la información muestral obtenemos n = 12 12 ∑y i =1 i = 16.808 euros i = 22.629,46 euros 12 ∑x i =1 y como información auxiliar sabemos que τ x = 1.502.530 euros. s xy Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy = sx s y = 0,9677 ). Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar, en concreto utilizaremos estimadores de razón. 12 r = ∑ yi ∑ xi i =1 12 i =1 = 0, 7427 τˆ y = r τ x = 1 .1 1 6 .0 0 2 , 0 7 € τ2 S  N −n Vˆ (τˆY ) = x2 r  µ x n  N  2 ↓ No conocemos N , pero en la ciudad hay muchos hogares, observando 12 ∑ x < ( 5% τ ) i =1 N −n ≅1 N ↓ estimamos que n < ( 5% N ) ⇒ ↓ µ x = x = 1.885, 79€ 2 ↓ Sr = 12 1 12 1  12 2 2 12 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 Vˆ (τˆY ) = 871.825.002, 67 78 ⇒   = 16.479, 7  B = 2 Vˆ (τˆY ) = 59.053,37€ i x 5 (Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. SOLUCIÓN: N=250, n=5, µ x = 12764 , X=gastos, Y=ingresos (con las funciones del modo SD de la calculadora) : µ yD = µ x + d = 13396 € V (τ yD ) = N 2 d = 632 S D2 = 4095,5 τ yD = N µ yD = 3349000 € N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n 2 V (τ yD ) = 14166,14 € 6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. SOLUCIÓN: N=123, n=5, τ x = 128200 € , X=del año anterior, Y=del año actual (con las funciones del modo SD de la calculadora) : x = 882 5 ∑ xi = 4410 i =1 y = 924 5 ∑y i =1 i = 4620 xi yi 335500 561600 2400000 1050600 372000 5 ∑ xi2 = 4495700 i =1 5 ∑y i =1 2 i = 4961400 5 ∑x y i =1 i i = 4719700 79 n r= y ∑ i i =1 n x ∑ 2 y = 1, 047619 x τ y = rτ x = 134304, 76 € i i =1 Sr = = 5 1 5 1  5 2 2 5 2 2 y r x r xi yi + − 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1  i =1 i =1 i =1 V (τ y ) = N ( N − n ) Sr2 = 4761314, 071 n   = 1640, 25  2 V (τ y ) = 4364, 09 τ y ∈ (129940, 67 , 138668,85 ) 7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de Ventas la campaña actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño de la muestra para estimar τˆY con un límite para el error de estimación de 2.000€, cuando se utiliza el estimador de razón. SOLUCIÓN: N=452, n’=5, X=ventas antes, Y=ventas actuales (con las funciones del modo SD de la calculadora) : x = 331, 6 5 ∑ xi = 1658 i =1 y = 355, 6 5 ∑y i =1 i = 1778 xi yi 49712 171200 207680 71484 127413 5 ∑ xi2 = 587146 i =1 5 ∑y i =1 2 i = 671034 5 ∑x y 5 r= yi ∑ i =1 5 x ∑ i =1 80 i = y = 1, 072376 x i =1 i i = 627489 2 Sr = D= 5 1 5 1  5 2 2 5 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n '− 1  ∑ ∑ ∑ i i n '− 1 i =1 i =1 i =1 i =1   = 109, 4775  2 B2 = 4,8947 σ r = Sr2 = 109, 4775 2 4N n= Nσ r2 = 21,3 ≈ 22 ND + σ r2 81 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 5.4 Determinación del tamaño muestral. 5.1 Selección de una muestra sistemática. Usos. Ventajas. En el muestreo aleatorio simple, la selección de los elementos se efectúa con total aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran los N elementos de la población y después se seleccionan al azar los n elementos que han de formar la muestra. Esto, en general, complica el proceso de selección de la muestra. En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k elementos de la población. 2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . En general, k se toma como el número entero menor o igual que el cociente k≤ N : n N n Nos podemos encontrar con las siguientes situaciones: 1. k = N entero. Entonces se obtienen exactamente n observaciones. n Por ejemplo si N = 100 y n = 5 , entonces k = 20 y aún tomando la ultima observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º. 2. N no es entero. Veámoslo con un ejemplo. n Por ejemplo si N = 103 y n = 5 , entonces N = 20,6 y tomamos k = 20 . Según el n punto inicial nos podemos encontrar con estas situaciones: a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos: 2º, 22º, 42º, 62º, 82º, ... 82 Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay problema de coste podríamos elegir también el 102º y la muestra sería de tamaño 6. b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una muestra de tamaño 5: 18º, 38º, 58º, 78º, 98º 3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. N se estima por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será mayor o igual de lo requerido. Ventajas del muestreo sistemático frente al aleatorio simple: • En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números aleatorios fueran consecutivos o muy próximos). Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N. Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar la muestra ( n = 50 ) • Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población, mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una zona y descuide otras. Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se fabrican correctamente y los últimos 500 son defectuosos por un problema en la maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un orden en la población, el muestreo sistemático es mejor que el m.a.s. 83 Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. 5.2 Estimación de la media, proporción y el total poblacionales 1 n ∑ yi+( j −1) k n j =1 • ESTIMADOR DE LA MEDIA POBLACIONAL: µˆ = ysy = • VARIANZA ESTIMADA DE y sy : S2  N −n Vˆ ( y sy ) =   n  N  Comentarios. - Si se desconoce el tamaño poblacional por su gran magnitud, entonces - Cuando N no es múltiplo exacto de n , el estimador es sesgado. N −n ≅ 1. N Como se puede observar la varianza estimada del estimador de la media es igual que en el muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no implica que las varianzas reales sean iguales: V (y) = σ2 N −n n N −1 y V ( y sy ) = σ2 n [1 + (n − 1)ρ ] donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática. El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional. • ESTIMADOR DEL TOTAL POBLACIONAL: τˆ = Ny sy • VARIANZA ESTIMADA DE τˆ : S2  N −n Vˆ (τˆ ) = N 2Vˆ ( y sy ) = N 2   n  N  Ejemplo 5.1 (Ejercicio 3, relación tema 5) Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los 84 funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 18 i =1 i =1 ∑ y i = 4.868; 2 ∑ y i = 1.321.450 Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado. Establezca un límite para el error de estimación. Solución τˆ = Ny sy = 180 4.868 = 48.680 visitantes 18 2 2 S  N−n ˆ ˆ V (τ ) = N   n  N  ↓ N = 180 2  4868 )  ( 1.321.450 −    n  = 289, 79 ↓ S2 =  n −1 ˆ V (τˆ ) = 469.461,18 Bτ = 1.370,34   Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: • ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy = • VARIANZA ESTIMADA DE pˆ sy : 1 n ∑ yi+( j −1)k n j =1 Vˆ ( pˆ sy ) = , yi = 0, 1 pˆ sy qˆ sy  N − n    n −1  N  Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Esto no quiere decir que las varianzas reales lo sean. Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5) La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de 85 conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil 1 8 15 Respuesta 1 1 0 2794 1 400 ∑ y i = 324 i =1 Solución pˆ sy = y sy = Vˆ ( pˆ sy ) = 324 = 0,81 400 pˆ sy qˆ sy  N − n  0,81(1 − 0,81)  2.800 − 400   =   = 0,000330612 ⇒ B = 0,0364 400 − 1  2.800  n −1  N    Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento del muestreo sistemático. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del m.a. simple. Según las expresiones V (y) = σ2 N −n n N −1 éstas serán similares cuando σ V (y ) = [1 + (n − 1)ρ ] n 2 y sy N −n ≅ 1 y ρ ≅ 0 , pero en otros casos no. N −1 Distinguimos los siguientes casos: A. Población ordenada (ρ ≤ 0 ) Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo con los valores, crecientes o decrecientes, de una determinada característica. En este caso es preferible el uso del muestreo sistemático, ya que la muestra se extiende uniformemente a lo largo de la población: 86 V ( y sy ) ≤ V ( y ) Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el m. sistemático). B. Población aleatoria (ρ ≅ 0 ) Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que V ( y sy ) ≅ V ( y ) . Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante. C. Población periódica (ρ ≥ 0 ) Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que V ( y sy ) > V ( y ) . Por ejemplo: a. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. b. Ventas diarias de un supermercado con k = 7 Para evitar este problema, el investigador puede cambiar varias veces el punto de inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del m.a.s. en el m. sistemático estaría justificado. 87 5.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene despejando el tamaño muestral de la ecuación: 2 V ( ysy ) = B Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no tendremos problemas. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación n=  B2  4 para estimar la media  con D =   B2  para estimar el total  4N 2 Nσ 2 ( N − 1) D + σ 2 Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación n=  B2 para estimar p  4  con D =   2  B para estimar el total  4N 2 Npq (N − 1)D + pq Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5) En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. Solución p = 0,81 n= q = 1 − p = 0,19 5.000 × 0,81× (1 − 0,81) Npq = = 1.176,97 ≅ 1.177 automóviles 2 B  0, 022  ( N − 1) + pq  (5.000 − 1)  + ( 0,81× (1 − 0,81) ) 4 4   k≤ 88 N = 4, 25 n Si tomáramos k=5 ⇒ n = 5000 5000 = 1000 . Tomando k=4 ⇒ n = = 1250 ≥ 1177 . 5 4   EJERCICIOS RESUELTOS 1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑y i =1 i = 110 Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN 110 0, 052 N = 2.000 p = = 0,55 q = 1 − p = 0, 45 D = = 0, 000625 200 4 Npq N n= = 330, 7 ≈ 331 k ≤ = 6, 04 ⇒ k = 6 ( N − 1) D + pq n 2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. SOLUCIÓN 21.0002 1.000.0002 = = = 250.000 27.562.500 D 42 4 × 1.0002 Nσ 2 N n= = 99,39 ≈ 100 k = = 10 2 ( N − 1) D + σ n N = 1.000 R = 21.000 σ 2 ≅ 89 3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. SOLUCIÓN 1 n 1 µˆ = ysy = ∑ yi = 11.561.610 = 1.926.935 n i =1 6 S2  N −n Vˆ ( y sy ) =   n  N  ↓ N = 26 años ↓ S 2 = 37.913.412.871,20 Vˆ ( y sy ) = 4.860.693.957,85 B = 139.437,35 4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas. Cantidad de llenado en cl 33 32,5 33,5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. SOLUCIÓN: N=1800, n’=6, (con las funciones del modo SD de la calculadora) : S n2' −1 = 0,8 D= 90 B2 = 0, 0441 4 n= Nσ 2 = 17,97 ≈ 18 ( N − 1) D + σ 2 k= σ 2 = Sn2'−1 1800 = 100 18 5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN: N=650, n’=65, p = B = 0, 05 n= 47 = 0, 7231 65 q = 1 − 0, 7231 = 0, 2769 B2 D= = 0, 000625 4 Npq = 214,8 ≈ 215 ( N − 1) D + pq k≤ 650 = 3, 02 215 k =3 91 6. Muestreo por conglomerados. 6.1 6.2 6.3 6.4 Necesidad y ventajas del muestreo por conglomerados. Formación de los conglomerados. Conglomerados y estratos. Estimación de la media, proporción y total poblacionales. Determinación del tamaño muestral. 6.1 Necesidad y ventajas del muestreo por conglomerados. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: ƒ Es complicado disponer de una lista de los elementos de la población, mientras que es fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase = elemento, aulas = conglomerados) ƒ El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos. 6.2 Formación de los conglomerados. Conglomerados y estratos. Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos dentro de un conglomerado presentan características similares, entonces tomar muchas observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados recogería gran cantidad de información sobre un parámetro poblacional. Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe diferir tanto como se pueda de otro con respecto a la característica que está siendo medida. Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea posible y un conglomerado debe ser muy similar a otro para que el muestreo por conglomerados esté indicado. Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de conglomerados. 6.3 Estimación de la media, proporción y total poblacionales. Vamos a utilizar la siguiente notación: N = conglomerados en la población. n = conglomerados en la muestra. 92 mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i N M = ∑ mi = elementos en la población (con frecuencia es desconocido) i =1 n m = ∑m i = elementos en la muestra i =1 1 N mi = tamaño medio de los conglomerados de la población (con frecuencia es ∑ N i =1 desconocido). 1 n m = ∑m i = tamaño medio de los conglomerados de la muestra (se n i =1 M= utililza para estimar M . (A) Estimación de la media. El estimador de la media poblacional µ es la media y , n 1 n µ = y = ∑ yi = m i =1 ∑y i =1 n i ∑m i =1 i La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón. V ( y) = 1 N − n Sc2 2 N n M donde Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 ( M puede ser estimado por m , si se desconoce) La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ). El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( m1 = m2 = ... = mN ) Notas: • La expresión de V ( y ) = 1 N − n Sc2 no se suele simplificar pues como ocurre en el 2 N n M ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en este último ejemplo porque M es desconocido y M debe ser estimada por m . 93 • Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción poblacional p y de la proporción muestral p . En este caso al número total de elementos en el conglomerado i que poseen la característica de interés se nota como ai en lugar de yi como es habitual en variables numéricas. Así tendremos que n p= y= ∑a i =1 n i ∑m i =1 i Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. (B) Estimación del total. De la relación entre la media y el total poblacional µ = τ M se sigue que τ = M µ , siendo el estimador del total poblacional τ τ =My y la varianza estimada del mismo V (τ ) = M 2 V ( y ) = N ( N − n) Sc2 n (sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor del estimador del total) (C) Estimación del total cuando se desconoce el tamaño de la población. Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del total τ = M y , debemos construir un estimador del total que no dependa de M . La cantidad yt = 1 n ∑ yi , es el promedio de los totales de los conglomerados de la muestra y por tanto un n i =1 estimador insesgado del promedio de los N totales de los conglomerados de la población. Por el mismo razonamiento empleado en el muestreo aleatorio simple, N y t es un estimador insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total poblacional τ . 94 En resumen τ t = N yt St2 V (τ t ) = N V ( y t ) = N ( N − n) n 2 1 n N − n St2 , St2 = donde V ( y t ) = ∑ yi − y t n − 1 i =1 N n ( ) 2 Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados, la varianza de N y t es generalmente mayor que la varianza de M y . Esto es debido a que el estimador N y t no usa la información proporcionada por los tamaños de los conglomerados y por ello puede ser menos preciso. Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden, además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y también es insesgado el estimador de su varianza, V ( y ) (lo mismo se extiende al total). Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una urbanización ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. 95 SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados mi yi mi2 yi2 mi yi 8 7 9 6 5 35 2 2 3 3 3 13 64 49 81 36 25 255 4 4 9 9 9 35 16 14 27 18 15 90 n p= y= a) ∑y i i =1 n ∑m ( ∑ yi − ymi i =1 n ) 2 Sc2 = n i =1 i =1 m = 255 ∑ 2 i i =1 n = ∑ yi2 − 2 y ∑ yi mi + y n y = 35 ∑ 13 = 0,3714 35 2 i i =1 ( p = 37,14% i i =1 n = 1 n ∑ yi − ymi n − 1 i =1 ) 2 = 2 n m = 3,3222 ∑ i =1 n ym ∑ i i =1 i 2 i = 90 3,3222 = 0,8306 4 Ya que M es desconocido, M debe ser estimada por m m= 1 n 35 m i = = 7 hogares / manzana ∑ n i =1 5 V ( y) = 1 N − n Sc2 = 0, 003305 2 N n M yt = b) 1 n 13 yi = = 2, 6 ∑ n i =1 5 (y − y ) ∑ n S = 2 t i =1 i t n −1 2 2 V ( y ) = 0,115 τ t = N y t = 520 2 1 n  y yi  − ∑ ∑  n  i =1  = i =1 = 0,3 n −1 n 11,5% 2 i V (τ t ) = N ( N − n) St2 = 2.340 n ( 423, 25 , 616, 75 ) 2 V (τ t ) = 96, 75 c) τ = M y = 557,14 96 M= 1500 = 7,5 200 V ( y) = 1 N − n Sc2 = 0, 0028795 2 N n M V (τ ) = M 2 V ( y ) = 6478,8 2 V (τ ) = 160,98 ( 396,16 , 718,12 ) Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c), debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0, 08 ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. 6.4 Determinación del tamaño muestral. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B n= donde σ c2 se estima mediante Sc2 = B2 M D= 4 Nσ c2 ND + σ c2 ( 1 n ∑ yi − ymi n − 1 i =1 2 para la estimación de la media y D = ) 2 de una muestra previa, siendo B2 para la estimación del total. 4N 2 Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. Cuando se utiliza N y t para estimar el total, el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por n= D= Nσ t2 ND + σ t2 1 n B2 2 2 S = y σ se estima mediante ∑ yi − y t t t n − 1 i =1 4N 2 ( 2 ) 2 de una estimación del rango de los valores de yi como σ t = de una muestra previa (o a partir R2 ). 16 Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 97 SOLUCIÓN 2 B2 M 0, 012 × 7 2 = = 0, 001225 D= 4 4 1 n 35 M ≅ m = ∑m i = =7 n i =1 5 S = 0,8306 2 c n= Nσ c2 = 154, 4 ≈ 155 ND + σ c2 EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. SOLUCIÓN mi yi 10 8 11 7 36 13 9 15 8 45 mi2 yi2 mi yi 100 169 130 64 81 72 121 225 165 49 64 56 334 539 423 n M = 6.200 N = 700 y= ∑y i =1 n ∑m i =1 σ c2 ≅ Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) n= 98 2 = i = 1, 25 D = B2 = 0, 01 4N 2 i n n 2 1  n 2  2 y y m y mi yi  = 1,125 + − 2 ∑ ∑ ∑ i i  n − 1  i =1 i =1 i =1  Nσ c2 = 96,92 ≈ 97 ND + σ c2 2. (Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. SOLUCIÓN: a) N = 57 n=5 mi yi 51 62 49 73 101 336 42 53 40 45 63 243 mi2 2601 3844 2401 5329 10201 24376 yi2 1764 2809 1600 2025 3969 12167 mi yi 2142 3286 1960 3285 6363 17036 n p= ∑y i =1 n ∑m i =1 Sc2 = ( 1 n ∑ yi − pmi n − 1 i =1 ) 2 = i = 243 = 0, 7232 ⇒ p = 72,32% 336 i n 2 n 1  n 2  y p y m p mi2  = 68, 7 − + 2 ∑ ∑ ∑ i i i  n − 1  i =1 i =1 i =1  2  336  M ≈m =  = 4515,84  5  1 N − n Sc2 = 0, 00278 V ( p) = 2 N n M b) 2 2 2 V ( p) = 0,1054 ⇒ 10,54% 2 B2 M 0, 052 × 4515,84 = = 2,8224 D= 4 4 σ ≈S 2 c 2 c Nσ c2 = 17, 06 ≈ 18 n= ND + σ c2 99 3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. 100 NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i , supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos ( ) estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta por la dificultad de trabajar con cantidades muy grandes) n µ=y= ∑y i i =1 n ∑m ( ∑ yi − ymi i =1 n y − 2 y∑ y m + y ∑ m ) = ∑ i =1 2 i n m =8 ∑ 2 i i =1 2 n 2 y = 96.000 ∑ i =1 1.329.000 = 8.801,32 € / residente 151 i i =1 n = 2 n 2 i i =1 2 i i n i =1 2 i + ... = 82.039.000.000 + ... = 1.047 n y m = ( 96.000 × 8 ) + ... = 8.403.000 ∑ i =1 i Sc2 = i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = 15.227.502.247 = 634.501.213, 40 24 Ya que M es desconocido, M debe ser estimada por m m= 1 n 151 m i = = 6, 04 residente / bloque ∑ n i =1 25 V ( y) = 1 N − n Sc2 = 653.785,19 2 N n M 2 V ( y ) = 1.617,14€ b) yt = 1 n 1.329.000 yi = = 53160 € / bloque ∑ n i =1 25 τ t = N y t = 22.061.400 € 101 (y − y ) ∑ n i =1 i 2 t 2 1 n 1  y − ∑ yi  = 82.039.000.000 − (1.329.000) 2 = 11.389.360.000 = ∑ 25 n  i =1  i =1 n 2 i (y − y ) N ( N − n) ∑ n V (τ t ) = i i =1 2 t n −1 n 2 V (τ t ) = 3.505.584, 04 € = 3.072.279.860.000 c) N = 415 n = 25 M= 2500 = 6, 0241 415 Sc2 = 634.501.213, 40 V ( y) = τ = M y = 22.003.311, 26€ 1 N − n Sc2 = 657.240,9482 2 N n M V (τ ) = M 2 V ( y ) = 4.107.755.926.250 2 V (τ ) = 4.053.519,92 (17.949.791,34€ , 26.056.831,18€ ) Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0, 0919 ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. d) 2 S = 634.501.213, 40 2 c B2 M 5002 × 6, 042 = = 2.280.100 D= 4 4 Nσ c2 = 166,58 ≈ 167 n= ND + σ c2 4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si 102 (a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite del error de estimación. (b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población, por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas. yi (y − y ) 1 2 9 0 2 0 1 0 4 6 25 2.25 0.25 42.25 6.25 0.25 6.25 2.25 6.25 2.25 12.25 80.5 i 2 t 25 τ t = 85 × 2.5 = 212.5 bajas = 2.5 bajas / empresa 10 80.5  85 − 10  8.94 St2 = = 8.94 ⇒ V ( y t ) =  = 0.7892157 ⇒ V (τ t ) = 852 V ( y t ) = 5702.08  9 85 10   yt = Bτ = 2 5702.08 = 151.024 bajas b) p= V ( p) = 4 = 0.40 (40%) 10 85 − 10 0.4 × 0.6 = 0.02353 85 10 − 1 B = 2 0.02353 = 0.3068 (30.68%) 5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 103 Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. SOLUCIÓN: mi yi 121550 143400 153090 n ∑m y i =1 N = 60 n=3 n i =1 i = 418040 i n 3600 = 60 60 M= ∑y i n ∑y = 7030 i =1 ∑ mi = 178 i =1 n ∑m i =1 2 i = 10594 = 16501100 2 i n y=µ= y ∑ i =1 n ∑ m i =1 2 Sc = ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = i = 39, 49 € i n n 2 1  n 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1   = 2612,04  1 N − n Sc2 = 0, 23 2 V ( y ) = 0, 96 € 2 N n M 6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado V ( y) = por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33,5 32,5 31 34 2 32,5 32 33 32,5 3 30,5 33 33 33,5 Estime el volumen medio de los envases y la cota del error de estimación. SOLUCIÓN: N=40, n=3, mi 4 4 4 yi 131 130 130 mi yi 524 520 520 3 ∑m y i i =1 (con las funciones del modo SD de la calculadora) : M =m=4 3 ∑m i =1 104 i = 12 3 ∑m i =1 2 i = 48 i = 1564 5 5 ∑ yi = 391 y t = 130,33 ∑y i =1 2 i i =1 = 50961 5 y=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 32,5833 cl m i ( 1 3 ∑ yi − ymi n − 1 i =1 ) 2 = 3 3 2 1  3 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 0, 006423 V ( y) = 2 N n M   = 0,3333  2 V ( y ) = 0,1603 cl 7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. SOLUCIÓN: N=100, n=5, mi yi 150 770 2530 1260 120 n ∑m y i =1 i i = 4830 (con las funciones del modo SD de la calculadora) : M = m = 6, 4 n ∑ mi = 32 i =1 n ∑m i =1 2 i = 264 105 n n ∑ yi = 590 y t = 118 ∑y i =1 2 i i =1 = 90700 5 y=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 18, 4375 € m i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 2, 7116 V ( y) = 2 N n M   = 584,57  2 V ( y ) = 3, 2934 € 8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: Nº votantes Nº votantes A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. SOLUCIÓN: N=495, n=5, mi yi 877200 738270 399000 1514700 651832 n ∑m y i =1 106 i i = 4181002 (con las funciones del modo SD de la calculadora) : n ∑ mi = 6301 M = m = 1260, 2 i =1 n ∑y y t = 638, 6 i =1 i = 3193 n ∑m i =1 n ∑y i =1 = 8270161 2 i 2 i = 2183195 5 p=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 0,506745 m i ( 1 n ∑ yi − ymi n − 1 i =1 V ( p) = ( 50, 67% ) ) 2 = n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 0, 00216573 2 N n M 2 V ( y ) = 0, 0930748   = 17372,505  ( 9,31% ) 107 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 7.1 Estimación del tamaño de la población usando muestreo directo En el muestreo directo se realizan los siguientes pasos: 1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la población. 2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de antemano) de la misma población y se observa cuántos de ellos están marcados ( s =número de elementos marcados en esta 2ª muestra) Sea p = proporción de elementos marcados en la población, p = t t , N= , pero p es N p desconocido. Entonces estimamos p mediante la proporción muestral: pˆ = s = proporción de elementos marcados en la 2ª muestra n Por tanto, • ESTIMADOR DE N : t t nt = Nˆ = = pˆ s / n s • VARIANZA ESTIMADA DE Nˆ : t 2 n( n − s ) Vˆ Nˆ = s3  n, t = constantes     s = aleatoria  ( ) Comentarios ƒ s = número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún elemento marcado, se aumenta el tamaño muestral. ƒ Nˆ no es un estimador insesgado de N : [ ] (N − t) E Nˆ = N + N ≠N nt Cuanto mayor sean n y t menor será el sesgo N 108 (N − t) . nt ƒ Nˆ tiende a sobreestimar el valor real de N . Ejemplo 7.1 (Ejercicio 1, relación tema 7) Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución nt 120 ×100 = 444, 4 Nˆ = = s 27 t 2 n(n − s ) 1002 × 120(120 − 27) ˆ ˆ = = 5.669,87 V N = s3 273 ( ) ( ) B = 2 Vˆ Nˆ = 150, 60   7.2 Estimación del tamaño de la población usando muestreo inverso La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está fijado (es aleatorio), lo que se fija es s = número de elementos marcados en la segunda muestra. Los pasos para realizar este método son: 1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la población. 2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos marcados (sea n el tamaño final de dicha muestra). • ESTIMADOR DE N : t t nt = Nˆ = = pˆ s / n s • VARIANZA ESTIMADA DE Nˆ : t 2 n( n − s ) Vˆ Nˆ = 2 s ( s + 1)  t , s = constantes     n = aleatoria  ( ) Comentario. Nˆ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos de muestreo se prefiere el inverso. 109 Ejemplo 7.2 (Ejercicio 5, relación tema 7) Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución nt 160 ×100 = 1.066, 67 Nˆ = = 15 s t 2 n(n − s ) 1002 ×160(160 − 15) ˆ ˆ V N = 2 = = 64.444, 44 152 (15 + 1) s ( s + 1) ( ) ( ) B = 2 Vˆ Nˆ = 507, 72   7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por cuadros Con este método se estudia el tamaño de la población contenida en un área delimitada A conocida. Los pasos a seguir son: 1. Dividir a la población en N cuadros de igual área a . Sea mi = número de elementos en el cuadro i -ésimo 2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total de elementos que contiene la muestra: n m = ∑ mi i =1 3. Calcular la densidad de elementos en la muestra (densidad muestral): λˆ = nº elementos en la muestra m = área de la muestra na 4. La densidad poblacional es λ= nº elementos en la población M M = = área de la población Na A entonces M = Aλ . Por tanto: • 110 ESTIMADOR DE LA DENSIDAD: λˆ = m na • VARIANZA ESTIMADA DE λˆ : m 1 Vˆ (λˆ ) = 2 2 = λˆ na a n • ESTIMADOR DEL TAMAÑO POBLACIONAL: m Mˆ = Aλˆ = A na • VARIANZA ESTIMADA DE Mˆ : A2 m Vˆ ( Mˆ ) = A 2Vˆ (λˆ ) = 2 2 a n Ejemplo 7.3 (Ejercicio 3, práctica 7) La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: Nº del cuadro Número de aficionados en el cuadro Nº del cuadro Número de aficionados en el cuadro 1 193 11 160 2 216 12 220 3 250 13 163 4 163 14 306 5 209 15 319 6 195 16 289 7 232 17 205 8 174 18 210 9 215 19 209 10 198 20 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. 111 Solución: a) a = 10 × 10 = 100 λˆ = m 4324 = = 2,162 na 20 ×100 λˆ 2,162 Vˆ (λˆ ) = = = 0, 001081 ⇒ B = 2 0, 001081 = 0, 066 na 2000 λ = 2,162 aficionados m 2 (2, 096 , 2, 228) b) A = 300 × 100 = 30.000 m 2 Mˆ = Aλˆ = 30.000 × 2,162 = 64.860 aficionados B = ABλ = 30.000 × 0, 066 = 1.980 (62.880 , 66.840)   7.3.2 Muestreo en el espacio temporal En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo con un ejemplo. Ejemplo 7.4 (Ejercicio 7, relación tema 7) Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del error de estimación. Solución A = 8 horas= 480 minutos λ= n =12 intervalos 114 = 1,9 personas / minuto 5 × 12 A2 m Vˆ ( Mˆ ) = 2 2 = 7.296 ⇒ B = 170,8 an a = 5 minutos m =114 personas m Mˆ = A = 912 personas na   7.3.3 Cuadros cargados En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza cuando después de hecha la división son muchos los cuadros que no contienen elementos y otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy pequeña. Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos un elemento objeto de estudio. 112 Los pasos a seguir son: 1. Se divide a la población en N cuadros de igual área a . 2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total de cuadros no cargados de la muestra, a este número de cuadros sin presencia de elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el tamaño muestral 3. La densidad poblacional se estima como 1  y λˆ = − ln   a n y su varianza como 1 n− y Vˆ (λˆ ) = 2 a ny Dado que M = Aλ obtenemos • ESTIMADOR DEL TAMAÑO POBLACIONAL: A  y Mˆ = Aλˆ = − ln  a n • VARIANZA ESTIMADA DE Mˆ : A2 n − y Vˆ ( Mˆ ) = 2 a ny Ejemplo 7.5 (Ejercicio 4, práctica 7) Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución A = 24-6=18 horas=1.080 minutos y =18 intervalos sin autobuses n = 40 intervalos a =10 minutos A  y 1.080  18  ln   = 86, 24 Mˆ = − ln   = − 10 a n  40  A2 n − y 1.0802 40 − 18 Vˆ ( M ) = 2 = = 356, 4 ⇒ B = 37,8 102 40 ⋅18 a ny   113 EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. SOLUCIÓN: m 2,8 × 10 = = 5, 6 arb. infectados / acre ; a) λˆ = na 10 × 0,5 1 1 Vˆ (λˆ ) = λˆ = 5, 6 = 1,12 ⇒ B = 2,1 na 10 × 0,5 b) Mˆ = Aλˆ = 200 × 5, 6 = 1.120; B = ABλ = 200 × 2,1 = 423,32 2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control Número de vehículos de ese modelo que usan el aparcamiento 1 0 2 1 3 2 4 0 5 3 Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. Dé el límite del error de estimación. SOLUCIÓN: A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m = M = λ A = 1.2 × 720 = 864 veh. 114 6 m = 1.2 λ = = 1.2 veh./ h 5 a ( ) V M = A2 λ = 124416 an B = 2 124416 = 705.45 veh. 3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos periodos de igual duración, obteniendo los datos de la siguiente tabla clientes 10:00-10:30 15 14:00-14:30 13 18:00-18:30 18 22:00-22:30 8 02:00-02:30 2 06:00-06:30 4 Estime el número de clientes diarios de la farmacia observada y el correspondiente límite para el error de estimación. SOLUCIÓN: A = 24h a = 0.5h N = 48 n = 6 m = 60 m = 10 M = λA = ( ) m A 2 λ A2 m A = 480 clientes V M = = 2 = 3840 a an an ( ) 2 V M = 123,94 clientes 4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que el número de personas era 1.100. Estime el número total de asistentes y el límite para el error de estimación. SOLUCIÓN: A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55 M = λA = m A = 5500 a ( ) V M = A 2 λ A2 m = 2 = 27500 an an ( ) 2 V M = 331, 66 5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la 115 Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. SOLUCIÓN: muestreo inverso t = 500 n = 382 s = 100 N= t p ( ) = V N = nt = 1910 alumnos s t 2 n( n − s ) = 26664,35643 s 2 ( s + 1) (1910 ∓ 326,58 ) 116 ( ) 2 V N = 326,58 alumnos 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 8.1 Introducción Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los objetivos de este capítulo son: o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de una variable económica se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de Florence). 8.2 Medidas de desigualdad-concentración regional En esta sección se estudian medidas de desigualdad o concentración que indican si la magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz), o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva). 8.2.1 Curva de Lorenz. Índice de Gini. (Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1) Recordaremos lo más importante y lo ilustraremos con un ejemplo. N i son las frecuencias absolutas acumuladas. pi = Ni es la frecuencia relativa acumulada. ( N =número total de datos) N ui =son los totales acumulados. 117 qi =son los totales acumulados relativos. La comparación entre los valores pi y qi nos informa sobre la concentración en el reparto. Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo, coincidirían para todos los i. • En caso de equidistribución ( pi = qi ∀i ), la curva de Lorenz coincide con la bisectriz del primer cuadrante. • En caso de concentración máxima (todos los individuos reciben nada, qi = 0, i = 1,..., k − 1 , salvo uno que recibe todo, qk = 1 ), la curva de Lorenz coincide prácticamente con los catetos del triángulo determinado por los puntos (0,0), (1,0) y (1,1). • Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como k −1 IG = ∑ ( pi − qi ) i =1 k −1 ∑p i =1 k −1 = 1− i ∑q i =1 k −1 i ∑p i =1 i • 0 ≤ I G ≤ 1 . Si hay equidistribución I G = 0 . Si hay concentración máxima I G = 1 . • Este índice es invariante frente a cambios de escala pero no frente a cambios de origen. • No permite un análisis desagregado como los índices que estudiamos a continuación. Ejemplo 8.0 Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): VAB Regiones (u.m.) R1 2460,5 R2 619,0 R3 613,2 R4 1150,0 R5 1865,0 R6 437,1 R7 661,9 Calcule el índice de Gini y represente la curva de Lorenz. 118 VAB 437,1 613,2 619,0 661,9 1150,0 1865,0 2460,5 7806,7 qj ui 437,1 1050,3 1669,3 2331,2 3481,2 5346,2 7806,7 nj 0,0560 0,1345 0,2138 0,2986 0,4459 0,6848 1,0000 2,8337 pj Ni 1 1 1 1 1 1 1 7 1 2 3 4 5 6 7 0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000 4,0000 k −1 IG = 1 − ∑q i =1 k −1 i ∑p i =1 = 1− 1,8337 = 0,3888 3 i 1 0,9 0,8 0,7 q 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000 p 8.2.2 Coeficiente de Theil. Índice de Theil. N El coeficiente de Theil se basa en la entropía o medida del desorden, H N ( x) = −∑ xi ln xi , j =1 para cuantificar el parecido o la diferencia entre sí de los datos a analizar. Supongamos una población divida en N regiones o estratos distintos. Cada una de las regiones aporta un valor de una variable económica X, X ≥ 0 Regiones Xi xi 1 X1 x1 N XN xN N ∑X j =1 i 1 119 Donde xi = proporciones de la variable respecto del total= Xi N ∑X i =1 i N El coeficiente de Theil es, por definición, T = ln N + ∑ xi ln xi i =1 Nota Si algún xi = 0 , por definición tomamos xi ln xi = 0 . Ejemplo 8.1 Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): Xi Regiones VAB (u.m.) R1 2460,5 R2 619,0 R3 613,2 R4 1150,0 R5 1865,0 R6 437,1 R7 661,9 7806,7 xi xi ln xi 0,315 0,079 0,079 0,147 0,239 0,056 0,085 1 -0,364 -0,201 -0,200 -0,282 -0,342 -0,161 -0,210 -1,760 el coeficiente de Theil es: T = ln 7 − 1, 760 = 0,1859 .   Propiedades N 1. Si existe equidistribución entonces −∑ xi ln xi = ln N y T = 0 i =1 N 2. Si existe concentración máxima entonces −∑ xi ln xi = 0 y T = ln N j =1 3. 0 ≤ T ≤ ln N (En el ejemplo 8.1, T es más cercano a 0 que a ln7=1,946, por tanto, está más cerca de la equidistribución que de la concentración máxima). 4. El coeficiente de Theil permite un análisis desagregado. Sea X = variable observada en las N regiones y x1 ,..., xN = valores porcentuales (proporciones) en cada región. Supongamos que X se agrupa en k grupos: G1 ,..., Gk , con N1 ,..., N k regiones en cada uno de ellos: k ∑N g =1 Entonces 120 g = N , xg = ∑x, i∈Gg i g = 1,..., k y Tg = ln N g + ∑ i∈Gg xi  xi  ln   . xg  xg  k  x T = ln N + ∑ xg ln  g N g =1  g  k  + ∑ xg Tg  g =1 donde o k  x ln N + ∑ xg ln  g N g =1  g   representa la desigualdad entre grupos. Mide la disparidad  entre grupos teniendo en cuenta el tamaño de cada grupo N g en relación al peso del grupo xg en la variable económica observada. k o ∑x T g =1 g g representa la desigualdad dentro de los grupos. Es la media de los coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo. Ejemplo 8.2 Realicemos un análisis desagregado con los datos del ejemplo 8.1. Supongamos que dividimos las regiones en dos grupos: Regiones grupo 1 R2 R3 R6 R7 xi x( g =1) Regiones grupo 2 R1 R4 R5 0,079 0,079 0,056 0,085 = ∑ xi =0, 299 i∈G1 xi x( g = 2) 0,315 0,147 0,239 = ∑ xi =0, 701 i∈G2 Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente coeficiente de Theil: Tg = ln N g + ∑ i∈Gg donde xi  xi  ln   xg  xg  xi es el valor porcentual dentro del grupo. xg 121 xi Regiones grupo 1 R2 R3 R6 R7 xi x( g =1) 0,079 0,079 0,056 0,085 x( g =1) = 0,299 0,264 0,264 0,187 0,284 xi  xi  ln   xg  xg  -0,352 -0,352 -0,314 -0,358 1 -1,375 T1 = ln 4 − 1,375 = 0, 0113 xi Regiones grupo 2 R1 R4 R5 xi x( g = 2) 0,315 0,147 0,239 x( g = 2) = 0,701 0,449 0,210 0,341 xi  xi  ln   xg  xg  -0,359 -0,328 -0,367 1 -1,054 T2 = ln 3 − 1, 054 = 0, 0446 o Desigualdad entre grupos: 2  x   0, 299   0, 701  ln N + ∑ xg ln  g  = ln 7 + 0, 299 ln   + 0, 701ln  =    4   3  g =1  Ng  = 1,9459 − 0, 7755 − 1, 0192 = 0,1512 o Desigualdad dentro de los grupos: 2 ∑x T g =1 g g = 0, 299 ( 0, 0113) + 0, 701( 0, 0446 ) = 0, 0346 de esta forma: T = 0,1512 + 0, 0346 = 0,1858 En términos relativos: T 0,1512 0, 0346 = + = 0,8138 + 0,1862 = 1 0,1858 0,1858 0,1858 De la desigualdad existente en las siete regiones, el 81,38% es debido a la desigualdad entre grupos. Si tuviésemos que tomar medidas económicas para disminuir, aún más, la desigualdad, actuaríamos en esa dirección, tratando de limar las diferencias entre los dos grupos (esta es una de las ventajas del análisis desagregado, permite determinar el origen de las diferencias existentes entre las regiones). 122   Índice de Theil N IT = ITHEIL T = = ln N ln N + ∑ xi ln xi i =1 ln N N = 1+ ∑ x ln x i i =1 i ln N Es evidente que 0 ≤ ITHEIL ≤ 1 , y este hecho facilita comparaciones. El 0 indica equidistribución y el 1 concentración máxima. Ejemplo 8.3 ITHEIL = 0,186 = 0, 0956 ln 7 Reparto cercano a la equidistribución.   8.2.3 Desigualdad individual y desigualdad colectiva El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al colectivo. Para una variable X , que solo toma valores positivos, se define la desigualdad individual de la región i-ésima respecto al colectivo como: di = x − Xi x = − 1, i = 1,..., N Xi Xi Es una medida adimensional. Indica la proporción en que el colectivo supera a la región iésima X i < x ⇔ la región i-ésima posee una desigualdad individual positiva X i > x ⇔ la región i-ésima posee una desigualdad individual negativa X i = x ⇔ la región i-ésima posee una desigualdad individual cero Ejemplo 8.4 Regiones R1 R2 R3 R4 R5 R6 R7 Xi VAB (u.m.) 2460,5 619 613,2 1150 1865 437,1 661,9 7806,7 di -0,547 0,802 0,819 -0,030 -0,402 1,551 0,685 2,878 123 x= 7806, 7 = 1115, 243 7   Si se agregan las desigualdades individuales, ponderadas cada una de ellas por la frecuencia relativa de X i , se obtiene la desigualdad colectiva: N D = ∑ di fi i =1 D aumenta cuando en la población existen mayores desequilibrios. Sin embargo, no existe una cota superior para D ya que su máximo depende del tamaño de la población. Ejemplo 8.5 Con los datos del ejemplo 8.4: 7 D = ∑ di fi = i =1 1 7 2,878 di = = 0, 411 ∑ 7 i =1 7 (Realmente, por si sola no dice nada, pero la podemos comparar con el reparto de otra variable).   Esta medida permite un análisis desagregado. Denotemos por: N → Número de elementos en la población (regiones) x → Media de todos los elementos de la población. k → Número de subpoblaciones o grupos. N g → Número de elementos en el grupo g , g = 1,..., k xg → Media del grupo g Dg = dg = ∑ xg − X i i∈Gg x − xg xg Xi fi → Desigualdad colectiva en el grupo g → Desigualdad individual del grupo g en relación a todos los grupos (toda la población). D , entonces, se puede calcular como suma de la desigualdad existente entre los grupos considerados más una media ponderada de las distintas desigualdades colectivas dentro de cada grupo o subpoblación: D= 124 1 N k ∑d g =1 g Ng + x N k ∑D g =1 g Ng xg 1 N o x N o k ∑d g =1 g N g → Representa la desigualdad entre las subpoblaciones o grupos. k ∑D g =1 g Ng xg → Representa la desigualdad dentro de las subpoblaciones o grupos. Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo. Ejemplo 8.6 Regiones grupo 1 R2 R3 R6 R7 x1 = i∈G1 x1 − xi 1 x −x 1 fi = ∑ 1 i = 0,106 = 0, 0265 xi 4 i∈G1 xi 4 x − x1 1115, 243 − 582,8 = = 0,9136 582,8 x1 Regiones grupo 2 R1 R4 R5 x2 = VAB (u.m.) 2460,5 1150 1865 5475,5 x2 − xi xi -0,258 0,587 -0,021 0,308 5475,5 = 1825,167 3 D2 = ∑ i∈G2 d2 = -0,058 -0,050 0,333 -0,120 0,106 2331, 2 = 582,8 4 D1 = ∑ d1 = VAB (u.m.) 619 613,2 437,1 661,9 2331,2 x1 − xi xi x2 − xi 1 x −x 1 f i = ∑ 2 i = 0,308 = 0,1027 xi 3 i∈G2 xi 3 x − x2 1115, 243 − 1825,167 = = −0,389 1825,167 x2 Resumiendo: x= 7806, 7 = 1115, 243 7 125 Grupos 1 2 Ng xg 4 3 582,8 1825,167 Dg dg 0,0265 0,1027 0,9136 -0,389 Dg Ng xg dg Ng 0,000182 0,000169 0,000351 3,6544 -1,167 2,4874 1   1115, 243  0, 000351 = 0,355 + 0, 056 = 0, 411 D =  2, 4874  +  7 7    0,355 0, 056 + = 0,8637 + 0,1363 = 1 0, 411 0, 411 En términos relativos, La desigualdad es debida a la diferencia entre subpoblaciones o grupos.   8.3 Medidas de dispersión regional En general, se puede utilizar cualquier medida de dispersión para estudiar las disparidades entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser considerada homogénea). Las más utilizadas son: o Varianza: V ( X ) = 1 N N ∑( X i =1 i − x) 2 o Varianza normalizada: VN ( X ) = V (X ) 2 = ( coef. de variacion de Pearson ) 2 x Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o polarizadas), les pueden corresponder una misma dispersión. 8.4 Coeficiente de asociación geográfica de Florence Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y , cuando se dispone de un valor de cada una de ellas en cada una de las N regiones consideradas para el estudio. Supuestos conocidos para cada una de las regiones el par ( X i , Yi ) , entonces la participación de cada valor de la variable sobre el total es: xi = Xi e yi = N ∑X i =1 i Yi N ∑Y i =1 i  0 ≤ xi , yi ≤ 1   N  N  ∑ xi = ∑ yi = 1   i =1  i =1  El coeficiente de asociación geográfica de Florence es: F = 1 − 126 1 N ∑ xi − yi 2 i =1 Sus propiedades son: 1. 0 ≤ F ≤ 1 2. En situación de igualdad, xi = yi , i = 1,..., N ⇒ F = 1 . 3. En situación de desigualdad máxima ⇒ F = 0. 4. A medida que aumenta la asociación entre las variables, el coeficiente también aumenta. Ejemplo 8.7 (Ejercicio 1, Relación Tema 8) Sabemos que en un año el PIB a precios de mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. PIB (u.m.) 2 Superficie (1000 km ) xi yi xi − yi Alemania 826,4 248,7 0,2558 0,1104 0,1454 Bélgica 104,5 30,5 0,0323 0,0135 0,0188 76,4 43,1 0,0236 0,0191 0,0045 España 216,2 504,8 0,0669 0,2240 0,1571 Francia 674,8 544 0,2089 0,2414 0,0325 Grecia 42,8 132 0,0132 0,0586 0,0453 165,3 41,2 0,0512 0,0183 0,0329 Inglaterra 595 244,1 0,1842 0,1083 0,0759 Irlanda 24,1 68,9 0,0075 0,0306 0,0231 Italia 473 301,3 0,1464 0,1337 0,0127 Luxemburgo 4,7 2,6 0,0015 0,0012 0,0003 27,3 92,1 3230,5 2253,3 0,0085 1 0,0409 1 0,0324 0,5810 Dinamarca Holanda Portugal Total F = 1− 1 12 1  xi − yi = 1 −  0,5810  = 0, 7095 ∑ 2 i =1 2    127 EJERCICIOS RESUELTOS 1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: xi = Xi región Xi N ∑X i =1 R1 R2 R3 R4 suma 80 15 100 50 245 ln xi i 0,3265 0,0612 0,4082 0,2041 1,0000 N T = ln N + ∑ xi ln xi = 0,1597 -1,1192 -2,7932 -0,8961 -1,5892 IT = ITHEIL = i =1 xi ln xi -0,3655 -0,1710 -0,3658 -0,3243 -1,2266 T = 0,1152 ln N 2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: x = 61,25 Región R1 R2 R3 R4 suma N N i =1 i =1 D = ∑ di fi = ∑ di 128 di = Xi 80 15 100 50 245 x −1 Xi -0,2344 3,0833 -0,3875 0,2250 2,6865 1 1 N 2, 6865 = ∑ di = = 0, 6716 4 4 i =1 4 3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 80 350 R1 15 70 R2 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. Solución: región Xi xi = Yi Xi ∑X i =1 R1 R2 R3 R4 suma F = 1− 80 15 100 50 245 350 70 450 250 1120 yi = N i 0,3265 0,0612 0,4082 0,2041 1,0000 Yi N ∑Y i =1 i 0,3125 0,0625 0,4018 0,2232 1,0000 xi − yi 0,01403 0,00128 0,00638 0,01913 0,0408 1 N ∑ xi − yi = 0,97959 2 i =1 129 9. Medidas de localización espacial. 9.1 9.2 9.3 9.4 9.5 Introducción. Cocientes de localización y especialización. Coeficientes de localización sectorial. Coeficientes de especialización regional. Coeficientes de diversificación. 9.1 Introducción Las medidas de localización espacial son indicadores que miden la actividad de distintos sectores económicos en un conjunto de regiones en referencia a una variable económica. Consideremos un conjunto de L sectores repartidos en N regiones. Dispondremos de una tabla de doble entrada con las regiones por filas y los sectores por columnas: Región/Sector S1 S2 SL Yi i R1 Y11 Y12 Y1L Y1i R2 Y21 Y22 Y2 L Y2 i RN YN 1 YN 2 YNL YN i Yi j Yi1 Yi 2 Yi L Y siendo Yij → valor de la variable en la región i del sector j, i = 1,..., N ; j = 1,..., L L Yi i = ∑ Yij → suma de los valores de todos los sectores en la región i j =1 N Yi j = ∑ Yij → suma de los valores de todas las regiones en el sector j i =1 N L N L i =1 j =1 i =1 j =1 Y = ∑ Yi i = ∑ Yi j = ∑∑ Yij → suma de los valores de todas las regiones y todos los sectores. Ejemplo 9.1 (lo usaremos a lo largo de todo el tema) Sea Y = VAB al coste de los factores (u.m.) 130 Región/Sect Agricultura R1 282 R2 31 R3 117,9 R4 145,8 Total (Sect) 576,7 Industria 723,6 294,6 1.526,9 390,5 2.935,6 Servicios 1.454,9 287,6 2.497,6 42,7 4.282,8 Total (Reg) 2.460,5 613,2 4.142,4 579 7.795,1   9.2 Cocientes de localización y especialización Yij Yi j → participación de la región i en el sector j (cocientes de los valores de la columna j sobre su total) Yi i → participación de la región i en la población (cocientes de los valores de la columna Y marginal sobre su total) Yij Yi i → participación del sector j en la región i (cocientes de los valores de la fila i sobre su total) Yi j Y → participación del sector j en la población (cocientes de los valores de la fila marginal sobre su total) Se define el cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) como: Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Interpretación de la primera igualdad: Es la relación que existe entre la participación del sector j en la región i y la participación del sector j en el total. (Localización del sector j). Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la región i en el sector j y la participación de la región i en el total. (Especialización de la región i) Si Lij < 100 : o existe una menor actividad del sector j en la región i que en toda la población ó o existe una menor participación de la región i en el sector j que en toda la población 131 Si Lij > 100 : o existe una mayor actividad del sector j en la región i que en toda la población ó o existe una mayor participación de la región i en el sector j que en toda la población Ejemplo 9.2 Con los datos del ejemplo 9.1. L13 = Y13 / Yi3 1.454,9 / 4.282,8 100 = 100 = 107, 64 2.460,5 / 7.795,1 Y1i / Y El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está más especializada en servicios que en el conjunto de todas las actividades. Los cocientes de localización (o especialización) para estos datos son: Región/Sect Agricultura Industria R1 154,916 78,091 R2 68,333 127,572 R3 38,471 97,878 R4 340,370 179,088 Por columnas se interpreta los cocientes de localización Servicios 107,623 85,365 109,740 13,423 de los respectivos sectores: la actividad agrícola está más asentada en la R4, la industrial en la R4 y los servicios en la R3. Por filas se interpreta los cocientes de especialización de cada región: La R1 está más especializada en agricultura, la R2 en industria, la R3 en servicios y la R4 en agricultura. NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9.1 compárese con los anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en términos relativos.   9.3 Coeficientes de localización sectorial Para cada sector se puede definir una medida que permite conocer su localización en el conjunto de las regiones consideradas. Se trata de conocer si un sector concreto se distribuye por igual en todas las regiones, si sólo se encuentra localizado en una región o si ocurre alguna situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). El coeficiente de localización del sector j-ésimo se define como: CL j = Propiedades 1. 0 ≤ CL j ≤ 1 132 1 N Yij Yi i ∑ − , 2 i =1 Yi j Y j = 1,..., L 2. CL j = 0 si la participación de la región i en el sector j es igual a la participación de la región i en el total, y eso ocurre en todas las regiones. Es decir, no existe concentración regional de la actividad j. El sector está presente en cada una de las regiones igual que todos los sectores en conjunto (véase ejercicio resuelto 1). 3. CL j = 1 si las diferencias entre los cocientes Yij Yi j y Yi i son altamente significativas, la Y presencia del sector j en cada una de las regiones es completamente distinta de la presencia de todos los sectores en conjunto (véase ejemplo 9.4). Este coeficiente caracteriza al sector i dentro del marco regional, pero no implica una nota definitoria en ninguna región en especial. Ejemplo 9.3 Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los ejemplos anteriores) Agricultura Industria R1 282 723,6 R2 31 294,6 R3 117,9 1526,9 R4 145,8 390,5 Total (Sect) 576,7 2935,6 Agricultura Yi1 Yi i Yi1 − Yi1 Y Yi1 0,489 0,054 0,204 0,253 1 0,173 0,025 0,327 0,179 0,704 Servicios 1454,9 287,6 2497,6 42,7 4282,8 Industria Yi 2 Yi i Yi 2 − Yi 2 Y Yi 2 0,246 0,100 0,520 0,133 1 0,069 0,022 0,011 0,059 0,161 Total (Reg) 2460,5 613,2 4142,4 579 7795,1 Yi i Y 0,316 0,079 0,531 0,074 1 Servicios Yi 3 Yi i Yi 3 − Yi 3 Y Yi3 0,340 0,067 0,583 0,010 1 0,024 0,012 0,052 0,064 0,152 1 CLAg = 0, 704 = 0,352 2 1 CLInd = 0,161 = 0, 0805 2 1 CLServ = 0,152 = 0, 076 2 Existe una cierta concentración, aunque no muy alta en la agricultura. La concentración es débil en servicios e industria.   133 Ejemplo 9.4 Calcule los coeficientes de localización sectorial para los siguientes datos S1 S2 R1 0 1 R2 0 1 R3 1000 0 S1 S2 Yi i Yi i / Y R1 0 1 1 0,001 R2 0 1 1 0,001 R3 1000 0 1000 0.998 Yi j 1000 2 Y=1002 Yij / Yi j S1 S2 R1 0 0,5 R2 0 0,5 R3 1 0 S1 S2 R1 0,001 0,499 R2 0,001 0,499 R3 0,002 0,998 Yij Yi j − Yi i Y CL1 = 0, 002 CL2 = 0,998 9.4 Coeficientes de especialización regional Para cada región se puede definir una medida que permita conocer su nivel de especialización en algún sector. Se trata de conocer si una región concreta está especializada en alguna actividad, en todas las actividades por igual o bien se da una situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). Se define el coeficiente de especialización de la región i como: 134 CEi = 1 L Yij Yi j ∑ − , i = 1,..., N 2 j =1 Yi i Y Propiedades 1. 0 ≤ CEi ≤ 1 2. CEi = 0 si en la región i está presente cada sector en la misma proporción que en el conjunto de la población. 3. CEi = 1 cuando existe un alto grado de especialización de la región i. Situación análoga a la de CL j = 1 pero referida a regiones en lugar de a sectores. Ejemplo 9.5 Región/Sect Agricultura R1 282 R2 31 R3 117,9 R4 145,8 Total (Sect) 576,7 Agricultura Yi j Y Y1 j Y1i Y1 j − Y1i Yi j Y Y2 j Y2 i Y2 j Y2 i − Yi j Y Y3 j Y3i Y3 j Y3i − Yi j Y Y4 j Y4 i Y4 j Y4 i − Yi j Y Industria 723,6 294,6 1526,9 390,5 2935,6 Industria Servicios 1454,9 287,6 2497,6 42,7 4282,8 Servicios Total (Reg) 2460,5 613,2 4142,4 579 7795,1 0,074 0,377 0,549 1 0,115 0,294 0,591 1 0,041 0,083 0,042 0,165 0,051 0,480 0,469 1 0,023 0,104 0,080 0,208 0,028 0,369 0,603 1 0,046 0,008 0,054 0,107 0,252 0,674 0,074 1 0,178 0,298 0,476 0,951 R1 R2 R3 R4 135 1 1 CER1 = 0,165 = 0, 0825; CER2 = 0, 208 = 0,104; 2 2 1 1 CER3 = 0,107 = 0, 0535; CER4 = 0,951 = 0, 4755 2 2 La región más especializada es la R4.   9.5 Coeficientes de diversificación Este coeficiente mide el grado de diversificación de las actividades de una región. El grado de diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye uniformemente entre los distintos sectores. Si una región tiene un bajo coeficiente de diversificación es porque su producción se concentra mucho en un determinado sector y por tanto dicha producción está poco diversificada. La diversificación de una región será mínima cuando una sola actividad esté presente en ella. Para la región i-ésima, la varianza correspondiente a los valores Yi1 , Yi 2 ,..., YiL de la variable en los L sectores 1 L  1 L S = ∑ Yij2 −  ∑ Yij  L j =1  L j =1  2 2 i podría considerarse una medida de tal diversificación. Si existe diversificación máxima, es decir, todos los sectores tienen el mismo valor (Y ij j = 1,..., L ) entonces = cte, 2 L  L  1 L 1 L  S = 0 ⇒ ∑ Yij2 = 2  ∑ Yij  ⇒ L ∑ Yij2 =  ∑ Yij  L j =1 L  j =1  j =1  j =1  2 2 i Teniendo en cuenta esto, el coeficiente de diversificación de la región i se define como: 2  L   ∑ Yij  Yi i2 j =1   = L CDi = , L 2 2 L∑ Yij L ∑ Yij j =1 y verifica i = 1,..., N j =1 1 1 ≤ CDi ≤ 1 , alcanzando si la diversificación es mínima y 1 si la diversificación L L es máxima. Para normalizar este coeficiente entre cero y uno, se define CDi* = 136 L  1  CDi −  . L −1  L Ejemplo 9.6 2  3   ∑ Yij  2.460,52 j =1 CDR1 =  3  = = 0, 742 2 2 2 3 282 723, 6 1.454,9 + + 2 ( ) 3∑ Y1 j j =1 CDR 2 = 0, 735; CDR 3 = 0, 666; CDR 4 = 0, 636 CDR*1 = 0, 61; CDR* 2 = 0, 6025; CDR* 3 = 0, 499; CDR* 4 = 0, 454 La menos diversificada es la región R4.   EJERCICIOS RESUELTOS. 1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones Siderurgia I II III 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos REGION R1 R2 R3 S1 15 10 6 SECTOR S2 S3 165 30 110 20 66 12 S4 195 130 78 137 Participación de las regiones en cada sector y en la población total REGION R1 R2 R3 S1 0,4839 0,3226 0,1935 SECTOR S2 S3 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935 S4 población 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935 Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población SECTOR S2 S3 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 S1 0,0370 0,0370 0,0370 0,0370 S4 0,4815 0,4815 0,4815 0,4815 Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3 S1 100,00 100,00 100,00 S2 100,00 100,00 100,00 S3 100,00 100,00 100,00 S4 100,00 100,00 100,00 Coeficientes de localización sectorial SECTOR S2 S3 S1 CL j 0 0 S4 0 0 Coeficientes de especialización regional CEi REGION R1 R2 R3 0 0 0 Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3 0,6178 0,6178 0,6178 0,49 0,49 0,49   2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. 138 b) Calcule los coeficientes de especialización para cada comunidad. Solución: Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas. datos REGION R1 R2 R3 R4 Y.j S1 10000 3000 19000 15000 47000 SECTOR S2 S3 Yi. 65000 20000 95000 18000 14000 35000 30000 8000 57000 60000 90000 165000 173000 132000 352000 Calculamos la participación de las regiones en cada sector población Yij Yi j y la participación en toda la Yi i en la siguiente tabla Y participación región SECTOR REGION S1 S2 S3 población R1 0,2128 0,3757 0,1515 0,2699 R2 0,0638 0,1040 0,1061 0,0994 R3 0,4043 0,1734 0,0606 0,1619 R4 0,3191 0,3468 0,6818 0,4688 suma 1 1 1 1 Calculamos la participación de los sectores en cada región población Yi j Y Yij Yi i y la participación en toda la en la siguiente tabla participación sector SECTOR REGION S1 S2 S3 suma R1 0,1053 0,6842 0,2105 R2 0,0857 0,5143 0,4000 R3 0,3333 0,5263 0,1404 R4 0,0909 0,3636 0,5455 población 0,1335 0,4915 0,3750 1 1 1 1 1 A partir de la tabla de participación de las regiones calculamos las diferencias en valor Y Y absoluto ij − i i en la siguiente tabla. La suma de cada columna dividida por dos nos da Yi j Y el coeficiente de localización sectorial CL j = REGION R1 R2 R3 R4 CLj 1 N Yij Yi i ∑ − , 2 i =1 Yi j Y Coeficientes de localización sectorial SECTOR S1 S2 S3 0,0571 0,1058 0,0356 0,0046 0,2423 0,0115 0,1496 0,1219 0,2423 0,1219 j = 1,..., L 0,1184 0,0066 0,1013 0,2131 0,2197 139 A partir de la tabla de participación de los sectores calculamos las diferencias en valor Y Y absoluto ij − i j en la siguiente tabla. La suma de cada fila dividida por dos nos da el Yi i Y coeficiente de especialización regional CEi = 1 L Yij Yi j ∑ − , i = 1,..., N 2 j =1 Yi i Y Coeficientes de especialización regional SECTOR REGION S1 S2 S3 R1 0,0283 0,1927 0,1645 R2 0,0478 0,0228 0,025 R3 0,1998 0,0348 0,2346 R4 0,0426 0,1278 0,1705 CEi 0,192733 0,047808 0,234649 0,170455   3. (ejercicio 5, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: REG./SEC. R1 R2 Yi j S1 15 6 S2 225 90 S3 195 78 21 315 273 Yi i 435 174 609 Yij Yi j S1 S2 S3 0,7143 0,7143 0,7143 0,2857 0,2857 0,2857 1 1 1 R1 R2 suma Yij Yi j − Yi i Y R1 R2 CL j = Yi i Y 1 N Yij Yi i ∑ − 2 i =1 Yi j Y S1 S2 0,7143 0,2857 1 S3 0 0 0 0 0 0 0 0 0 La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 140 4. (ejercicio 6, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: REG./SEC. R1 R2 Yi j S1 60 24 S2 225 90 S3 150 60 84 315 210 Yi i 435 174 609 Yij Yi i S1 S2 S3 0,1379 0,5172 0,3448 0,1379 0,5172 0,3448 R1 R2 suma 1 1 Yi j Y Yij Yi i − 0,1379 0,5172 0,3448 Yi j Y R1 R2 1 CEi = S1 S2 0 0 S3 0 0 1 L Yij Yi j ∑ − 2 j =1 Yi i Y 0 0 0 0 La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia de cada sector en el conjunto del país (todas las regiones). Cada región se especializa en la misma medida que el conjunto del país. 5. (ejercicio 7, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. R1 R2 S1 90 36 S2 300 120 S3 195 78 Yi i2 Yi i 585 234 342225 54756 141 Yij2 R1 R2 L S1 S2 S3 ∑Y j =1 8100 1296 90000 14400 2 ij CDi = Yi i2 L L∑ Y j =1 38025 136125 6084 21780 2 ij CDi* = 0,838016529 0,838016529 L  1  CDi −  L −1  L 0,75702479 0,75702479 6. (ejercicio 8, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. R1 R2 2 ij Y R1 R2 S1 90 30 S2 0 30 0 30 90 90 L S1 S2 S3 ∑Y j =1 8100 900 0 900 0 900 Yi i2 Yi i S3 2 ij 8100 2700 CDi = 8100 8100 Yi i2 L L∑ Y j =1 2 ij CDi* = 0,333333333 1 L  1  CDi −  L −1  L 0 1 En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto ocurre cuando una sola actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30). 142 10. Contrastes χ2 de Pearson. 10.1 Contrastes χ de bondad de ajuste. 10.2 Contrastes χ 2 de independencia. 10.3 Contrastes χ 2 de homogeneidad. 2 10.1 Contraste χ 2 de bondad de ajuste. Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de probabilidad dada. Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X dividida en k clases exhaustivas y mutuamente excluyentes: S1, S2, ..., Sk El contraste a realizar es: H0: X sigue una distribución de probabilidad conocida. ni=nº de observaciones en la clase i-ésima. Ei=npi=nº esperado de observaciones en la clase i-ésima bajo H0. Definimos el estadístico: k χ =∑ 2 i =1 ( n − Ei ) i 2 Ei Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla como sigue: ni pi = P [ x ∈ Si ] bajo H 0 Ei = npi ( ni − Ei ) 2 ( ni − Ei ) 2 Ei S1 n1 p1 np1 ( n1 − E1 ) 2 ( n1 − E1 ) 2 E1 . . . . . . . . . . . . . . . . . . Sk nk pk npk ( nk − Ek ) n 1 n 2 ( nk − Ek ) 2 Ek χ2 Se puede demostrar que bajo H0, χ 2 → χ k2−1 (NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado. Véase ejemplo 10.3). Si existe una concordancia perfecta entre las frecuencias que se observan y las que se esperaban, el estadístico tendrá un valor cero, y no se puede rechazar H0, tampoco se rechaza 143 si las diferencias son pequeñas. Por otro lado, si el estadístico toma un valor grande es que hay discrepancia entre unas y otras frecuencias y habrá que rechazar H0. Fijado un nivel de significación α , rechazamos H0 si χ 2 > χ k2−1,1−α Acepto H0 Rechazo H0 1−α α χ k2−1,1−α Ejemplo 10.1 (ejercicio 1, relación tema 10) ▼ El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). Solución ni L M X J V 144 49 35 32 39 45 200 1 (distribución discreta uniforme) 5 H1: las frecuencias no son todas iguales. H0: p1 = p2 = p3 = p4 = p5 = pi bajo H 0 1/5 1/5 1/5 1/5 1/5 1 Ei = npi ( ni − Ei ) 40 40 40 40 40 200 81 25 64 1 25 2 ( ni − Ei ) 2 Ei 2,025 0,625 1,6 0,025 0,625 χ 2 = 4,9 χ k2−1,1−α = χ 4,2 0'95 = 9, 49 (4,9<9,49) no existe razón para creer que el número de empleados que acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana. ▄ Condición de validez del test. Si los valores Ei son pequeños, χ 2 puede hacerse grande sin razón. Este contraste es apropiado siempre que Ei > 5 ∀i . Si esto no ocurre tendríamos que combinar clases vecinas, pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la distribución del estadístico. Ejemplo 10.2 (ejercicio 2, relación tema 10) ▼ En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 ) Solución X=nº de llegadas al cajero/día. H0: X → P (0,9) En las tablas de la Poisson se buscan las probabilidades pi = P [ X = i ] i = 0,...,3 ni X =0 X =1 X =2 X =3 X ≥4 pi 21 18 7 3 1 50 p4 = P [ X ≥ 4] bajo H 0 0,4066 0,3659 0,1647 0,0494 0,0134 1 Ei = npi 20,33 18,3 8,24 2,47<5 0,67<5 ≅ 50 Se agrupan la segunda, tercera y cuarta clase 145 pi ni X =0 X =1 X ≥2 bajo H 0 Ei = npi ( ni − Ei ) 0,4489 0,09 0,1444 21 18 11 0,4066 0,3659 0,2275 20,33 18,3 11,38 50 1 ≅ 50 2 ( ni − Ei ) 2 Ei 0,02208 0,004918 0,012689 χ 2 = 0, 0397 χ 32−1, 0'95 = 5,99 , luego acepto H0. No podemos rechazar que los datos provengan de una distribución de Poisson de parámetro 0,9. Esta conclusión nos permite afirmar que el cajero es muy poco utilizado ya que el nº medio de llegadas esperadas por día es menor de 1. ▄ Hasta ahora se ha contrastado la hipótesis de que los datos están generados por una distribución completamente conocida. Sin embargo, a veces sucede que queremos contrastar la hipótesis de que los datos están generados por alguna distribución (p.e. Binomial, Poisson o Normal), sin suponer que los parámetros de dicha distribución son conocidos. En tales circunstancias, los datos de que disponemos pueden utilizarse para estimar los parámetros desconocidos, pero en el contraste los grados de libertad de la chi-cuadrado se reducirán en una unidad por cada parámetro de la distribución que tenga que ser estimado. Ejemplo 10.3 (ejercicio 8, relación tema 10) ▼ Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? Solución X= personas que requieren diariamente información X= 73 = 2, 7 personas / día = λ 27 ni X X X X X X 146 =0 =1 =2 =3 =4 ≥5 pi bajo H 0 H0: X → P (2, 7) Ei = npi 2 4 5 8 5 3 0,0672 0,1815 0,2450 0,2205 0,1488 0,1370 1,8144<5 4,9005<5 6,615 5,9535 4.0176<5 3,699<5 27 1 27 ni X ≤1 X =2 X =3 X ≥4 pi bajo H 0 Ei = npi ( ni − Ei ) 2 Ei 6 5 8 8 0,2487 0,2450 0,2205 0,2858 6,7149 6,615 5,9535 7,7166 0,0761 0,3943 0,7035 0,0104 27 1 27 χ 2 = 1,1843 χ 42−1−1, 0'95 = χ 2,2 0'95 = 5,99 , (1,18<5,99) luego acepto H0. ▄ 10.2 Contraste χ 2 de independencia. Con este contraste se desea estudiar si dos características (variables aleatorias) X e Y son independientes. Para ello, las frecuencias absolutas de las parejas de datos muestrales se recogen en una tabla de doble entrada denominada tabla de contingencia X\Y B1 B2 . Bc ni• A1 n11 n12 . n1c n1• A2 n21 n22 . n2c n2• . . . . . Ar nr1 nr 2 . nrc nr • n• j n•1 n•2 . n• c n . nij = nº de elementos de la muestra que pertenecen a la categoría Ai de X y B j de Y. c ni• = ∑ n ij = nº de elementos que pertenecen a la categoría Ai de X. j =1 r n• j = ∑ n ij = nº de elementos que pertenecen a la categoría B j de Y. i =1 n = nº de elementos en la muestra. El contraste a realizar es: H0 : X e Y son independientes. H1 : X e Y no son independientes. Ejemplo 10.4 (ejercicio 9, relación tema 10) ▼ La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante 147 ≤ 30 8 12 22 42 A B C > 30 28 44 53 125 36 56 75 167 El contraste a realizar es: H0 : Tipo de producto y edad son independientes (no están asociados). H1 : No son independientes (están asociados). Si H0 fuera cierto: Eij = nº esperado de observaciones en la fila i, columna j = ni• n• j n Razonemos con el ejemplo: En la columna 2 (>30) hay un total de n•2 = 125 observaciones, bajo la hipótesis de independencia esas 125 observaciones se tienen que distribuir por filas proporcionalmente al total de cada fila A 36/167=0,215 (21,5%) B 56/167=0,335 (33,5%) C 75/167=0,449 (44,9%) Luego esperaríamos para los mayores de 30 años A 125× 0,215=125 36 n = n•2 1• =26,95 167 n B 125× 0,335=125 56 n = n•2 2• =41,92 167 n C 125 × 0,449=125 n 75 = n•2 3• =56,14 n 167 ▄ El estadístico para estos contrastes se define como: χ 2 (n = ∑ ∑ r c i =1 j =1 que tiene una distribución χ 2 → χ (2r −1)( c −1) ij − Eij ) 2 Eij bajo H 0 . Claramente, la hipótesis de independencia será rechazada cuando las diferencias entre lo observado y lo esperado sean grandes y por tanto el estadístico χ 2 tome valores grandes de acuerdo a la distribución que sigue. Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1);1−α Solución (ejemplo 10.4) En la siguiente tabla se ha colocado entre paréntesis Eij 148 ▼ nij ( Eij ) ≤ 30 A B C (n ij > 30 8 (9,05) 12 (14,08) 22 (18,86) 42 − Eij ) 28 (26,95) 36 44 (41,92) 56 53 (56,14) 75 125 167 2 Eij A B C ≤ 30 > 30 0,1218 0,3073 0,5228 0,0409 0,1032 0,1756 1,27 χ2 = (8 − 9, 05) 9, 05 2 + ... + ( 53 − 56,14 ) 2 56,14 = 1, 27 χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99 1,27<5,99 , luego acepto H0, no hay evidencia empírica para rechazar la hipótesis de independencia. ▄ Condición de validez del test: Al igual que en el anterior test de la chi-cuadrado, el contraste es válido siempre que los valores esperados sean mayores que 5, Eij = ni• n• j n > 5 ∀i, ∀j Si esto no ocurre, agruparemos dos o más clases consecutivas, bien sean de las variables X o de Y. Al agrupar las clases disminuye los grados de libertad. En todo caso los grados de libertad tienen que ser mayores que 1. Ejemplo 10.5 (ejercicio 10, relación tema 10) ▼ Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0, 05) Sueldo\Antigüedad <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 n• j 17 16 4 9 6 52 5 8 11 8 3 35 10 9 5 8 4 36 6 7 2 6 6 27 ni• 38 40 22 31 19 150 149 Solución Eij = ni• n• j n 0-500 500-1000 1000-2000 2000-3000 >3000 <5 años 5-10 10-20 >20 años 13,17 13,87 7,627 10,75 6,587 8,867 9,333 5,133 7,233 4,433 9,12 9,6 5,28 7,44 4,56 6,84 7,2 3,96 5,58 3,42 Agrupamos las dos últimas filas y las dos últimas columnas. nij (E ) <5 años 5-10 >10 años 17 (13,17) 16 (13,87) 4 (7,627) 15 (17,33) 5 (8,867) 8 (9,333) 11 (5,133) 11 (11,87) 16 (15,96) 16 (16,8) 7 (9,24) 24 (21) ij 0-500 500-1000 1000-2000 >2000 (17 − 13,17 ) χ = 2 2 13,17 ( 24 − 21) + ... + 21 2 = 13,10 χ (42 −1)(3−1);1−0,05 = χ 6;2 0,95 = 12,59 Luego existen razones para pensar que sueldos y años de antigüedad no son independientes. ▄ 10.3 Contrastes χ 2 de homogeneidad. En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal que una tabla de contingencia pero en las que la situación es diferente. Supongamos que se toman c muestras aleatorias independientes de tamaños n1 , n2 , ..., nc , respectivamente, de poblaciones B1 , ..., Bc diferentes. Después cada una de las muestras se clasifica de acuerdo a una característica A con r categorías. Los datos se expresan en una tabla como la que sigue: CATEGORIAS POBLACIONES B1 B2 . Bc A1 n11 n12 . n1c n1• A2 n21 n22 . n2c n2• . . . . . nr1 nr 2 . nrc nr • n1 n2 . nc n . Ar La tabla ahora no expresa el resultado de observaciones clasificadas según 2 variables, sino muestras independientes de c poblaciones. 150 El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones, es decir, si todas están igualmente distribuidas respecto a las categorías de A, o lo que es lo mismo, si las c muestras proceden de la misma población. H0 : Las c poblaciones son homogéneas (se distribuyen igual) El estadístico muestral es: χ 2 (n = ∑ ∑ r c i =1 j =1 que tiene una distribución χ 2 → χ (2r −1)( c −1) ij − Eij ) 2 Eij bajo H 0 . Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1);1−α Ejemplo 10.6 (ejercicio 11, relación tema 10) ▼ A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B 140 BAJA 105 135 MEDIA 140 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0, 01 ) Solución nij (E ) ij BAJA MEDIA ALTA Universidad A Universidad B 105 (122,5) 140 (137,5) 255 (240) 500 140 (122,5) 135 (137,5) 225 (240) 500 (105 − 122,5 ) χ = 2 122,5 2 ( 225 − 240 ) + ... + 245 275 480 1000 2 240 = 6,966 χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21 Luego la distribución de notas es la misma en las dos universidades. (NOTA: Sin embargo al 5% se rechazaría la hipótesis nula de que la distribución de las notas es la misma en las dos universidades, χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99 ) ▄ 151 Al igual que en los anteriores contrastes de la chi-cuadrado, este test es válido si Eij = ni• n• j n > 5 ∀i, ∀j , en caso contrario se agrupan dos o más clases de la variable A pero nunca dos o más muestras B j . EJERCICIOS RESUELTOS 1. (ejercicio 3, relación tema 10) La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución CLASES 0 1 2 3 4 5 6 7 8 9 10 11 ó más 152 ( ni − Ei ) 2 pi Ei = npi 832 203 383 525 532 408 273 139 45 27 10 11 0,04979 0,14936 0,22404 0,22404 0,16803 0,10082 0,05041 0,0216 0,0081 0,0027 0,00081 0,00029 168,6786 506,0358 759,0536 759,0536 569,2902 341,5741 170,7871 73,19446 27,44792 9,149307 2,744792 0,990438 439995,3 91830,67 141416,3 54781,11 1390,561 4412,395 10447,48 4330,369 308,0754 318,6472 52,63804 100,1913 3388 1 3388 χ2 = ni ( ni − Ei ) 2 Ei 2608,4834 181,470719 186,306125 72,1702726 2,44262314 12,9178248 61,1725646 59,1625291 11,2239988 34,8274703 19,1774227 101,15866 3350,51361 ( x = 2,99 , lo he calculado para confirmar que la hipótesis nula es lógica) Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5. CLASES 0 1 2 3 4 5 6 7 8 9 ó más ( ni − Ei ) 2 pi Ei = npi 832 203 383 525 532 408 273 139 45 48 0,04979 0,14936 0,22404 0,22404 0,16803 0,10082 0,05041 0,0216 0,0081 0,0038 168,6786 506,0358 759,0536 759,0536 569,2902 341,5741 170,7871 73,19446 27,44792 12,88454 439995,3 91830,67 141416,3 54781,11 1390,561 4412,395 10447,48 4330,369 308,0754 1233,096 3388 1 3388 χ2 = ni ( ni − Ei ) 2 Ei 2608,4834 181,470719 186,306125 72,1702726 2,44262314 12,9178248 61,1725646 59,1625291 11,2239988 95,703534 3291,05359 2 χ 9;0,95 = 16,92 . 3291,05359>16,92 luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson de media 3. 2. (ejercicio 12, relación tema 10) Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( α = 0,1 ) Solución Contraste chi-2 de Pearson de bondad de ajuste CLASES 0 1 2 3 4 5 o más Ei = npi ( ni − Ei ) 2 ( ni − Ei ) 2 ni pi 6 13 20 22 16 23 0,0334 3,34 7,0756 2,11844311 0,1135 11,35 2,7225 0,23986784 0,1929 19,29 0,5041 0,02613271 0,2186 21,86 0,0196 0,00089661 0,1858 18,58 6,6564 0,35825619 0,2558 25,58 6,6564 0,26021892 100 1 100 χ 2 Ei = 3,00381539 153 Como la frecuencia esperada es menor que 5 en la primera clase, se agrupa ésta con la clase contigua, obteniéndose CLASES 1 o menos 2 3 4 5 o más ( ni − Ei ) 2 ni pi 19 20 22 16 23 0,1469 14,69 18,5761 1,2645405 0,1929 19,29 0,5041 0,02613271 0,2186 21,86 0,0196 0,00089661 0,1858 18,58 6,6564 0,35825619 0,2558 25,58 6,6564 0,26021892 100 Buscamos en las tablas χ ( ni − Ei ) Ei = npi 2 2 k −1,1−α 1 =χ 2 4, 0'90 χ 100 2 Ei = 1,91004494 = 7, 78 . Como 1,91<7,78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. 3. (ejercicio 13, relación tema 10) El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15 Más de 15 Salarios años años años años 34 14 Bajos (<1.000€) 16 36 82 20 34 Medios (1.000€, 1.500€) 64 84 16 50 50 Altos (>1.500€) Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. X\Y B1 A1 A2 A3 n.j B2 36 64 50 150 B3 B4 16 34 50 100 14 20 16 50 ni. 34 82 84 200 100 200 200 500 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = X\Y A1 A2 A3 154 B1 ni• n• j n B2 30 60 60 B3 20 40 40 B4 10 20 20 40 80 80 Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) 2 Eij X\Y A1 A2 A3 para cada elemento de la tabla, obteniéndose: B1 B2 B3 B4 1,2 0,8 1,6 0,9 0,267 0,9 0 0,05 1,667 2,5 0,8 0,2 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado, χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 10,8833 , que hay que compararlo con el valor 2 2 2 χ (2r −1)( c −1);1−α = χ 2*3 ; 0,90 = 10, 6 . Como χ > χ ( r −1)( c −1);1−α , se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. 4. (ejercicio 14, relación tema 10) Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. X\Y A1 A2 A3 n.j B1 12 27 103 142 B2 B3 8 52 63 123 ni. 6 65 57 128 26 144 223 393 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de n n independencia según la conocida expresión Eij = i• • j n 155 X\Y B1 9,394 52,03 80,58 A1 A2 A3 B2 8,1374 45,069 69,794 B3 8,4682 46,901 72,631 Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) 2 Eij para cada elemento de la tabla, obteniéndose: X\Y B1 B2 B3 0,723 0,0023 0,7194 12,04 1,066 6,9846 6,241 0,6613 3,364 A1 A2 A3 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado, χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) Eij 2 = 31,8 , que hay que compararlo con el valor 2 2 2 χ (2r −1)( c −1);1−α = χ 2*2 ; 0,95 = 9, 49 . Como χ > χ ( r −1)( c −1);1−α , se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 5. (ejercicio 15, relación tema 10) En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4 Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. Solución x = 0, 646 , nos quedamos con un solo decimal para estimar λ = 0, 6 y buscar las probabilidades pi bajo la hipótesis nula en las tablas de la distribución de Poisson. CLASES 0 1 2 3 4 ó más 156 ( ni − Ei ) 2 ( ni − Ei ) 2 pi Ei = npi 69 42 15 4 0 0,5488 0,3293 0,0988 0,0198 0,0034 71,3455 42,8073 12,8422 2,5684 0,4365 5,5014 0,6517 4,6561 2,0494 0,1906 0,0771 0,0152 0,3626 0,7979 0,4365 130 1 130 χ2 = 1,6894 ni Ei Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5. CLASES 0 1 2 ó más χ 2 1;0,99 ( ni − Ei ) 2 ( ni − Ei ) 2 pi Ei = npi 69 42 19 0,5488 0,3293 0,1219 71,3455 42,8073 15,8472 5,5014 0,6517 9,9403 0,0771 0,0152 0,6273 130 1 130 χ2 = 0,7196 ni Ei = 6, 63 . 0,72<6,63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 6. (ejercicio 16, relación tema 10) La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: Ausencias 0-5 5-10 Más de 10 Edad 30 20 9 16-25 31 10 22 25-40 25 20 40-55 9 35 14 55-65 15 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%. Solución Edad \ Ausencias 16-25 25-40 40-55 55-65 0-5 20 10 9 15 5-10 9 22 20 14 Más de 10 30 31 25 35 n• j 54 65 121 Eij = ni• n• j n 16-25 25-40 40-55 55-65 (n ij − Eij ) Eij 16-25 25-40 40-55 55-65 0-5 5-10 Más de 10 13,275 14,175 12,150 14,400 15,979 17,063 14,625 17,333 29,746 31,763 27,225 32,267 0-5 5-10 Más de 10 3,407 1,230 0,817 0,025 3,048 1,429 1,975 0,641 0,002 0,018 0,182 0,232 ni• 59 63 54 64 240 2 157 χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) 2 Eij χ (2r −1)( c −1);1−α = χ 22×3 ; 0,99 = 16,81 = 13, 006 Como ( χ 2 = 13, 006) < ( χ (2r −1)( c −1);1−α = 16,81) , se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. Sin embargo ( χ 2 = 13, 006) > ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. (Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de significación) 7. (Ejercicio 17, relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? b) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) Tabla de contingencia SEXO * VEHICULO VEHICULO SEXO HOMBRE Recuento MUJER Frecuencia esperada Recuento MONOVOLUMEN 250 DEPORTIVO 275 247,5 262,5 240,0 750,0 80 75 95 250 82,5 87,5 80,0 250,0 330 350 320 1000 330,0 350,0 320,0 1000,0 Frecuencia esperada Recuento Total Frecuencia esperada Pruebas de chi-cuadrado Chi-cuadrado de Pearson Total TODO TERRENO 225 Valor 6,232(a) gl 2 750 Sig. asintótica (bilateral) ,044 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 80,00. nij hombres mujeres n• j 158 monovolumen deportivo todo terreno ni• 250 80 275 75 225 95 750 250 330 350 320 1000 Eij = ni• n• j monovolumen deportivo n hombres mujeres (n ij − Eij ) 247,5 82,5 monovolumen deportivo hombres mujeres χ 0,025 0,076 (n = ∑ ∑ r 262,5 87,5 240 80 2 Eij 2 todo terreno c ij i =1 j =1 − Eij ) todo terreno 0,595 1,786 0,938 2,813 2 Eij = 6,233 (la diferencia con SPSS es debida a redondeos) χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99 χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta es misma hipótesis nula con un nivel de significación del 1%. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 4,4% y se rechaza para niveles de significación mayores al 4,4%. b) VEHICULO MONOVOLUMEN N observado 330 N esperado 333,3 Residual -3,3 350 333,3 16,7 320 333,3 -13,3 DEPORTIVO TODO TERRENO Total 1000 Estadísticos de contraste Chi-cuadrado(a) VEHICULO 1,400 gl 2 Sig. asintót. ,497 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 333,3. ni monovolumen deportivo Todo terreno 330 0,33333 333,3333 350 0,33333 333,3333 320 0,33333 333,3333 1000 χ 2 k −1,1−α =χ 2 2, 0'90 Ei = npi pi 1 1000 ( ni − Ei ) 2 11,11111 277,7778 177,7778 χ2 = ( ni − Ei ) 2 Ei 0,03333333 0,83333333 0,53333333 1,4 = 4, 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 49,7%. 8. (Ejercicio 18, relación tema 10) Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 159 1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0, 05 ) Solución: ni CLASES LO DEJAN FP ESO Ei = npi pi 54 17 9 80 0,62 0,37 0,01 1 49,6 29,6 0,8 80 Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5. CLASES LO DEJAN FP-ESO χ 2 1;0,95 ni Ei = npi pi ( ni − Ei ) 2 54 26 0,62 0,38 49,6 30,4 19,36 19,36 80 1 80 χ2 = ( ni − Ei ) 2 Ei 0,39032258 0,63684211 1,02716469 = 3,84 . 1,027<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% respectivamente. 9. (Ejercicio 23, relación tema 10) La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuántos de ellos ven la televisión menos de dos horas, de dos a cuatro y más de cuatro horas. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. Solución: X\Y Menos de 2 horas De 2 a 4 horas Más de 4 horas ni i Hombre Mujer ni j 18 17 10 13 2 8 30 38 35 23 10 n=68 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = ni• n• j n Menos de 2 horas De 2 a 4 horas Más de 4 horas X\Y Hombre 4,4118 15,4412 10,1471 Mujer 19,5588 12,8529 5,5882 Juntamos las clases de 2 a 4 horas y más de 4 horas para que todas las frecuencias esperadas sean mayores que 5. 160 Frecuencias observadas Menos de 2 horas Más de 2 horas ni i Hombre Mujer ni j 18 17 12 21 30 38 35 33 Frecuencias esperadas Menos de 2 horas Hombre Mujer 15,4412 19,5588 n=68 Más de 2 horas 14,5588 18,4412 Con las frecuencias observadas nij y las frecuencias esperadas Eij de las anteriores tablas se (n calcula ij − Eij ) 2 para cada elemento de la tabla, obteniéndose: Eij (n − Eij ) ij 2 Menos de 2 horas Eij Hombre Mujer 0,424034 0,334763 Más de 2 horas 0,449733 0,355052 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado, χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 1,563581681 , que hay que compararlo con el valor χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. 161 11. Inferencia no paramétrica. 11.1 11.2 11.3 11.4 11.5 11.6 Contraste de Kolmogorov-Smirnov de bondad de ajuste. Contraste de Kolmogorov-Smirnov para 2 muestras. Contraste de Mann-Whitney. Test de las rachas. Test de los signos. Test de Wilcoxon de los signos-rangos. Los métodos estadísticos de inferencia que no requieren el conocimiento de la distribución de la variable, es decir, los métodos que son válidos cualquiera que sea la distribución que sigue la población, se conocen con el nombre de no paramétricos. Evidentemente, si no se conoce la distribución tampoco se pueden realizar inferencias sobre los parámetros, las hipótesis se refieren a la posible forma de la distribución, la aleatoriedad de la muestra, ... Para la realización de tests no paramétricos se utilizan estadísticos cuya distribución se puede obtener para cualquiera que sea la distribución de la población que se desea estudiar. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. Es un test no paramétrico mediante el cual se contrasta la hipótesis nula de que los datos observados en una muestra proceden de una población con una distribución de probabilidad, F(x), dada de antemano (se corresponde con el test de ajuste de la χ 2 ) H 0 : X → F ( x) (conocida ) • El test K-S presupone que las distribuciones sean continuas; puede emplearse también, sin embargo, con distribuciones discretas. • El test K-S es conveniente usarlo con muestras pequeñas (detecta mejor las desviaciones de la distribución normal). El test χ 2 se comporta mejor con muestras grandes, e incluso, en muestras pequeñas no es posible aplicar el test χ 2 pues no se verifican las condiciones de validez ( Ei > 5 ). Suponemos que tenemos una muestra de tamaño n. 1. Se ordenan los valores de la muestra de menor a mayor. 2. Se calcula la función de distribución real bajo H 0 : F0 ( x) = P [ X ≤ x ] 3. Se calcula la función de distribución empírica o muestral. Fn ( x ) = 162 nº observaciones ≤ x n 4. Se calcula el estadístico experimental Dexp = max F0 ( x ) − Fn ( x ) 5. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se obtiene un valor crítico en la tabla A.14 que denotaremos Dα . Se rechaza H 0 si Dexp > Dα . Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy conservativos cuando para ajustar una distribución normal haya que estimar la media y la varianza a partir de los valores muestrales. Ejemplo 11.1. (ejercicio 7, relación tema 11) ▼ Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25. Solución H 0 : F ( x) = N ( µ = 14; σ 2 = 2, 25) H1 : F ( x) ≠ N ( µ = 14; σ 2 = 2, 25) Muestra ordenada 12 ni Ni F0 ( x) = P [ X ≤ x ] Fn ( x) F0 ( x) − Fn ( x) 2 2 0,0912 2/10=0,2 0,1088 13 1 3 0,2525 3/10=0,3 0,0475 14 3 6 0,5 0,6 0,1 15 2 8 0,7475 0,8 0.0525 17 1 9 0,977 0,9 0,077 18 1 10 0,9962 1 0,0038 n = 10  12 − 14  F0 (12) = P [ X ≤ 12] = P  Z ≤  = P  Z ≤ −1,3 = 0, 0912 2, 25    13 − 14  F0 (13) = P [ X ≤ 13] = P  Z ≤  = P  Z ≤ −0, 6  = 0, 2525 2, 25   ... 163  18 − 14  F0 (18) = P [ X ≤ 18] = P  Z ≤  = P  Z ≤ 2, 6  = 0,9962 2, 25   Para n=10 y α = 0, 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0,409. (D exp = 0,1088 ) < ( Dα = 0, 409 ) luego no existen motivos para rechazar la hipótesis nula. ▄ 1 0,9 0,8 0,7 0,6 0,5 0,5-0,3=0,2 0,4 0,3 0,2 0,1 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de distribución muestral y bajo H 0 . Aunque en la práctica sólo se calcula F0 ( xi ) − Fn ( xi ) , en distribuciones continuas habría que hallar también las diferencias F0 ( xi +1 ) − Fn ( xi ) para encontrar la máxima diferencia entre ambas funciones de distribución. Prueba de Kolmogorov-Smirnov para una muestra ejercicio11_7 10 N Media Desviación típica Diferencias más extremas Absoluta ,200 Positiva ,1088 Negativa -,200 1,5 Z de Kolmogorov-Smirnov ,632 Sig. asintót. (bilateral) ,819 a La distribución de contraste es la Normal. b Especificado por el usuario 164 14 Parámetros normales(a,b) 23 Ejemplo 11.2 (ejercicio 8, relación tema 11) ▼ Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales X ni 0,45 2 0,55 3 1 0,6 2 0,75 1 0,8 4 0,85 2 0,88 1 5 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1 x≤0   0 ≤ x ≤ 1 x ≥ 1  Solución X ni Ni Fn ( x) F0 ( x) Fn ( x) − F0 ( x) 0,45 0,55 0,6 0,75 0,8 0,85 0,88 1 2 3 1 2 1 4 2 5 2 5 6 8 9 13 15 20 2/20 5/20 6/20 8/20 9/20 13/20 15/20 1 0, 45 = 0, 2025 0,3025 0,36 0,5625 0,64 0,7225 0,7744 1 0.1025 0.0525 0,06 0,1625 0,19 0,0725 0,0244 0 n = 20 Para n=20 y α = 0, 05 Dα =0,294. (D exp 2 = 0,19 ) < ( Dα = 0, 294 ) luego acepto la hipótesis nula. ▄ 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma población o no. Este test de homogeneidad de K-S es el test más potente para comparar dos muestras independientes desde el punto de vista de si proceden de una misma población. Detecta todo tipo de diferencias en las distribuciones, en particular diferencias en la tendencia central (media, mediana), en la dispersión, en la asimetría y en el exceso, esto es, diferencias en las funciones de distribución. El contraste se basa en el estudio de las diferencias entre las funciones de distribución empíricas o muestrales de cada muestra. 165 Dadas dos muestras aleatorias e independientes, de tamaños n y m, cuyas funciones de distribución muestrales se designan por Fn1 ( x) y Fm2 ( x) , respectivamente, se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  Pasos: 1. Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor. 2. Se calcula cada una de las dos funciones empíricas (o funciones de distribución muestrales). 3. Se calcula la diferencia entre las dos funciones de distribución muestrales. Si Fn1 ( x) < Fm2 ( x) , ∀x , se plantea el test unilateral (1) Si Fn1 ( x) > Fm2 ( x) , ∀x , se plantea el test unilateral (2) Si las diferencias unas veces son positivas y otras negativas, se plantea el test bilateral. En cualquier caso el estadístico experimental es: Dexp = max Fn1 ( x) − Fm2 ( x) 4. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra, se obtiene el valor crítico Dα , distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. Se rechaza H 0 si Dexp > Dα . (Tablas A.18 y A.19) Ejemplo 11.3 (ejercicio 9, relación tema 11) ▼ Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 Muestra 2 2 2 4 4 2 5 3 3 5 5 6 4 7 7 8 6 9 5 3 3 Solución En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. Se construyen las dos funciones de distribución empíricas. Las diferencias unas veces son positivas y otras negativas lo que invita a hacer un test bilateral. 166 Dexp Muestras ordenadas 2 3 4 5 6 7 8 9 = 2 /10 = 0, 2 F101 ( x) F102 ( x) F101 ( x) − F102 ( x) F101 ( x) − F102 ( x) 2/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 1/10 3/10 5/10 8/10 9/10 10/10 10/10 10/10 1/10 1/10 0 -2/10 -2/10 -2/10 -1/10 0 1/10 1/10 0 2/10 2/10 2/10 1/10 0 α = 0, 05 , n=m=10, Dα = 6 = 0, 6 , 10 Dexp < Dα , acepto la hipótesis nula de que las dos muestras se han obtenido de la misma población. ▄ Ejemplo 11.4 (ejercicio 2, relación tema 11) ▼ Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. ( α = 0.05 ) Solución Puntuación F161 ( x) F162 ( x) F161 ( x) − F162 ( x) = F161 ( x) − F162 ( x) 14 15 25 35 45 47 50 54 56 57 62 63 65 66 1/16 2/16 3/16 4/16 5/16 6/16 7/16 7/16 8/16 9/16 9/16 10/16 11/16 12/16 0 0 0 0 0 0 0 1/16 3/16 3/16 4/16 4/16 4/16 4/16 1/16 2/16 3/16 4/16 5/16 6/16 7/16 6/16 5/16 6/16 5/16 6/16 7/16 8/16 167 67 72 74 75 83 85 86 90 92 93 95 98 5/16 6/16 6/16 7/16 7/16 10/16 11/16 11/16 12/16 14/16 15/16 16/16 12/16 13/16 14/16 14/16 15/16 15/16 15/16 1 1 1 1 1 7/16 7/16 8/16 7/16 8/16 5/16 4/16 5/16 4/16 2/16 1/16 0 F161 ( x) > F162 ( x) lo que sugiere un contraste unilateral. α = 0, 05 , n=m=16 Dα = 6 . 16 Dexp > Dα (no provienen de la misma población) los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, o lo que es lo mismo F161 ( x) > F162 ( x) . ▄ 11.3 Contraste de Mann-Whitney. La prueba de Mann-Whitney también permite contrastar si dos muestras independientes, han sido obtenidas de la misma población. Pero este contraste no necesita conocer la cuantificación de los elementos de las muestras, solo es necesario disponer de un orden entre dichos elementos. El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la comparación de las medias de dos distribuciones continuas (test paramétrico). Para muestras pequeñas el contraste de K-S es más eficiente. Tomamos dos muestras independientes de tamaños n y m donde suponemos que n ≤ m . Se presupone que las distribuciones de las muestras que se han de comparar presentan la misma forma. El test U de Mann y Whitney examina la hipótesis alternativa. “La probabilidad de que una observación obtenida al azar de la primera población supere a una observación aleatoria de la segunda población es distinta de 1 ” 2 El test es sensible frente a diferencias de medianas, algo menos sensible frente a las diferencias de asimetría, e insensible frente a las diferencias de varianzas. 168 Se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1) H : F ( x ) < F ( x ) m  1 n   H 0 : Fn ( x) = Fm ( x)    (2) H : F ( x ) > F ( x ) m  1 n  ó Estos últimos cuando se observe que los valores de una muestra son en general mayores o menores que los de la otra. (Véase ejemplo 11.6) Pasos: 1. Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor. 2. El valor del estadístico U ( U 0 ) se obtiene mediante: Ui = nº de veces que una observación de la muestra i precede a una observación de la muestra j, si coinciden dos valores tomamos 0.5, ( i = 1, 2 , j = 1, 2 , i ≠ j ). O bien, Ui = nº de veces que una observación de la muestra j es precedida por una observación de la muestra , si coinciden dos valores tomamos 0.5, ( i = 1, 2 , j = 1, 2 , i ≠ j ). Ejemplo 1º muestra 9 11 15 n=3 2º muestra 6 m=4 Muestras ordenadas 8 11 13 6 8 9 11 11 13 15 Procedente de: 2º 2º 1º 1º 2º 2º 1º U1 = 0 + 0 + 1,5 + 2 = 3,5 U 2 = 2 + 2,5 + 4 = 8,5 Ejemplo 1º muestra 3 4 2 2º muestra 6 7 8 Muestras ordenadas Procedente de: 2 n=3 9 m=4 3 4 6 7 1º 1º 1º 2º 2º 8 9 2º 2º 169 U1 = 3 + 3 + 3 + 3 = 12 U2 = 0 + 0 + 0 = 0 Como podemos observar, si 2 muestras proceden de la misma población, los datos tienden a entremezclarse. En caso contrario, los U i toman valores extremos. Otra forma de calcular los U i (aconsejable para muestras grandes) es así: Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del conjunto (si hay repeticiones de valores, se asigna el rango medio) Ejemplo Muestras ordenadas Procedente de: 6 8 9 11 11 13 15 2º 2º 1º 1º rangos 2º 2º 1º 1 2 3 4,5 4,5 6 7 Sean R1 y R2 la suma de los rangos de la 1º y 2º muestra, entonces: n(n + 1) − R1 2 m(m + 1) U 2 = nm + − R2 2 U1 = nm + (ó U 2 = nm − U1 ) R1 = 3 + 4,5 + 7 = 14,5 ⇒ U1 = ( 3 × 4 ) + 3× 4 − 14,5 = 3,5 2 R2 = 1 + 2 + 4,5 + 6 = 13,5 ⇒ U 2 = ( 3 × 4 ) + 4×5 − 13,5 = 8,5 2 El estadístico es: U 0 = min (U1 , U 2 ) Nota: también lo podíamos haber definido con el máximo. 3. Como hemos visto, si los datos no proceden de la misma población, los U i toman valores extremos y por tanto U 0 tomará un valor pequeño. Luego rechazamos la hipótesis nula cuando U 0 tome valores pequeños, pero ¿cómo de pequeños? Distinguimos casos: a) n ≤ 20 y m ≤ 40 Se rechazará la hipótesis nula cuando el valor U0 sea igual o menor que el valor crítico Uα de las tablas 3.18 o 3.19 (nivel de significación α = 5% ). SPSS usa niveles de significación exactos, Dineen y Blakesley (1973). b) En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños muestrales suficientemente grandes ( m + n > 60 , según algunos autores) se cumple la excelente aproximación. 170  nm nm(n + m + 1)  U → N  ,  12  2  Calculo p = P [U ≤ U 0 / H 0 ] Para α fijo, rechazo H 0 si p ≤ α 2 (bilateral ) o p ≤ α (unilateral ) . Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños muestrales no sean muy pequeños ( m ≥ 8, n ≥ 8 ). Nosotros utilizaremos las tablas 3.18 o 3.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación normal cuando no aparezcan. En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar rangos medios) tiene una distribución distinta (Sachs, Estadística Aplicada, pag. 255). Ejemplo 11.5 (ejercicio 4, relación tema 11) ▼ Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma (α = 0.05) . Solución n=4 (taller 2) ≤ 20, m=5 (taller 1) ≤ 40 Muestras ordenadas 45 51 53 64 70 75 78 82 110 rango Procede de: 1º 2º 2º 1º 2º 1º 1º 1º 2º 4×5 RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 U 0 = min (11, 9 ) = 9 1 2 3 4 5 6 7 8 9 171 n = 4, m = 5, U α = 1 (tabla 3.19) (U 0 = 9) > (U α = 1) ⇒ los dos talleres producen lo mismo. ▄ Ejemplo 11.6 (ejercicio 5, relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) . Solución 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Muestras ordenadas 43 45 56 56 57 57 65 65 67 67 67 69 76 76 77 78 78 78 78 79 79 87 87 98 Incentivos No No No No No Si No Si No No Si No Si Si Si No No Si Si No Si Si Si si m = n = 12 rango 1 2 3,5 3,5 5,5 5,5 7,5 7,5 10 10 10 12 13,5 13,5 15 17,5 17,5 17,5 17,5 20,5 20,5 22,5 22,5 24 RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5 U NO = (12 × 12 ) + 172 12 ×13 − 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5 2 U 0 = min (111,5; 32,5) = 32,5 En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto sobre la producción frente a la alternativa de que sí lo tienen, es decir  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Para ello realizaremos un test bilateral ( α = 0.05 , tabla 3.19) U α = 37 ; (U 0 = 32,5) < (U α = 37) ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos sobre la producción –sin especificar en qué sentido. En este caso que nos ocupa parece más plausible contrastar  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción, es decir, los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin incentivos y por tanto la función de distribución de la muestra con incentivos ( Fm ( x) ) menor que la función de distribución de la muestra sin incentivos ( Fn ( x) ) (Recuérdese lo que ocurría en el ejemplo 11.4 ). Para ello realizaremos un test unilateral ( α = 0.05 , tabla 3.18) U α = 42 ; (U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. Dado que un test bilateral con α = 0.05 equivale a un test unilateral con α = 0.025 y en ese caso se había rechazado la hipótesis nula, con mayor razón se rechaza en este último test unilateral con α = 0.05 > 0.025 . ▄ Ejemplo 11.6b (ejercicio 5, relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos Incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78 173 Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) . Solución 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 174 Muestras ordenadas 43 45 48 50 56 56 57 57 60 60 61 63 65 65 67 67 67 69 70 70 71 71 72 73 74 76 76 77 78 78 78 78 79 79 80 80 82 83 84 84 84 85 85 87 87 88 93 incentivos NO NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO SI NO NO NO SI NO SI SI SI NO NO SI SI NO SI SI SI NO NO NO SI SI SI SI SI SI SI SI rango 1 2 3 4 5.5 5.5 7.5 7.5 9.5 9.5 11 12 13.5 13.5 16 16 16 18 19.5 19.5 21.5 21.5 23 24 25 26.5 26.5 28 30.5 30.5 30.5 30.5 33.5 33.5 35.5 35.5 37 38 40 40 40 42.5 42.5 44.5 44.5 46 47 48 49 50 94 98 99 SI SI SI n = m = 25 48 49 50 RNO = 442 RSI = 833 U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508;117) = 117  25 × 25 25 × 25 × 51  U → N  ,  = N ( 312,5; 51,54 ) 12  2  117 − 312,5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3, 79] = 0, 00007 51,54   Basándonos en los comentarios del ejemplo anterior, procede realizar un contraste unilateral  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  ( p = 0, 00007 ) ≤ (α = 0, 05) ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. α = 0, 05 117 312,5 0.00007 También se hubiera rechazado la hipótesis nula con un contraste bilateral.  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  ( p = 0, 00007 ) ≤  α  = 0, 025  ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen 2  efectos sobre la producción. 175 α =0,025 2 α 117 2 312,5 0.00007 ▄ 11.4 Test de las rachas. El test de las rachas es un test no paramétrico que sirve para verificar la independencia o aleatoriedad del orden de los valores muestrales. Una racha es una sucesión de símbolos idénticos, a los que preceden o siguen otros símbolos. Así, por ejemplo, la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda, constituye R=4 rachas. No sólo en el caso de datos alternativos sino también tratándose de valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores menores y rachas de valores mayores o iguales que la mediana. Para un valor dado de n, un R pequeño es indicio de que las observaciones iguales aparecen en forma aglomerada , mientras que un valor grande de R denota que las observaciones se suceden de una forma regular. La hipótesis nula H 0 dice que el orden de los valores es casual, esto es, que se trata de una muestra aleatoria, mientras que la hipótesis alternativa H A dice que la muestra no es aleatoria; o sea, que los valores muestrales no son independientes entre sí. En el caso unilateral a la H 0 se le contrapone la hipótesis H A1 : “efecto de aglomeración”, o bien la H A 2 : “los valores se suceden de una forma regular” Los valores críticos rinferior = ru y rsuperior = ro correspondientes a n1 y n2 ≤ 20 (donde n1 y n2 representan el número de veces que aparecen los dos elementos alternativos respectivamente, n1 + n2 = n ) pueden obtenerse de la tabla 4.40. Para n1 o n2 > 20 el estadístico R se distribuye aproximadamente como una normal de media y varianza µ= 2n1n2 +1 n1 + n2 ( R = µ + zσ , donde z es normal tipificada). 176 σ2 = 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 En el test bilateral se mantiene H 0 si ru < R < ro (para n1 y n2 ≤ 20 ) o − zα < z < zα (para 2 2 n1 o n2 > 20 ) y se rechaza en caso contrario. (Nota: utilizar ru y ro con límites inferiores y superiores del α 2 ) En el test unilateral H 0 se rechaza frente a H A1 tan pronto como R ≤ ru ( n1 y n2 ≤ 20 ) o z ≤ − zα ( n1 o n2 > 20 ). Se rechaza frente a H A 2 si ro ≤ R ( n1 y n2 ≤ 20 ) o zα ≤ z ( n1 o n2 > 20 ). (Nota: utilizar ru y ro con límites inferiores y superiores del α %) También puede utilizarse el test de rachas para verificar si dos muestras independientes de tamaño similar proceden o no de una misma población (las n1 + n2 = n observaciones se ordenan en sentido creciente, indicando con dos símbolos a qué muestra pertenecen, si se obtiene un valor pequeño de R, se rechaza la hipótesis nula de igualdad de poblaciones). Ejemplo 11.7 (Ejercicio 14 , relación tema 11) ▼ Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( α = 0,10 ). Solución Me=19. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede escribirse mmmMMMMMmMM. Esta serie, con n1 = 4(m) , n2 = 7( M ) y R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) (NOTA: Si hubiéramos considerado 19=m, entonces mmmmMmmMmMM , n1 = 7(m) , n2 = 4( M ) y R = 6 . Concluyendo de igual modo la compatibilidad con la hipótesis de aleatoriedad. ( ru = 3) < ( R = 6 ) < ( ro = 9 ) Con α = 0, 05 , ( ru = 2 ) < ( R = 4 o 6 ) ( ro = no hay límite su p erior ) , se aceptaría la hipótesis de aleatoriedad. ) ▄ Ejemplo 11.8 (Ejercicio 15, relación tema 11) ▼ Supóngase dos muestras aleatorias independientes de tamaños n1 = 20, n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( α = 0, 05 ) 177 Solución Este contraste equivale a la verificación de la no aglomeración de las observaciones (únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones). Es decir, un test de H A1 frente a H 0 , al nivel del 5%, unilateral, con ayuda de los extremos críticos inferiores del 5% de la tabla 4.40. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de H A1 , se acepta la hipótesis de aglomeración, lo que en este contexto implica que las muestras proceden de poblaciones distintas. Como los tamaños de las muestras se encuentran en el límite n1 = 20, n2 = 20 , vamos a resolver el problema mediante la aproximación normal µ= 2n1n2 + 1 = 21 n1 + n2 σ2 = z= 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 R−µ σ = = 9, 7436 σ = 3,1215 15 − 21 = −1,92215 3,1215 ( z = −1,92215) ≤ (− z0,05 = −1, 645) ⇒ llegándose al mismo resultado, se rechazaría la hipótesis de que las poblaciones son iguales. ▄ 11.5 Test de los signos. Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas, paralelas o ligadas) proceden de una misma distribución. Resulta especialmente útil cuando la medición cuantitativa no es posible. Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test de Wilcoxon que veremos a continuación. El nombre de este test se debe a que únicamente se consideran los signos de las diferencias entre observaciones. Se presupone que la variable aleatoria es continua. Al contrario que en el test de la t o en el de Wilcoxon, aquí no es necesario que todos los pares procedan de una misma población. Pueden pertenecer a poblaciones distintas en lo que se refiere, por ejemplo, a edad o sexo, etc. Lo esencial es que los resultados de cada par sean independientes entre sí. La hipótesis nula del test de los signos es: La media de las diferencias entre los pares ligados es igual a cero; se espera que aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . Es 178 decir, con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero, dicho de otra forma, elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo es igual que la probabilidad de que el segundo supere al primero). La tabla 4.4 contiene los extremos de confianza, se rechazará la hipótesis nula cuando haya demasiadas (o demasiado pocas) diferencias del mismo signo, esto es, cuando se rebasen (por exceso o por defecto) los valores indicados en la tabla 4.4. Las diferencias nulas no se consideran; esto puede traer consigo una disminución del tamaño muestral. La probabilidad de obtener un número determinado de signos más o menos se deduce de la distribución binomial con p = q = con p = q = 1 . A partir de la tabla de probabilidades binomiales 2 1 se han determinado los valores de la tabla 4.4. 2 En la tabla 4.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis nula. El extremo derecho (ED) puede obtenerse mediante la fórmula ED = n − EI + 1 . Cuando no se disponga de tablas o cuando estas resulten insuficientes, y si las muestras de diferencias no son demasiado pequeñas ( n ≥ 30 ) -algunos autores consideran bueno a partir de ( n ≥ 25 ) - la frecuencia observada del signo menos abundante se aproxima mediante una normal de media y varianza µ = np = n 2 σ 2 = npq = Ejemplo 11.9 (Ejercicio 16, relación tema 11) n 4 ▼ Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas. ¿Proceden las dos muestras ligadas de la misma población? Solución De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. ▄ 11.6 Test de Wilcoxon de los signos-rangos. Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son: el test de la t de Student, si la distribución de las diferencias es normal, y el test de Wilcoxon 179 para diferencias entre pares, que utiliza signos y rangos, cuando las diferencias no siguen una distribución normal. Este último test puede aplicarse también cuando los datos vengan dados en forma de rangos. En comparación con el test de la t, el test de Wilcoxon requiere muchos menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas. Si el test lleva a rechazar H 0 significaría que las dos muestras proceden de poblaciones con distribuciones distintas. Prescindiendo de los pares cuyos dos valores sean iguales, para los n pares de valores restantes se formarán las diferencias entre las dos muestras paralelas di = xi1 − xi 2 A continuación se ordenan los valores absolutos d i de menor a mayor, asignándoles rangos: el menor de todos ellos tendrá el rango 1, y el mayor tendrá rango n. Caso de que se repitieran valores, se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el test de Mann-Whitney). Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o negativo. Se forma la suma de los números de rango positivos ( R+ ) y la de los rangos negativos ( R− ), que se comprueban con la fórmula R+ + R− = n(n + 1) 2 ( ) Como estadístico se empleará la menor de las dos sumas de rangos R = min( R+ , R− ) . Se rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico indicado en la tabla 4.2. Para n > 25 la distribución de estadístico R bajo la hipótesis nula es aproximadamente una normal de media y varianza: µ= n(n + 1) 4 σ2 = n(n + 1)(2n + 1) 24 Ejemplo 11.10 (ejercicio 17, relación tema 11) ▼ Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. Muestra nº 180 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 Solución Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 A − B= di 0,06 0,02 -0,13 0,09 0,10 -0,02 0,03 0 -0,04 5 1,5 8 6 7 1,5 3 (+) 6 (+) 7 Rango de los d i R+ = 22,5 (+) 5 (+) 1,5 R− = 13,5 (-) 8 comprobación 4 (+) 3 (-) 1,5 (-) 4 22,5+13,5=36=8(8+1)/2 n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que R = 13,5 > 3 , por tanto no puede rechazarse la hipótesis nula. ▄ EJERCICIOS RESUELTOS 1. (ejercicio 1, relación tema 11) A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063. En años anteriores el número de respuestas correctas estaba representado, de forma adecuada, por una N(985, 50). Con base en esta muestra, ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.05 ) SOLUCIÓN: muestra ordenada 852 875 910 933 957 963 981 998 1007 1010 1015 1018 1023 1035 1048 1063 ni Ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 z -2,66 -2,20 -1,50 -1,04 -0,56 -0,44 -0,08 0,26 0,44 0,50 0,60 0,66 0,76 1,00 1,26 1,56 Fo(x) 0,0039 0,0139 0,0668 0,1492 0,2877 0,3300 0,4681 0,6026 0,6700 0,6915 0,7257 0,7454 0,7764 0,8413 0,8962 0,9406 Fn(x) 0,0625 0,1250 0,1875 0,2500 0,3125 0,3750 0,4375 0,5000 0,5625 0,6250 0,6875 0,7500 0,8125 0,8750 0,9375 1,0000 |Fo(x)-Fn(x)| 0,0586 0,1111 0,1207 0,1008 0,0248 0,0450 0,0306 0,1026 0,1075 0,0665 0,0382 0,0046 0,0361 0,0337 0,0413 0,0594 181 (D exp = 0,1207 ) < ( Dα = 0,327 ) luego no existen motivos para rechazar la hipótesis nula. 2. (ejercicio 3, relación tema 11) Contrastar a un nivel α = 0.1 si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 SOLUCIÓN: muestra ordenada 4,1 8 10,5 12,1 15 16 ni Ni 1 2 2 3 1 1 1 3 5 8 9 10 z -1,93 -0,81 -0,10 0,36 1,19 1,47 Fo(x) 0,0271 0,2086 0,4613 0,6406 0,8827 0,9298 Fn(x) |Fo(x)-Fn(x)| 0,1000 0,0729 0,3000 0,0914 0,5000 0,0387 0,8000 0,1594 0,9000 0,0173 1,0000 0,0702 α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no existen motivos para rechazar la hipótesis nula. 3. (ejercicio 10, relación tema 11) La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos Número de llamadas xi ni menos de 10 10-20 20-30 30-40 40-50 50-60 15 17 26 18 13 11 Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov. SOLUCIÓN: Para hallar las siguientes probabilidades, bajo la hipótesis nula, tipificamos la variable X → N (30, 10) transformándola en una variable Z → N (0, 1)  x − 30 10 − 30  P [ x ≤ 10] = P  ≤ = F0 (−2) = 0, 0228 10   10 10 − 30 x − 30 20 − 30  P [10 < x ≤ 20] = P  < ≤ = P [ −2 < z ≤ −1] = F0 (−1) − F0 (−2) = 0,1587 − 0, 0228 = 0,1359 10 10   10  20 − 30 P [ 20 < x ≤ 30] = P  <  10  30 − 30 P [30 < x ≤ 40] = P  <  10 182 x − 30 30 − 30  ≤ = F0 (0) − F0 (−1) = 0,5 − 0,1587 = 0,3413 10 10  x − 30 40 − 30  ≤ = F0 (1) − F0 (0) = 0,8413 − 0,5 = 0,3413 10 10   40 − 30 x − 30 50 − 30  P [ 40 < x ≤ 50] = P  < ≤ = F0 (2) − F0 (1) = 0,9772 − 0,8413 = 0,1359 10 10   10  x − 30 50 − 30  P [ x > 50] = P  > = 1 − F0 (2) = 1 − 0,9772 = 0, 0228 10   10 CLASES menos de 10 10-20 20-30 30-40 40-50 más de 50 ni Ei = npi pi ( ni − Ei ) 2 15 17 26 18 13 11 0,0228 0,1359 0,3413 0,3413 0,1359 0,0228 2,28 13,59 34,13 34,13 13,59 2,28 161,8 11,6 66,1 260,2 0,35 76,04 100 1 100 χ2 = ( ni − Ei ) 2 Ei 70,96 0,85 1,94 7,62 0,026 33,35 114,7 Como las frecuencias esperadas son menores que 5 en la primera y última clase, se agrupan éstas con las clases contiguas, obteniéndose CLASES Menos de 20 20-30 30-40 Más de 40 ni Ei = npi pi ( ni − Ei ) 2 32 26 18 24 0,1587 0,3413 0,3413 0,1587 15,87 34,13 34,13 15,87 260,2 66,1 260,2 66,1 100 1 100 χ2 = ( ni − Ei ) 2 Ei 16,4 1,94 7,62 4,17 30,13 Buscamos en las tablas χ k2−1,1−α = χ 3,2 0'95 = 7,81 . Como 30,13>7,81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. Contraste de Kolmogorov-Smirnov para bondad de ajuste muestra ordenada 0-10 10-20 20-30 30-40 40-50 50-60 ni x 10 20 30 40 50 60 15 17 26 18 13 11 Ni z F0 ( x) 15 32 58 76 89 100 -2,00 -1,00 0,00 1,00 2,00 3,00 0,0228 0,1587 0,5000 0,8413 0,9772 0,9987 Fn ( x) | F0 ( x) − Fn ( x) | 0,15 0,32 0,58 0,76 0,89 1 0,1272 0,1613 0,0800 0,0813 0,0872 0,0013 Dexp = max F0 ( x ) − Fn ( x ) = 0,1613 1,3581 = 0,1358 100 Al igual que con el anterior procedimiento de contraste se rechaza H 0 dado que Dexp > DT Buscando en las tablas, para un contraste bilateral, DT = 4. (ejercicio 11, relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: 183 Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 de € y desviación típica 10.000 €? ( α = 0, 05 ) SOLUCION: muestra ordenada 300 311 318 322 338 345 ni z= Ni 1 1 1 1 1 1 1 2 3 4 5 6 x−µ σ F0 ( x) Fn ( x) 0,0228 0,1841 0,4207 0,5793 0,9641 0,9938 0,1667 0,3333 0,5 0,6667 0,8333 1 -2,0000 -0,9000 -0,2000 0,2000 1,8000 2,5000 | F0 ( x) − Fn ( x) | 0,1439 0,1493 0,0793 0,0874 0,1307 0,0062 Dexp = max F0 ( x ) − Fn ( x ) = 0,1493 DT (0,05)bilateral = 0,519 Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas. 5. (ejercicio 12, relación tema 11) Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado, obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. ( α = 0,1 ). Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov. SOLUCIÓN: Muestra ordenada 130 140 150 160 170 ni Ni 2 4 4 3 2 2 6 10 13 15 z= x−µ σ -2,00 -1,00 0,00 1,00 2,00 F0 ( x) 0,0228 0,1587 0,5000 0,8413 0,9772  x − 150 130 − 150  P [ x ≤ 130] = P  ≤ = F0 (−2) = 0, 0228 10   10  x − 150 140 − 150  P [ x ≤ 140] = P  ≤ = F0 (−1) = 0,1587 10   10 184 Fn ( x) 0,1333 0,4000 0,6667 0,8667 1,0000 | F0 ( x) − Fn ( x) | 0,1106 0,2413 0,1667 0,0253 0,0228  x − 150 150 − 150  P [ x ≤ 150] = P  ≤ = F0 (0) = 0,5 10   10  x − 150 160 − 150  P [ x ≤ 160] = P  ≤ = F0 (1) = 0,8413 10   10  x − 150 170 − 150  P [ x ≤ 170] = P  ≤ = F0 (2) = 0,9772 10   10 Dexp = max F0 ( x ) − Fn ( x ) = 0, 2413 Dado que Dexp < DT DT (0,10)bilateral = 0,304 se acepta la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. 6. (ejercicio 13, relación tema 11) Se ha observado la temperatura durante los días de una semana en la recepción de un hotel, obteniéndose 23,3º 17,6º 16,4º 20,9º 23,8º 23,3º 24,0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. SOLUCION: muestra ordenada 16,4 17,6 20,9 23,3 23,8 24 ni 1 1 1 2 1 1 Ni 1 2 3 5 6 7 z -1,8000 -1,2000 0,4500 1,6500 1,9000 2,0000 Fo(x) 0,0359 0,1151 0,6736 0,9505 0,9713 0,9772 Fn(x) |Fo(x)-Fn(x)| 0,1429 0,1069 0,2857 0,1706 0,4286 0,2451 0,7143 0,2362 0,8571 0,1141 1 0,0228  16.4 − 20  P [ x ≤ 16.4] = P  z ≤  = P [ z ≤ −1.8] = 0.0359 2  ... 24 − 20   P [ x ≤ 24] = P  z ≤ = P [ z ≤ 2] = 0.9772 2   Dexp = 0, 2451 n = 7 DT (0,05) bilateral = 0, 483 Dexp < DT , por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. 7. (ejercicio 22, relación tema 11) Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la 185 cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. (α = 0.05) . SOLUCIÓN: muestras ordenadas F41 ( x) 40 ¼=0,25 0 50 ¼=0,25 2/5=0,4 60 2/4=0,5 2/5=0,4 70 1 4/5=0,8 110 1 1 Dexp = max F41 ( x) − F52 ( x) = F41 ( x) − F52 ( x) F41 ( x) − F52 ( x) F52 ( x) 1 = 0, 25 4 0,2500 0,2500 -0,1500 0,1000 0,2000 0,0000 0,1500 0,1000 0,2000 0,0000 4 = 0,8 5 DT (0,05)bilateral = Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 8. (ejercicio 23, relación tema 11) Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 70 80 Incentivos 70 70 60 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. ( α = 0.05 ) SOLUCIÓN: muestras ordenadas F51 ( x) F51 ( x) − F52 ( x) F52 ( x) 60 1/5=0,2 0 70 4/5=0,8 1/5=0,2 80 1 3/5=0,6 90 1 4/5=0,8 100 1 1 Dexp = max F51 ( x) − F52 ( x) = 186 3 = 0, 6 5 F51 ( x) − F52 ( x) 1/5=0,2 3/5=0,6 2/5=0,4 1/5=0,2 0,0 DT (0,05)unilateral = 3 = 0, 6 5 1/5=0,2 3/5=0,6 2/5=0,4 1/5=0,2 0,0 Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. 9. (ejercicio 24, relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov, α = 0, 05 ). Primera encuesta 30 20 0 50 40 30 30 Tres meses después 20 20 10 60 0 30 20 SOLUCIÓN: muestras ordenadas 0 10 20 30 40 50 60 F71 ( x) − F72 ( x) F71 ( x) F72 ( x) 1/7=0,1429 1/7=0,1429 2/7=0,2857 5/7=0,7143 6/7=0,8571 1 1 1/7=0,1429 2/7=0,2857 5/7=0,7143 6/7=0,8571 6/7=0,8571 6/7=0,8571 1 Dexp = max F71 ( x) − F72 ( x) = 3 =0,4286 7 0,0000 -1/7=-0,1429 -3/7=-0,4286 -1/7=-0,1429 0,0000 1/7=0,1429 0,0000 DT (0,05)bilateral = F71 ( x) − F72 ( x) 0,0000 1/7=0,1429 3/7=0,4286 1/7=0,1429 0,0000 1/7=0,1429 0,0000 5 = 0, 7143 7 Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral 187 188 EJERCICIOS 189 2. Muestreo Aleatorio Simple 1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución: µ ∈ (1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 ) τ ∈ (1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 ) 2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro. • La proporción de ellos que tienen algún tipo de trabajo. Sean yi , zi (i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando responden NO, yi = 1 cuando responden SI, análogamente para zi ). Según la muestra 100 100 yi = 70 ∑ z = 25 ∑ i =1 i =1 i Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. 100 Solución p1 = y ∑ i =1 i 100 100 = 0, 70 (70%) p2 = z ∑ i =1 i 100 = 0, 25 (25%) 2 V ( p1 ) = 0, 0868 (8, 68%) 2 V ( p 2 ) = 0, 0821 (8, 21%) τ 2 = N p 2 = 900 × 0, 25 = 225 2 V (τ 2 ) = 900 × 0, 0821 = 73,89 3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). Solución: n = 615, 62 ≈ 616 4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer exámenes en 190 sábado con un límite para error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error máximo de estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: n = 353,04 ≅ 354 5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000 niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. Usando los datos de la siguiente tabla: Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Niño Solución: 2,2 ∈ (1,06, 2,94) ⇒ No 6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con los resultados siguientes: y = 2,1 segundos y S = 0,4 segundos. Estime la media poblacional y establezca un límite para el error de estimación. Solución: µˆ = 2,1; B = 0,1697 7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite para el error de estimación. 191 Solución: pˆ = 0,1833; B = 0,0958 8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? Solución: INTERV . CONF .: ( 3,91 min ., 6, 61 min .) Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis. 9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre fue y = 25,2 árboles, con una varianza muestral de S 2 = 136 . Estime el número total de árboles de tamaño grande en la plantación. Establezca un límite para el error de estimación. Solución: τˆ = 37.800; B = 3.379,9408 10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación, con un límite para el error de estimación de 1.500 árboles. Solución: n = 399,413 ≅ 400 11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1.450; ∑ Y i =1 i i =1 i 2 = 54.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? Solución: ( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 ) Previsión más optimista: 23.340 ; previsión más pesimista: 17.259 192 12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona, construyendo un intervalo de confianza al 95%. Solución: (44.842,09, 58.104,04 ) 13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a) p ∈ (12,11% , 22,89% ) . b) n = c) y = pq = 641, 6 ≈ 642 . D 1 n 5600 yi = = 160€ B = 2 V ( y ) = 8, 45€ ∑ 35 n i =1 14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? Solución: n = 139, 65 ≈ 140 n = 333, 47 ≈ 334 193 15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? Solución: n = 74,1 ≈ 75 n = 105, 4 ≈ 106 16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. Solución: a) τ = N y = 70 B = 2 V (τ ) = 71, 2741 b) τ = N p = 10 B = 2 V (τ ) = 10,9545 17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? Solución: p ∈ (62, 49% , 68,51%) ⇒ p > 50% ⇒ si se puede afirmar ... 18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con 194 un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50 19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en € 33,5 32 52 43 40 41 45 42,5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? Solución: a) ( 40,89 − 3,98 ; 40,89 + 3,98 ) = ( 36,91; 44,87 ) b) No porque 45 ∉ ( 36,91; 44,87 ) c) n = 35, 67 ≈ 36 compras 20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. Solución: 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km se recoge en la siguiente tabla Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5,4 6 6,3 11 3,6 16 5,4 2 5,5 7 5,4 12 6,7 17 4,8 3 6,9 8 5 13 5,2 18 4,7 4 3,9 9 4,5 14 5,1 19 5,8 5 4,5 10 4,4 15 5,4 20 6,2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5,6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? 195 Solución: (a) ( 55' 47%, 94 '53% ) (b) n = 66, 77 ≅ 67 3. Muestreo Aleatorio Estratificado 1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a N1 = 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). n1 = n Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550 490 500 470 520 550 500 y 2 = 505 S 22 = 750 540 480 500 470 470 450 560 460 440 580 y1 = 507,5 S12 = 1091, 67 y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. 4 Solución: y st = ∑ i =1 Ni y i = 500,5€ N 2 V ( y st ) = 18, 79 € 2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos 196 son separados en facturas al por mayor y al por menor después del muestreo, con los siguientes resultados en €: Por mayor Por menor Valor total facturas=36400€ Valor total facturas=8400€ n1 = 70 y1 = 520€ S1 = 210€ n2 = 30 y 2 = 280€ S 2 = 90€ Estime el valor medio de las facturas de la empresa, y fije un límite para el error de estimación. Solución: yst = 376€; B = 28,14€ 3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a) Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. b) Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c) ¿Qué respuesta encuentra más aceptable? ¿Por qué? Solución: a. p = 18 = 0,18 (18%) 100 b. p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ 2 V ( p) = 0, 0772 ( 7, 72% ) Ni 2   16   p i =  0, 60  +  0, 40  = 0,14 N 20   80   2 V ( p st ) = 0, 0901 (14% ) ( 9, 01% ) c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A 197 ( p1 = 0,10 ). En el apartado b. este hecho se corrige dando a p1 y p 2 las ponderaciones 0,60 y 0,40 respectivamente para estimar p. 4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21, 2 S1 = 12 y2 = 13,3 S 2 = 11 y3 = 26,1 S3 = 9 a) Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. Solución: a. y st = L 1 N ∑N y i =1 i i = 3834 = 19,17 pedidos / semana 200 2 V ( y st ) = 5, 02 pedidos / semana (∑ N σ ) 2 L b. D = 2 B 9 = = 2, 25 4 4 n= i =1 i i L N D+∑ N iσ 2 i =1 n1 = 23,31 ≈ 24 n2 = 14,96 ≈ 15 = 43,52 2 i n3 = 5, 24 ≈ 6 n = 45 5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. Carreras de 2 años Carreras de 4 años 198 Media 154,3 411,8 Desviación típica 87,3 219,9 a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar un límite de error de estimación. b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. Dar un límite de error de estimación. Solución: (a) τˆst = 480.731; B = 57.594,84 (b) pˆ st = 0,2058; B = 0,0826 6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3,5 3,6 3,9 3,8 S i 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) Solución: (a) yst = 3, 725; B = 0,1973; (3,5277 ; 3,9223) (b) n3 = 44,82 ≈ 45 7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208 profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. Decide investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. Solución: pˆ st = 0,7214; B = 0,0685 199 8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas, respectivamente. Basándose en una experiencia previa, se estima que las desviaciones típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. Solución: n1 = 18,59; n2 = 19,83; n3 = 22,31; n4 = 19,83; n = 80,55 9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05 para el error de estimación. b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo. Solución: (a) n1 = 47; n2 = 83; n = 130 (b) n1 = 22; n2 = 39; n = 61 10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. Solución: a. y st = 701,50 2 2,19 = 2,96 b. y 2 = 463 2 2,17 = 2,94 11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga 200 que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? n1 = 1677, 2 ≈ 1677 n2 = 107,59 ≈ 107 n = n1 + n2 = 1784 12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen Solución: fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos ni n ∑ yi S i2 i =1 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. Solución: y st = 8,15 2 1,107 = 2,1 13. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni HOMBRES 2.500 MUJERES 2.700 ni 100 400 yi 120 250 9.000 16.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución: y st = 187,5 2 29,16 = 10,8 14. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 201 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución: p st = 0,38 ⇒ p st = 38% 2 V ( p st ) = 0, 0687 ⇒ 6,87% 15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros Técnicos Administrativos Si2 36 25 9 Ni 132 92 27 Solución: n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14 n3 = 40 × 0, 0608 = 2, 4 ≈ 2 16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. Solución: n1 = 200 × 0, 4795 = 95,9 ≈ 96 n2 = 200 × 0,1909 = 38, 2 ≈ 38 n3 = 200 × 0,3296 = 65,9 ≈ 66 17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 202 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución: y st = 1 N 2 2 Ni ∑N y =∑ N i =1 i i y i = 65, 05€ i =1 2 V ( y st ) = 25,24€ 18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. Solución: (∑ N σ ) 2 L D= B2 250.000 = = 0, 0625 2 4N 4.000.000 n= i =1 i L i N D+∑ N iσ 2 i =1 = 71, 66 2 i n1 = 13, 79 ≈ 14 n2 = 45,99 ≈ 46 n3 = 11,87 ≈ 12 n = 72 19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el coeficiente corrector por población finita. Solución: pˆ = 3,9%; B = 2,74% 20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) 203 Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? Solución: n1 = 8; n 2 = 34; n3 = 36; n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€) 21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. A partir de la información proporcionada por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados 150 130 120 100 Porcentaje de participación en años anteriores 40% 30% 25% 20% Coste de encuestar a un elemento 4 9 16 25 4-6 6-8 8-12 12-14 Sol. n = 200,3; n1 = 94,84 ≅ 95; n 2 = 51,27 ≅ 52; n3 = 33,53 ≅ 34; n 4 = 20,65 ≅ 21 ⇒ n = 202 22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de observar si existe variación semanal en la cantidad producida. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos semanas, mostraron las siguientes mediciones: Semana A Semana B 204 58,3 59,2 60,4 60,1 59,3 59,6 58,7 59,2 59,1 58,8 59,6 60,5 a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B. b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera estimar el peso total del embarque, con un límite para el error de estimación de 50 kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Solución: (a) τˆ = 19.722,13 (b) (19.593'71, 19.850'56) (c) n = 65,67; n1 = 34,37 ≅ 35; n 2 = 31,30 ≅ 32 ⇒ n = 67 23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se usa muestreo aleatorio estratificado, con cada tienda como un estrato. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar N 1 = 65 N 2 = 42 N 3 = 93 N 4 = 25 Tamaño muestra n1 = 14 n2 = 9 n3 = 21 n4 = 6 2 8 1 Nº cuentas no cobradas 4 a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación. b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas, con un límite del error de estimación del 5%. Solución: (a) pˆ = 0,30; B = 0,1173 (b) n = 132,30; n1 = 38,35 ≅ 39; n 2 = 22,80 ≅ 23; n3 = 58,98 ≅ 59; n 4 = 12,17 ≅ 13 ⇒ n = 134 24. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal, 30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70 para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente. Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis, el tipo de aprendizaje de cada estudiante): 205 70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. Estime la calificación media en el examen final de matemáticas. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación, así como determine la ganancia en precisión. c. Se desea mejorar la estimación de la nota media del examen final en matemáticas, teniendo en cuenta más información. Usando estos resultados como muestra previa, qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos, utilizando asignación proporcional. d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) µˆ = 78,59; B = 3, 21 (b) µˆ = 77,53; B = 4,25 (c) n = 36,31; n1 = 18,15 ≅ 19; n 2 = 10,89 ≅ 11; n3 = 7,26 ≅ 8 ⇒ n = 38 (d) (11,87, 43,69); n = 16,8 ≅ 17 25. Se desea estimar el salario medio de los empleados de una empresa. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: Neyman n = 26,91 206 n1 = 7, 77 ≅ 8 n2 = 19,14 ≅ 20 ⇒ n = 28 4. Estimación de Razón, Regresión y Diferencia 1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. De el LEE. Solución: τˆy = 1.116.002, 07€; B = 59.053,37€ 2. Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 207 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar sus respectivos LEE y compararlos. b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución: (a) razón : µˆ y = 15,57 tm; Bµ = 0,37 tm; τˆy = 11.680, 61 tm; Bτ = 278,14 tm m.a.s.: µˆ = y = 16 tm; Bµ = 1, 69 tm; τˆ = 12.000 tm; Bτ = 1.265, 76 tm (b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo n=43. 3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la media y el total de ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 a) Estimar la media y el total de ventas diarias utilizando estimadores de regresión. Dar LEE. 208 b) Se quiere repetir el estudio anterior de forma que la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución: (a) µˆ yL = 138,31€; B µ = 5,56€; τˆ yL = 138.314,38€; Bτ = 5.559,76€ (b) n = 361,67 ≅ 362 establecimientos 4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 a) Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución: (a) Muestreo aleatorio simple µˆ = y = 453,5€ τˆ = Ny = 90.700€ ˆ µˆ ) = 75,20€ Bµ = 2 V( Bτ = 200 × Bµ =15.040,97€ Estimadores de razón r= y = 0,879 x Bµ = 9,3€ τˆy = rτ x = 87.900€ µˆ y = r µ x = 439,5€ Bτ = 1.860,46€ Estimadores de regresión µˆ yL = 437,515€ Bµ = 2,3104€ τˆyL = N µˆ yL = 87.503€ Bτ = NBµ = 462, 09€ Estimadores de diferencia µˆ yD = 437,5€ τˆyD = N µˆ yD = 87.500€ 209 Bµ = 2 Vˆ ( µˆ yD ) = 2,179 Bτ = NBµ = 435,8899 (b) 20 establecimientos 5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: r = 0,1467; B = 0,0102 6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 a) Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. b) Utilizando un estimador de regresión y un estimador de diferencia, estime las ganancias medias y establezca un límite para el error de estimación. Solución: a) τ y ∈ (129940, 67 , 138668,85 ) 210 b) µˆYL = 1.094,53; B = 40, 46 ; µˆYD = 1.084, 28; B = 41, 28 . 7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas la campaña actuales la campaña Actuales 1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257 a. Use los siguientes datos para estimar el total de ventas para el periodo actual y establezca un límite para el error de estimación. Supóngase que las ventas totales en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres métodos de estimación con información auxiliar. b. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el error de estimación igual a 2.000€. Solución: (a) τˆY = 231.611,86; B = 3.073,83 ; τˆYL = 231.581,66; B = 2.950,85 ; τˆYD = 231.511,00; B = 3.849,01 (b) Razón: n = 44,56 ≅ 45 ; Regresión: n = 41,38 ≅ 42 ; Diferencia: n = 66,16 ≅ 67 8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2 (en miles de millones). Los datos se presentan en la tabla adjunta: Industria Producto de fábricas textiles Productos químicos y relacionados Madera aserrada y leña Equipo eléctrico y electrónico Vehículos y equipo Transporte y almacenaje Banca 1980 13,6 37,7 15,2 48,4 19,6 33,5 44,4 1981 14,5 42,7 15,1 53,6 25,4 35,9 48,5 211 Bienes Raíces 198,3 Servicios de Salud 99,2 Servicios de Educación 15,4 (a) Encuentre el estimador de razón del ingreso total de 221,2 114,0 17,0 1981, y establezca un límite para el error de estimación. (b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un límite para el error de estimación. (c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) τˆY = 2.433,30; B = 45,95 (b) τˆYL = 2.432,91; B = 48,64 (c) τˆY = 2.455,90; B = 180,07 9. En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000 Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. Solución: τ y ∈ ( 7.205.693€ ; 7.659.172€ ) 10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. Solución: τ yD = N µ yD = 3349000 € V (τ yD ) = N 2 N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n 2 V (τ yD ) = 14166,14 € 11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros), este año (Y) y el año pasado (X): 212 Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. Sin hacer distinción entre pueblos, estime las ventas medias para este año utilizando un estimador de razón. Dé un límite para el error de estimación. b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. Compare los estimadores que se obtienen en cada caso justificadamente. Solución: (a) µˆ = 180,53; B = 5,69 (b) µˆ = 171,91; B = 53,81 (c) µˆ = 171,43; B = 49,53 (d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación entre las variables. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. 12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros utilizados en riego aparecen en la siguiente tabla Litros 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. Solución: r = 11'81 litros / hectarea 2 V (r ) = 0 '3392 13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). Se obtuvieron los siguientes resultados: N1 = 80; N 2 = 60; N 3 = 40; n1 = 10; n 2 = 8; n3 = 6 Zona A Zona B Zona C X Y X Y X Y 3,2 4,1 3,1 3,9 2,8 3,8 3,0 4,0 3,0 4,0 2,9 3,7 213 2,9 4,1 3,1 3,8 2,9 3,8 2,8 3,9 3,2 4,0 3,0 3,6 3,1 3,7 3,0 3,8 3,1 3,8 3,2 4,1 3,2 4,1 3,0 3,7 2,9 4,2 2,9 3,7 2,8 4,0 3,0 3,8 3,1 3,9 2,8 3,8 a. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Dar una estimación del error. b. Si se le permite un error de estimación de 0,01 para estimar el peso medio estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación proporcional. c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón. Dar el límite de error de estimación. d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. Comentar los resultados. Solución: (a) µˆ x = 3,0008; B = 0,0516; µˆ y = 3,8944; B = 0,0523 (b) n = 144,4; n1 = 64,2 ≅ 65; n 2 = 48,15 ≅ 49; n3 = 32,1 ≅ 33 ⇒ n = 147 (c) µˆ y = 4,1467; B = 0,0793 (d) µˆ = 3,8875; B = 0,0617 14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los siguientes: 214 Nota curso 99/00 Nota curso 00/01 80 87 78 65 98 86 45 47 61 67 83 94 79 67 56 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una estimación del error de muestreo. Solución: µˆ y = 75; B = 7,45 15. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10 parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es 4200. Parcela 1 2 3 4 5 6 7 8 Cantidad en fotografía 12 30 24 24 18 30 12 6 Cantidad en terreno 9 10 36 42 18 42 24 36 24 36 14 10 48 54 a. Estime la razón poblacional y obtenga su intervalo de confianza. b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos, con un límite de error de estimación de 200 abetos? Solución: (a) r = 1,3077; (1'2057, 1'4097) (b) τˆ y = 5.492,31; B = 428,44 ) (c) n = 38,9 ≅ 39 16. De una población de 40 hogares, para la que es conocido que el gasto total general durante un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador, ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? 215 c. Estimar mediante un estimador de razón el total de gasto en alimentación, utilizando la información auxiliar del apartado b. d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del apartado a o el del apartado c. Solución: (a) (4.275.255, 6.724.744) (b) ρ = 1 (c) τˆ y = 6.000.000 (d) B = 0 (límite del error de estimación del apartado (c) 17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: x = 9,1 y = 2,6 25 ∑ xi2 = 2240 i =1 25 ∑ yi2 = 169 i =1 25 xi yi = 522 ∑ i =1 estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. Solución: r = 3,5 B = 0,767 18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas, a partir de los datos de la tabla siguiente, se pide: CHICOS CHICAS Examen previo Examen de cálculo Examen previo Examen de cálculo 39 65 57 92 43 78 47 89 21 52 28 73 64 82 75 98 34 56 52 75 a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de cálculo utilizando un estimador de razón. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Compare los estimadores que se obtienen en cada caso justificadamente. 216 Solución: (a) µˆ y = 80,97; B = 10,54 (b) µˆ = 73,76; B = 9,5 (c) µˆ = 76; B = 9,46 5. Muestreo Sistemático 1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día. Cantidad de llenado (en onzas) 12,00 11,97 12,01 12,03 12,01 11,80 11,91 11,98 12,03 11,98 12,00 11,83 11,87 12,01 11,98 11,87 11,90 11,88 12,05 11,87 11,91 11,93 11,94 11,89 11,72 11,93 11,95 11,97 11,93 12,05 11,85 11,98 11,87 12,05 12,02 12,04 a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800. b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades. Solución: (a) µˆ sy = 11,94; B = 0,0259 (b) n = 217,1 ≅ 218 2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil 1 8 15 Respuesta 1 1 0 2794 1 400 ∑ y i = 324 i =1 b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. 217 Solución: (a) pˆ sy = 0,8100; B = 0,0364 (b) n = 1.176,97 ≅ 1177 k = 4 3. Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 18 i =1 i =1 ∑ y i = 4.868; 2 ∑ y i = 1.321.450 Use estos datos para estimar el número total de personas que visitan el museo durante el periodo específico. Establezca un límite para el error de estimación. Solución: τˆ sy = 48680; B = 1.370,34 4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados. Sea y i = 1 si la i-ésima persona muestreada favorece los cambios propuestos e y i = 0 si se opone a los cambios. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. Establezca un límite para el error de estimación. 65 ∑ y i = 48 i =1 Solución: pˆ sy = 0,7385; B = 0,1042 5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un límite para el error de estimación. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? 218 Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Solución: (a) µˆ sy = 1.926.935; B = 139.437,35 ; (b) µˆ sy = 19,67; B = 3,17 ; (c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente. 6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Solución: µˆ sy Año Tasa Año Tasa 1900 0,7 1945 3,5 1905 0,8 1950 2,6 1910 0,9 1955 2,3 1915 1,0 1960 2,2 1920 1,6 1965 2,5 1925 1,5 1970 3,5 1930 1,6 1975 4,8 1935 1,7 1980 5,2 1940 2,0 = 2,26; B = 0,57 . Mejor, se observa, en general, una tendencia creciente en los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955. 7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑y i =1 i = 110 219 Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: n = 330, 7 ≈ 331 k = 6, 04 ⇒ k = 6 8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. Solución: k = 10 9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: n = Npq = 214,8 ≈ 215 ( N − 1) D + pq k≤ 625 = 3, 02 215 k =3 6. Muestreo por Conglomerados. (Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos datos) 1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: 220 Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un límite para el error de estimación. b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. Establezca un límite para el error de estimación. c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada en reparación de sierras por estas industrias, y establezca un límite para el error de estimación. Solución: (a) µˆ = 19,73; B = 1,78 (b) τˆ = 12.312; B = 3.175,07 (c) τˆ = 14.008,85; B = 1.110,78 2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 221 3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 a) Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b) La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 2% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. Solución: (a) pˆ = 70,91%; B = 4,81% ) (b) n = 47,6 ≅ 48 3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 222 17 78 3210 18 51 2430 19 67 2730 20 70 2880 a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación. b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite. Solución: (a) µˆ = 40,17; B = 0,64 (b) τˆ = 157.020; B = 6.927,88 (c) n = 29,4 ≅ 30 4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0 2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9 3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1 4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0 5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca un límite para el error de estimación. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita. Solución: µˆ = 16,0050; B = 0,0215 5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: 223 Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite para el error de estimación. b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: pˆ = 0,5701; B = 0,0307 (b) n = 20,1 ≅ 21 6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. Solución: n = 96,92 ≈ 97 7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la 224 encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i , supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos 225 ( ) estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. Solución: a) µ = 8.801,32 € / residente B = 1.617,14€ b) τ t = 22.061.400 € B = 3.505.584, 04 € c) (17.949.791,34€ , 26.056.831,18€ ) d) n = 166,58 ≈ 167 8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados, obtenga el límite para el error de estimación en cada caso y comente los resultados. Solución: Muestreo por conglomerados τˆ = 8000; B = 562,85 Muestreo aleatorio simple τˆ = 6400; B = 1077,78 9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cm3 1 33 32,5 31,7 34,2 2 32 32,6 33,8 32,5 3 30,9 33,1 33 33,4 4 34,1 33,1 32,5 33,2 5 32 32,1 32,6 33,6 Estime el volumen medio por envase y dar la cota de error de estimación. Solución: µˆ = 32,80; B = 0,22 10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: 226 Empresa 1 2 3 4 5 6 7 8 9 10 a. Estime el número de Bajas Empleados Respuesta 1 7 Si 2 15 No 9 85 Si 0 3 No 2 12 No 0 8 No 1 21 Si 0 4 No 4 35 No 6 92 Si bajas en el último año en las empresas del pueblo. Dé el límite del error de estimación. b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. Solución: (a) τˆ = 212,5; B = 151,02 (b) pˆ = 40%; B = 30,68% 11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación. Solución: pˆ = 0,1333; B = 0,0674 12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital Nº total horas que ven programa 1 8 13 2 7 13 3 9 14 4 6 13 5 5 0 6 9 10 7 6 6 227 8 8 14 9 9 16 10 6 4 a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital. b. Obtener un intervalo de confianza para el número total de horas. c. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional, con un límite para el error de estimación de magnitud 20. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) τˆ = 2060 ; (b) (1415,30, 2704,70) (c) n = 196,4 ≅ 197 13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la Nº hogares manzana interesados 1 8 3 2 7 3 3 9 4 4 6 3 5 5 2 6 9 4 7 6 3 8 8 3 9 9 4 10 6 2 a. Estimar la proporción de hogares interesados en contratar la televisión digital. b. Obtenga un intervalo de confianza para la citada proporción. c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción poblacional con un límite para el error de estimación del 1%. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) pˆ = 0,4247 (b) (0'3947, 0'4547) (c) n = 64,28 ≅ 65 14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una 228 muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción. Solución: pˆ = 0,48; Vˆ ( pˆ ) = 0,0143 15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido: Factoría Nº empleados Dispuestos 1 250 225 2 190 175 3 210 190 4 400 350 5 150 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Obtenga una estimación de la varianza del estimador empleado. Solución: pˆ = 0,1167; Vˆ ( pˆ ) = 0,0002 16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los datos son: 9 6 3 10 2 a. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque, con un límite de error de 275. Solución: (a) τˆ = 600; B = 308, 22 (b) n = 6, 20 ≅ 7 229 7. Estimación del Tamaño de la Población. 1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución: Nˆ = 444,4; B = 150,60 2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515 codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la población de codornices y dar un límite de error de estimación. Solución: Nˆ = 1810,99; B = 344,51 3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la segunda muestra. Estime el tamaño de la población total y establezca un límite del error de estimación. Solución: Nˆ = 10.867,72; B = 715,82 4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de investigadores para que estime el número de palomas que ocupan el edificio. Con varias trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño total de la población de palomas y dar un límite de error de estimación. Solución: Nˆ = 200; B = 78,88 5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una 230 muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución: Nˆ = 1.066,67; B = 507,72 6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. Solución: (a) λˆ = 5,6; B = 2,1 (b) Mˆ = 1.120; B = 423,32 7. Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de error de estimación. Solución: Mˆ = 912; B = 170,8 8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. Solución: muestreo inverso (1910 ∓ 326,58 ) 9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de 231 clientes las 24 horas del día por lo que decide observar de forma sistemática media hora cada 3 horas, obteniendo los datos de la siguiente tabla clientes 35 10:00-10:30 20 13:00-13:30 19 16:00-16:30 30 19:00-19:30 25 22:00-22:30 9 01:00-01:30 12 04:00-04:30 18 07:00-07:30 Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la farmacia observada y el correspondiente límite para el error de estimación utilizando diferentes métodos. Solución: Muestreo por cuadros Ingresos = 20.160; B = 3.110,76 ; Muestreo aleatorio simple Ingresos = 20.160; B = 5.402,22 10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80 palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el tamaño total y el límite de error de estimación. Solución: Nˆ = 800; B = 272,62 11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total de pingüinos y dar la cota de error de estimación. Solución: Nˆ = 2.000; B = 1.137,25 12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control Número de vehículos de ese modelo que usan el aparcamiento 1 1 2 1 3 2 4 1 5 3 Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. 232 Solución: Mˆ = 1152; B = 814,59 13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de personas era 2100. a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de confianza del 95%. b. Estime el número total de asistentes, y fije un límite para el error de estimación. Solución: (a) (1,4, 1,6) (b) Mˆ = 5.250; B = 229,13 ≅ 229 14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A partir de 15 muestras de 1 cm 3 , se obtuvo un promedio de 210 partículas/ cm 3 . Estimar la densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de dicha estimación. Solución: λˆ = 210 part / cm 3 ; B = 7,48 15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una muestra aleatoria de 40 cuadros, observando que el número de personas es de 750. a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de confianza. b. Estime el número total de asistentes a la inauguración y fije un límite para el error de estimación. Solución: (a) λˆ = 1,5306; (1'4188, 1'6424) (b) Mˆ = 1875; B = 136,9 16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600 palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca. a. Estime el tamaño de la población con un intervalo del 95% de confianza. 233 b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el triple?, ¿el cuádruplo?,... Solución: (a) ( 989 '79, 1510 ' 21) (b) el cuádruplo 8. Indicadores estadísticos regionales. 1. Sabemos que, en 1995, el PIB a precios de mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. Solución: F = 0, 7095 2. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas, cuyos V.A.B. al coste de los factores en millones de pesetas en 1991 fueron: V.A.B. Cataluña 2.876.920,7 Gerona 257.026,0 Barcelona 2.318.025,7 Tarragona 301.869,0 Baleares 358.450,3 Comunidad Valenciana 1.724.809,4 Castellón 205.160,3 Valencia 1.016.354,3 Alicante 503.294,8 Murcia 362.475,0 234 Andalucía Almería Granada Málaga Cádiz Total V.A.B. 1.056.503,0 140.396,8 206.487,2 346.748,7 362.870,3 6.379.158,4 Determinar: a. El índice de concentración de Theil de la producción de esta zona. b. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias existentes entre las provincias de cada grupo? Solución: (a) IT = 0,1604 (b) 68% 3. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga el índice de concentración de Theil e interprete su valor. Solución: N T = ln N + ∑ x j ln x j = 0,1597 j =1 IT = ITHEIL = T = 0,1152 ln N 4. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga la desigualdad colectiva e interprete su valor. Solución: N N i =1 i =1 D = ∑ di fi = ∑ di 1 1 N 2, 6865 = ∑ di = = 0, 6716 4 4 i =1 4 5. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 350 80 R1 70 15 R2 450 100 R3 250 50 R4 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. 235 Solución: F = 1− 1 N ∑ x j − y j = 0,97959 2 j =1 9. Medidas de localización espacial. 1. En un país, dividido administrativamente en cuatro regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas, Papeleras y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era: I Siderurgia 5 Construcción 10 Químicas 0 Papeleras 4 Alimentación 2 Total 21 Regiones II III 3 1 8 7 1 5 7 10 3 12 22 35 IV Total 0 9 12 37 3 9 3 24 4 21 22 100 Determinar: a. Los cocientes de localización para cada industria en cada región. b. Los coeficientes de localización sectorial para cada industria. c. Los coeficientes de especialización para cada región. d. Los coeficientes de diversificación regional. Solución: (a) Lij I II III IV Siderurgia Construcción Químicas Papeleras Alimentación 2,65 1,29 0 0,79 0,45 1,52 0,98 0,51 1,33 0,65 0,32 0,54 1,59 1,19 1,63 0 1,47 1,52 0,57 0,87 (b) CLi Siderurgia 0,46 Construcción 0,16 Químicas 0,32 Papeleras 0,14 Alimentación 0,22 236 (c) CE j I II III IV 0,25 0,12 0,23 0,22 (d) CD j I 0,61 II 0,73 III 0,77 IV 0,54 2. Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. b) Calcule los coeficientes de especialización para cada comunidad. Solución: a) Coeficientes de localización sectorial SECTOR REGION S1 S2 S3 R1 0,0571 0,1058 0,1184 R2 0,0356 0,0046 0,0066 R3 0,2423 0,0115 0,1013 R4 0,1496 0,1219 0,2131 CL j 0,2423 0,1219 0,2197 b) Coeficientes de especialización regional SECTOR CEi REGION S1 S2 S3 R1 0,0283 0,1927 0,1645 0,192733 R2 0,0478 0,0228 0,025 0,047808 R3 0,1998 0,0348 0,2346 0,234649 R4 0,0426 0,1278 0,1705 0,170455 3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente 237 Area/Especie Buitre Nutria Lince I 15 8 60 II 12 9 40 III 16 7 10 IV 13 4 18 Obtener el coeficiente de diversificación de estas especies en las distintas zonas. Solución: CDI = 0,59; CDII = 0, 68; CDIII = 0,9; CDIV = 0,8 4. En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos REGION R1 R2 R3 S1 15 10 6 SECTOR S2 S3 165 30 110 20 66 12 S4 195 130 78 Participación de las regiones en cada sector y en la población total SECTOR REGION R1 R2 R3 S1 0,4839 0,3226 0,1935 S2 0,4839 0,3226 0,1935 S3 0,4839 0,3226 0,1935 S4 población 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935 Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población 238 S1 0,0370 0,0370 0,0370 0,0370 SECTOR S2 S3 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 S4 0,4815 0,4815 0,4815 0,4815 Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3 S1 100,00 100,00 100,00 S2 100,00 100,00 100,00 S3 100,00 100,00 100,00 S4 100,00 100,00 100,00 Coeficientes de localización sectorial SECTOR S2 S3 S1 CL j 0 0 S4 0 0 Coeficientes de especialización regional CEi REGION R1 R2 R3 0 0 0 Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3 0,6178 0,6178 0,6178 0,49 0,49 0,49 5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la misma medida que el conjunto del pais. 239 7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: Yij2 L S1 S2 S3 ∑Y j =1 2 ij CDi = Yi i2 L L∑ Y j =1 R1 R2 8100 1296 90000 14400 38025 136125 6084 21780 2 ij CDi* = 0,838016529 0,838016529 L  1  CDi −  L −1  L 0,75702479 0,75702479 8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30). 10. Contrastes χ 2 de Pearson 1. El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 240 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). 2 Solución: ( χ exp = 4,9 ) < ( χ 4;2 0,95 = 9, 49 ) . No existe razón para creer que el número que asisten al consultorio no se encuentra distribuido en forma equitativa. 2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 ) 2 Solución: ( χ exp = 0, 04 ) < ( χ 2;2 0,95 = 5,99 ) . Se acepta la hipótesis de que los datos proceden de una distribución P (0,9) . 3. La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución: (χ 2 exp = 3291, 05 ) > ( χ 9;2 0,95 = 16,92 ) . Luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson con parámetro 3. 4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el tiempo trancurrido desde su última visita al médico: 241 Ingresos/Visitas <7 meses 7 meses-1 año >1 año Total Menos de 90.000 186 38 35 259 90.000-100.000 227 54 45 326 100.000-150.000 219 78 78 375 150.000-200.000 355 112 140 607 Más de 200.000 653 285 259 1197 Total 1640 567 557 2764 Contrastar a un nivel α = 0.05 si los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. 5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la noche y si tienen o no cancer de pulmon: Si fuman No fuman Total Si tienen cancer 20 16 36 No tienen cancer 6 14 20 Total 26 30 56 Contrastar a un nivel de α = 0.05 si son independientes estos dos atributos. Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia. 6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se obtienen los siguientes resultados: A B Hombres 20 15 Mujeres 25 30 Contrastar la hipótesis de que la marca comprada y el sexo del comprador son independientes. Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca comprada y el sexo del comprador son independientes. 7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla: Barrio A B C Total No Si A veces No lo sabe Total 5 31 2 2 40 10 21 4 5 40 11 20 7 2 40 26 72 13 9 120 Contrastar a un nivel α = 0.05 si son los tres barrios homogeneos respecto al conocimiento de los problemas de polución en su ciudad. 242 Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres barrios respecto al conocimiento de los problemas de polución. 8. Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? ( α = 5% ) (χ Solución: 2 exp = 1,18 ) < ( χ 2;2 0,95 = 5,99 ) . Luego se acepta que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson. 9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante A B C ≤ 30 8 12 22 42 > 30 28 44 53 125 36 56 75 167 El contraste a realizar es: H0 : Tipo de producto y edad son independientes (no están asociados). H1 : No son independientes (están asociados). 2 Solución: ( χ exp = 1, 27 ) < ( χ 2;2 0,95 = 5,99 ) . Luego no hay motivos para rechazar la hipótesis de independencia. 10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? (α = 0, 05) Sueldo\Antigüedad <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 n• j 17 16 4 9 6 52 5 8 11 8 3 35 10 9 5 8 4 36 6 7 2 6 6 27 ni• 38 40 22 31 19 150 2 Solución: ( χ exp = 13,1) > ( χ 6;2 0,95 = 12,59 ) . Luego existen razones para pensar que los sueldos y años de antigüedad NO son independientes. 243 11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B 140 105 BAJA 135 140 MEDIA 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0, 01 ) 2 = 6,95 ) < ( χ 2;2 0,99 = 9, 21) . La distribución de las notas es la misma en las Solución: ( χ exp dos universidades con un nivel de significación del 1%. Observese que se llegaría a la conclusión opuesta con un nivel de significación del 5%. 12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( α = 0,1 ) 2 Solución: χ k2−1,1−α = χ 4,2 0'90 = 7, 78 . Como ( χ exp = 1,91) <7,78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. 13. El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15 Más de 15 Salarios años años años años 34 14 16 36 Bajos (<1.000€) 82 20 34 64 Medios (1.000€, 1.500€) 84 16 50 50 Altos (>1.500€) Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. 2 Solución: χ (2r −1)( c −1);1−α = χ 2*3 ; 0,90 = 10, 6 . 244 Como ( χ 2 = 10,8833) > ( χ (2r −1)( c −1);1−α = 10, 6) , se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. 14. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. 2 Solución: χ (2r −1)( c −1);1−α = χ 2*2 ; 0,95 = 9, 49 . Como ( χ 2 = 31,8) > χ (2r −1)( c −1);1−α , se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 15. En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4 Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. 2 Solución: χ1;0,99 = 6, 63 . ( χ 2 = 0,72) <6,63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 16. La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: 245 Ausencias 0-5 5-10 Más de 10 Edad 30 9 20 16-25 31 22 10 25-40 25 20 9 40-55 35 14 15 55-65 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%. Solución: χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) Eij 2 = 13, 006 χ (2r −1)( c −1);1−α = χ 22×3 ; 0,99 = 16,81 Como ( χ 2 = 13, 006) < ( χ (2r −1)( c −1);1−α = 16,81) , se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. Sin embargo ( χ 2 = 13, 006) > ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. 17. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? d) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) χ 2 (n = ∑ ∑ r c ij i =1 j =1 χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99 − Eij ) Eij 2 = 6,233 χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta esa misma hipótesis nula con un nivel de significación del 1%. b) χ 2 = 1, 4 χ k2−1,1−α = χ 2,2 0'90 = 4, 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. 18. Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0, 05 ) 246 2 Solución: χ 2 = 1, 027 χ1;0,95 = 3,84 . 1,027<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% repectivamente. 19. En Estados Unidos se sabe que, históricamente, el 75% de los profesores de la Universidad de Harvard que se presentan a decanos son americanos, el 24% son europeos y el 1% de otros paises. De una muestra de 100 candidatos que se han presentado este año, 70 eran americanos, 21 eran europeos y nueve de otros paises. ¿Los candidatos de este año han seguido el mismo patrón que en años anteriores? ( α = 0, 05 ) 2 Solución: χ 2 = 1,33 χ1;0,95 = 3,84 . 1,333<3,84 luego se acepta la hipótesis de que los porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente. 20. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que realizan como muy útiles, el 36% como poco útiles y el 4% como nada útiles. Se toma una muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 68 consideran que los cursos son muy útiles, 18 consideran que son pocos útiles y 14 que son nada útiles. Contrastar la hipótesis de que los resultados obtenidos se corresponden con la opinión personal del rector. ( α = 0, 05 ) 2 Solución: χ 2 = 2, 67 χ1;0,95 = 3,84 . 2,67<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que consideran los cursos útiles y poco o nada útiles son el 60% y 40% repectivamente. 21. Se realizó una investigación para estudiar la reacción de las empresas ante las opiniones de importantes auditores. La siguiente tabla muestra, para empresas que habían recibido una opinión positiva, negativa o neutra de un auditor, cuáles cambiaron de auditor al año siguiente. Contrastar, a nivel del 1%, si el cambio de auditor por las empresas no depende de la opinión que recibieron del auditor. Opinión recibida Positiva Negativa Neutra Cambiaron auditor 141 227 23 No cambiaron auditor 991 8051 14 Solución: χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 224,223415 , hay que compararlo con el valor χ (2r −1)( c −1);1−α = χ12×1; 0,99 = χ1;2 0,99 = 6, 63 . Como χ 2 > χ (2r −1)( c −1);1−α , se rechazaría la hipótesis nula de independencia entre las opiniones de los auditores y la reacción de las empresas. 247 22. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos, con edades comprendidas entre los 16 y los 24 años y de origen anglosajón o hispano, se les preguntó cuanto alcohol consumían a lo largo de una semana. La siguiente tabla muestra los resultados. Número de botellas alcohol 0-1 2-4 Mas de 4 Anglosajón 19 45 3 Hispano 25 47 7 Contrastar, a nivel del 5% si el alcohol consumido depende del origen de los individuos. Solución: χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) 2 = 0,186078677 , hay que compararlo con el valor Eij χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula de independencia entre el consumo de alcohol y el origen de los individuos. 23. La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuántos de ellos ven la televisión menos de dos horas, de dos a cuatro y más de cuatro horas. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. Solución: χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 1,563581681 , hay que compararlo con el valor χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. 11. Contrastes no Paramétricos 1. A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063. 248 En años anteriores el número de respuestas correctas estaba representado, de forma adecuada, por una N(985, 50). Con base en esta muestra y usando el test de KolmogorovSmirnov, ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.05 ) Solución: ( Dexp = 0,1207 ) < ( Dα = 0,327 ) luego no existen motivos para rechazar que el número de respuestas correctas está representado por una N(985, 50). 2. Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes.( α = 0.05 ) Solución: La función de distribución del primer grupo siempre es mayor que la del segundo grupo, F161 ( x) > F162 ( x) , lo que sugiere un contraste unilateral. α = 0, 05 , n=m=16 Dα = 6  8  6 .  Dexp =  >  Dα =  ⇒ las dos muestras no provienen de la misma 16  16   16  población, o lo que es lo mismo, los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, lo que se refleja en que F161 ( x) > F162 ( x) . 3. Contrastar a un nivel α = 0.1 si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 Solución: α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no existen motivos para rechazar la hipótesis nula. 4. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 249 Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma. (α = 0.05) . Solución: RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + U = min (11, 9 ) = 9 4×5 − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 n = 4, m = 5, U α = 1 (tabla 3.19) (U = 9) > (Uα = 1) ⇒ los dos talleres producen lo mismo. 5. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realizar el contraste utilizando la prueba de Mann-Whitney.( α = 0.05 )  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5 U NO = (12 × 12 ) + 12 ×13 − 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5 2 U 0 = min (111,5; 32,5) = 32,5 U α = 42 ; (U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en cada situación y que los datos son los que se recogen en la siguiente tabla. No incentivos Incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 442 RSI = 833 250 U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508;117) = 117  25 × 25 25 × 25 × 51  U → N  ,  = N ( 312,5; 51,54 ) 12  2  117 − 312,5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3, 79] = 0, 00007 51,54   ( p = 0, 00007 ) ≤ (α = 0, 05) ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. 6. Para contrastar si un determinado curso de perfeccionamiento es efectivo, se somete a una muestra de 11 trabajadores a dicho entrenamiento, controlando el tiempo medio empleado en concluir determinada tarea, antes y después del curso. Los resultados son los siguientes Antes 12 15 9 16 13 17 12 14 8 10 11 Después 8 15 10 10 11 15 13 12 9 9 7 ¿Ha influido el curso en el tiempo empleado en concluir la tarea? (α = 0.05) Solución: Test de Wilcoxon de los signos-rangos: R+ = 47,5 R− = 7,5 R = 7,5 . Según tabla 4.2 (unilateral, 5%) valor crítico: 10. 7,5<10 se acepta que el tiempo empleado en concluir la tarea es menor despues del curso. (bilateral, 5%) valor crítico 8, 7,5<8 se rechaza la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo. Test de los signos: El número de diferencias negativas y positivas (3 y 7 respectivamente) cae dentro de la región de aceptación [ 2, 8] (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo. 7. Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25. Solución: Para n=10 y α = 0, 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0,409. ( Dexp = 0,1088 ) < ( Dα = 0, 409 ) luego no existen motivos para rechazar la hipótesis nula. 8. Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales 251 X ni 2 0,45 3 0,55 1 0,6 2 0,75 1 0,8 4 0,85 2 0,88 5 1 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1 x≤0   0 ≤ x ≤ 1 x ≥ 1  Solución: Para n=20 y α = 0, 05 Dα =0,294. ( Dexp = 0,19 ) < ( Dα = 0, 294 ) luego acepto la hipótesis nula. 9. Con nivel de significación de 5%, usando el test de Kolmogorov-Smirnov, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 Muestra 2 Solución: Dexp 2 2 4 4 2 5 3 3 5 5 6 4 7 7 8 9 3 6 5 3 6 = 2 /10 = 0, 2 α = 0, 05 , n=m=10, Dα = = 0, 6 , Dexp < Dα , acepto la 10 hipótesis nula de que las dos muestras se han obtenido de la misma población. 10. La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos menos de 10 10-20 20-30 30-40 40-50 50-60 Número de llamadas 15 17 26 18 13 11 Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov. Solución: χ k2−1,1−α = χ 3,2 0'95 = 7,81 . Como ( χ 2 = 30,13) >7,81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. 252 Dexp = max F0 ( x ) − Fn ( x ) = 0,1613 . Buscando en las tablas, para un contraste bilateral, DT = 1,3581 = 0,1358 . Al igual que con el anterior procedimiento de contraste se rechaza 100 H 0 dado que Dexp > DT 11. Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 € y desviación típica 10.000 €? ( α = 0, 05 ) Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0,1493 DT (0,05) bilateral = 0,519 . Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas. 12. Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado, obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. ( α = 0,1 ). Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov. Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0, 2413 DT (0,10)bilateral = 0,304 Se acepta H 0 dado que Dexp < DT 13. Se ha observado la temperatura durante los dias de una semana en la recepción de un hotel, obteniéndose 23,3º 17,6º 16,4º 20,9º 23,8º 23,3º 24,0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. Solución: Dexp = 0, 2451 n = 7 DT (0,05)bilateral = 0, 483 Dexp < DT , por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. 253 14. Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( α = 0,10 ) Solución: R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) 15. Supóngase dos muestras aleatorias independientes de tamaños n1 = 20, n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( α = 0, 05 ) Solución: Únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones. Es decir, un test al nivel del 5% unilateral. con ayuda de los extremos críticos inferiores del 5% de la tabla 4.40. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de que las muestras proceden de poblaciones distintas. 16. Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas. ¿Proceden las dos muestras ligadas de la misma población? Solución: De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. 17. Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. (utilícese el test de Wilcoxon de los signos-rangos) Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 Solución: n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que R = 13,5 > 3 , por tanto no puede rechazarse la hipótesis nula. 18. Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se repite la encuesta entre las mismas familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice los tests de los signos y de Wilcoxon). 254 Familia nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78 Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82 Solución: Test de Wilcoxon de los signos-rangos: R+ = 23,5 R− = 54,5 R = 23,5 . Según tabla 4.2 (bilateral, 5%) valor crítico: 13. 23,5>13 se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. Test de los signos: El número de diferencias negativas y positivas (9 y 3 respectivamente) cae dentro de la región de aceptación [3, 9] (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. 19. Antes de realizar una campaña de publicidad, se realiza una encuesta a 200 personas a las que se les solicita su opinión sobre un determinado producto financiero. Después de realizada la campaña, se realiza la misma pregunta a las mismas 200 personas. Los resultados se recogen en la siguiente tabla DESPUES DE LA CAMPAÑA BUENA NO BUENA ANTES DE LA BUENA 30 24 CAMPAÑA NO BUENA 126 20 Utilice el test de los signos para contrastar la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. Solución: µ = np = 24 − µ σ n 150 = = 75 2 2 σ 2 = npq = n 150 = = 37,5 ⇒ σ = 6,124 4 4 = −8,33 < −1, 645 (unilateral 5%, bilateral 10%) se rechaza la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. 24 − µ σ = −8,33 < −1,96 (unilateral 2,5%, bilateral 5%) al mismo resultado se llega con estos otros niveles de significación. Según la tabla 4.5 para n=150=126+24, el extremo izquierdo para el test bilateral con α = 5% es 63, como 24<63 se llega a la misma conclusión que antes (donde 63 ≅ µ − 1,96σ = 62,99 , es lo mismo comparar -8,33 con -1,96 que 24 con 63). En este ejemplo parece más adecuado el test unilateral dado que claramente predomina el cambio de signo en la opinión en un sentido frente al opuesto. 20. Se encuestan 40 establecimientos para conocer los beneficios diarios, en euros, que se obtienen con la venta de un determinado producto. Al cabo de tres meses se repite la 255 encuesta. Los resultados se recogen en la siguiente tabla. Contraste la hipótesis “la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma”. Nº de encuesta 1ª muestra 2ª muestra Nº de encuesta 1 16 17 21 2 20 24 22 3 8 12 23 4 9 6 24 5 27 24 25 6 12 15 26 7 35 28 27 8 25 25 28 9 15 17 29 10 30 21 30 11 16 30 31 12 32 31 32 13 21 21 33 14 23 26 34 15 19 21 35 16 32 32 36 17 27 32 37 18 16 14 38 19 21 21 39 20 34 30 40 Solución: Test de Wilcoxon de los signos-rangos: 1ª muestra 24 16 17 27 17 41 35 45 12 23 15 34 21 19 0 24 33 12 19 21 2ª muestra 25 19 15 24 17 32 32 41 0 23 19 30 21 19 14 29 47 20 19 21 R+ = 210,5 R− = 254,5 R = 210,5 . Según tabla 4.2 (bilateral, 5%) valor crítico: 137. 210,5>137 se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma. Test de los signos: El número de diferencias negativas y positivas (16 y 14 respectivamente) cae dentro de la región de aceptación [10, 20] (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma. 21. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov, Mann-Whitney y de las rachas que las siguientes muestras proceden de la misma población (α = 0, 05) MUESTRA A MUESTRA B 10, 12, 8, 10, 15, 12, 11, 14, 15, 13, 15, 13, 10, 9, 15, 17, 14, 13, 12, 15, 14, 16, 17, 23, 17, 14, 15, 14, 21, 20, 17 12, 13, 12, 14, 14 Solución: Test de Kolmogorov-Smirnov: Dexp = 0, 286 n1 y n2 grandes DT (0,05)bilateral = 22 + 14 1,3581 = 0, 464 22 ×14 Dexp < DT , por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 256 Test de Mann-Whitney: RA = 453 RB = 213 U 0 = 108 U α = 93 ( tabla 3.19, α = 0, 05, m = 22, n = 14 ) U 0 > Uα por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. Test de las rachas: Según se ordenen los empates se obtienen 13 o 15 rachas. Utilizamos la aproximación normal con µ= σ2 = z= 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 13 − µ σ = 2n1n2 2 × 14 × 22 +1 = + 1 = 18,1 n1 + n2 14 + 22 2 ×14 × 22 ( 2 × 14 × 22 − 14 − 22 ) (14 + 22 ) (14 + 22 − 1) 2 = 7,876543 ⇒ σ = 2,81 = −1,815 ( z = −1,815) ≤ (− z0,05 = −1, 645) ⇒ por tanto se rechaza la hipótesis nula de que las dos muestras proceden de una misma población. z= 15 − µ σ = −1.103 ( z = −1,103) > (− z0,05 = −1, 645) ⇒ por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 22. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. (α = 0.05) . Solución: Dexp = max F41 ( x) − F52 ( x) = 1 = 0, 25 4 DT (0,05)bilateral = 4 = 0,8 5 Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 23. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 257 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 70 80 70 70 60 Incentivos 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. ( α = 0.05 ) Solución: Dexp = max F51 ( x) − F52 ( x) = 3 = 0, 6 5 DT (0,05)unilateral = 3 = 0, 6 5 Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. 24. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov, α = 0, 05 ). Primera encuesta Tres meses después 30 20 Solución: Dexp = max F71 ( x) − F72 ( x) = 20 20 0 10 3 =0,4286 7 50 60 40 0 30 30 DT (0,05)bilateral 30 20 5 = = 0, 0, 7143 7 Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral . 258 PRE-PRÁCTICAS 259 INTRODUCCIÓN. Sería deseable que el alumno construyera hojas de cálculo como las del fichero PRÁCTICAS partiendo de hojas en blanco. Dado el escaso número de horas de prácticas y para que dicho tiempo se dedique a los aspectos más relacionados con la asignatura, se han confeccionado unas PRE-PRÁCTICAS donde la base de la plantilla como líneas, colores, etiquetas,... permanece en las hojas y falta por completar aquellas expresiones que hemos considerado más interesantes. Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone conocido por el alumno, sencillamente se recuerda y aconseja sobre la forma de utilizarlo. Se pretende así que el alumno conozca mejor cómo se han construido estas hojas para que haga un uso correcto de ellas y, si fuera el caso, sea capaz de modificarlas y adaptarlas a nuevas situaciones. Al faltar el valor de determinadas celdas, otras que dependen de las anteriores aparecerán con mensajes de error de cálculo. Esos errores de cálculo se irán resolviendo a medida que se vayan completando las primeras. Todas las celdas, salvo las que el alumno debe completar, están protegidas. Una vez resuelta cada PRE-PRÁCTICA su contenido debe coincidir con la hoja correspondiente del fichero PRÁCTICAS. 260 PRE-PRÁCTICA 1 Muestreo aleatorio simple en poblaciones infinitas En esta pre-práctica completaremos todas las expresiones (celdas amarillas) del caso numérico y aquellas del caso no numérico que son diferentes de las anteriores. Las expresiones o funciones más habituales están en Excel y nos podemos referir a ellas simplemente indicando su nombre. Así para calcular la media aritmética, en lugar de escribir la expresión de la suma de las celdas donde están los datos y dividir por el número datos, usaremos la función PROMEDIO. Para contar el número de datos de la muestra usaremos la función CONTAR y para hallar la cuasivarianza utilizaremos VAR. Todas las funciones de Excel van precedidas por el signo =. Cuando una función, como las anteriores, se refiere a los datos contenidos en un rango de celdas (conjunto continuo de celdas), indicaremos la primera y última celda separadas por dos puntos (p.e., =CONTAR(C21:C100)). Si el rango de celdas ocupa más de una columna, se indicará la primera celda de la primera columna y la última celda de la última columna. Para completar las expresiones de las celdas C12, C13, C14, C15, C18, D11, D12 Y D18 nos basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los apuntes y en el formulario. Recordemos que debemos empezar siempre con el signo =, que las operaciones aritméticas habituales están representadas por los conocidos símbolos del teclado 261 + , − , * , / . Para la raíz cuadrada utilizaremos la función RAIZ (p.e. =RAIZ(D11)) y para las potencias el símbolo del acento circunflejo francés ^ (p.e., para elevar B3 al cuadrado: =B3^2). PRE-PRÁCTICA 2 Muestreo aleatorio simple en poblaciones finitas El muestreo aleatorio simple en poblaciones finitas es análogo en sus expresiones al caso infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones finitas que aparece en la expresión de la varianza del estimador de la media  S 2  N - n  V ( y ) =   y la novedad de que no sólo se puede estimar la media sino también el  n  N    total. Utilizando las relaciones de la estimación del total y su varianza con los correspondientes ( ) valores para la media τ = N y , V (τ ) = N 2 V ( y ) completaremos las celdas D10 y D12. 262 La varianza para el estimador de la media (y proporción) en C12 (y E12) es análoga a la del S2  N - n  V ( y) =  , n  N  caso infinito salvo el coeficiente corrector para poblaciones finitas: V ( p) = pq  N - n   . n −1 N  En las celdas C18, D18, E18 y F18 calculamos el tamaño de la muestra n según las expresiones que aparecen en el formulario. Debe decirse en este punto que debemos usar los paréntesis necesarios para que el orden de las operaciones sea el correcto. n= Nσ 2 ( N − 1) D + σ 2 D= B2 4 (media) D= B2 4N 2 (total ) n= Npq ( N − 1) D + pq D= B2 4 ( proporción) D= B2 4N 2 (total ) Para facilitar la escritura en Excel de algunas expresiones del fichero PRÁCTICAS, éstas se han simplificado previamente y lo que aparece no es la trascripción fiel de cómo están en los apuntes de clase y en el formulario. La cota del error de estimación y los extremos de los intervalos de confianza tienen en este tipo de muestreo y en los que siguen la misma expresión que se ha visto para el muestreo aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una de las pre-prácticas. PRE-PRÁCTICA 3 Muestreo aleatorio estratificado Trabajaremos sobre el modelo de tres estratos, caso numérico. Los modelos de dos y cuatro estratos así como el caso no numérico se han construido de forma análoga. Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio simple por lo que serán válidas las expresiones construidas para este tipo de muestreo en la pre-práctica anterior. También serán útiles las funciones copiar y pegar para no tener que repetir una por una todas las expresiones en cada uno de los estratos. En primer lugar y para ilustrar lo último dicho, observemos que en la pre-práctica aparece en la parte superior (donde calculamos los estimadores y sus errores) sólo las expresiones para el primer estrato (según el muestreo aleatorio simple). Si se observa se verá que dichas expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). Análogas 263 expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas expresiones dos o más veces, dependiendo del número de estratos, usaremos las acciones copiar y pegar. Marcaremos el rango de celdas que va de C9 a D15, seleccionaremos copiar, marcaremos el rango E9:F15 (o sólo la primera de las celdas, E9) y con la opción pegar se copiarán las expresiones del estrato 1 en el estrato 2 pero, como puede comprobarse, referidas a la columna E en lugar de C. Repetiremos lo mismo para el estrato 3. Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de cada estrato pero no de la población global (columnas I y J). Dadas las conocidas relaciones entre la media y el total (trabajado en la pre-práctica anterior) nos vamos a centrar en la media y concretamente en las expresiones que son diferentes de todo lo que hasta aquí se ha visto. Para calcular en I8 el tamaño total de la población (igual en I9 para el tamaño total de la muestra) debemos sumar los correspondientes tamaños en cada estrato. Para eso se puede usar el símbolo + o la función SUMA ( =C8+E8+G8 o =SUMA(C8:G8)). Cuando usemos la función SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos los dos puntos por punto y coma (por ejemplo, =A5+B15+F3 es igual a =SUMA(A5;B15;F3)). Esto último es lo que se ha hecho en las expresiones de I10 y I12 que se podrían igualmente haber escrito usando el símbolo + sencillamente. 264 Para facilitar la construcción de las expresiones correspondientes a las distintas asignaciones se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en esas sumatorias. Como las expresiones son las mismas para cada estrato, pero referidas a los datos de cada uno, escribiremos primero las correspondientes al estrato 1 (C16, C17, C18 y C19) y posteriormente como se hizo antes, las marcaremos, seleccionaremos copiar y pegaremos en las celdas E16, E17, E18 y E19 para el segundo estrato y en G16, G17, G18 y G19 para el tercero. Dada la analogía de las expresiones para las distintas asignaciones en el caso de la media y total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel), nos centraremos en el caso de la media. TAMAÑO MUESTRAL MEDIA y TOTAL L (error fijo B ) n = Nσ ∑ i i =1 L Ni σ i ci ∑ ci i i =1 L N 2D + ∑ N iσ i2 i =1 Nσ C ∑ i i ci i =1 L ASIGNACIÓN ÓPTIMA (coste fijo C ) n = L Nσ ∑ i i =1 i ci N jσ j cj ωj = L ∑ i =1 N iσ i ci (∑ N σ ) 2 L n= ASIGNACIÓN DE i i =1 i L N 2D + ∑ N iσ i2 i =1 NEYMAN ωj = N jσ j L ∑Nσ i i =1 L n= ASIGNACIÓN PROPORCIONAL Nσ ∑ i =1 i i 2 i 1 L N iσ i2 ∑ N i =1 N ωj = j N ND + 265 B2 D= (media ) 4 B2 D= (total ) 4N 2 D De acuerdo a las expresiones de n para cada tipo de asignación, confeccionaremos las celdas I22, I23, I24 Y I25, a continuación calcularemos los tamaños de las muestras de cada estrato según la expresión ni = nωi en las correspondientes celdas de las columnas C, E y G. Los coeficientes de asignación son similares para cada estrato por lo que los escribiremos para el estrato 1 en la columna C y lo copiaremos en los otros estratos. Una novedad en relación a las copias que se han hecho antes es que aparece el símbolo $ precediendo bien la letra o el número que definen la posición de una celda. Este símbolo tiene la propiedad de fijar el valor de la columna (letra) o fila (número) a la hora de hacer copias. Como es conocido, cuando copiamos la expresión de una celda en otra, todas las letras y números relativos a la posición de las celdas referenciadas en la expresión cambian avanzando o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde copiamos. Para que esto no sea así (cuando nos convenga, como el caso que nos ocupa de las asignaciones) con el símbolo $ fijaremos las posiciones de las celdas que no queramos que cambien en la copia. Nota: se recuerda que el hecho de que aparezca el símbolo $ en la referencia a una celda no cambia en absoluto su valor. Según las anteriores aclaraciones escribiremos ni = nωi en las celdas C22, C23, C24 y C25 (observe que el valor de ωi es el mismo en C22 y C25, en ambos casos usamos la asignación óptima), y posteriormente lo copiaremos en E22, E23, E24 y E25 para el estrato 2 y en G22, G23, G24 y G25 para el estrato 3. En la siguiente pantalla se pueden observar algunos de los anteriores comentarios. N jσ j n1 = nω1 = n cj L ∑ i =1 $I22=n Los paréntesis C19= que aparecen en N iσ i ci N1σ 1 c1 la 3 $C19+$E19+$G19= ∑ i =1 expresión de la celda C22 N iσ i ci y en otras (=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el orden adecuado. 266 PRE-PRÁCTICA 4 Estimadores de razón, regresión y diferencia En esta pre-práctica estimaremos la razón R y la media utilizando estimadores de razón , regresión y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas a partir de la media). 267 Los valores de los estimadores así como de sus varianzas se expresan fácilmente en las celdas C12, C13, D12, D13, F12, F13, H12 y H13. Sólo un detalle digno de mención: debido a los ceros que aparecen en las columnas E ( rxi ), F ( ( yi − rxi ) 2 ), H ( di = yi − xi ) e I ( di2 ) cuando se opera sobre valores inexistentes de las columnas C y D, se tiene que utilizar en H12 la expresión =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la función PROMEDIO incluiría a todos los ceros como datos, obteniendo un valor falso para dicha media). Por esta misma razón, al hallar las “varianzas residuales” C17 y H17 se han usado las expresiones: S r2 = S D2 = 1 n 2 ( yi − rxi ) ∑ n − 1 i =1 ( 1 n ∑ yi − ( xi + d ) n − 1 i =1 ) 2 = C17 ⇒ ( 1 n ∑ di − d n − 1 i =1 ) 2 =SUMA(F22:F100)/(C11-1)  n  di  2 n  ∑  n  i  di2 − n  i =1  ∑ ∑d n  n  i =1 di2 −  i =1  ∑   n   = i =1 = n −1 n −1 2 di = yi − xi En la anterior línea aparecen distintas formas de escribir la cuasivarianza de las diferencias. En las PRÁCTICAS hemos utilizado la última. H17 ⇒ =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1) 2  n  Nota: Mucho cuidado, no confunda ∑ d y  ∑ di  . i =1  i =1  n 2 i Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados cálculos de las columnas E, F, H e I se hubiese utilizado la función =SI(condición; acción si cierta; acción si falsa), como veremos en la práctica 6. A pesar de esta posible solución se ha dejado así esta hoja de prácticas para que seamos conscientes del peligro de esos “falsos” ceros que aparecen cuando se opera de esta forma. La complicada expresión de la “varianza residual” para los estimadores de regresión (F17) se ve facilitada porque su raíz cuadrada (“desviación típica residual”) es la función de Excel =ERROR.TIPICO.XY. Nota: Cuidado al escribir los argumentos de esta función. En primer lugar se colocan las celdas con los valores de la variable Y (D22:D100) y a continuación después del punto y 268 coma los valores de la variable X: =ERROR.TIPICO.XY(D22:D100;C22:C100). Hacerlo al revés supondría calcular la desviación típica residual para la recta de regresión de X/Y ( x = a + by ) que no es la recta utilizada en el modelo de los estimadores de regresión. Si observamos el formulario, los tamaños muestrales (tanto para la media como para el total) para conseguir un determinado error de estimación máximo, son similares salvo que cada tipo de estimador considera su “varianza residual”. Nσ r2 n= ND + σ r2 Nσ L2 n= ND + σ L2 Nσ D2 n= ND + σ D2 Basándonos en el anterior comentario y utilizando para copiar el símbolo $ donde sea necesario, bastará con crear las expresiones D19 y E19 y copiarlas en F19, G19 y H19, I19. A la hora de determinar el tamaño muestral para estimar el total se ha tenido en cuenta la siguiente simplificación en las anteriores expresiones: ND = N por ejemplo E19 ⇒ B2 B2 = , 4N 2 4N =($C8*C17)/(C17+((E18^2)/(4*$C8))). La expresión C19 es algo distinta y no se puede copiar directamente de las anteriores expresiones, es exactamente igual a D19 salvo el valor D = B 2 µ x2 . 4 Para completar las columnas E, F, H e I, escribiremos las expresiones en las celdas E22, F22, H22 e I22, (E22=$C$12*C22, F22=(D22-E22)^2, H22=D22-C22, I22=H22^2) posteriormente copiaremos desde E22 hasta E100 (colocando el ratón en la esquina inferiorderecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F, H e I de igual forma. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100 habrá que fijar con el símbolo $ dicha celda (no es necesario fijar C anteponiéndole el $, aunque aparece así en la práctica, basta con escribir C$12 puesto que al copiar no nos movemos de columna, sólo nos movemos de fila). En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de regresión. En G22 la calcularemos, según nuestros apuntes, a partir de la covarianza y varianza. En G23 aparece según la función de Excel que nos da dicho valor. Con esta coincidencia se quiere mostrar que en este caso, como en otros, puede haber distintas alternativas para calcular un mismo valor. 269 G22 ⇒ =COVAR(C22:C100;D22:D100)/VARP(C22:C100) G23 ⇒ =PENDIENTE(D22:D100;C22:C100) Notas: La misma advertencia que se hizo con la función =ERROR.TIPICO.XY(D22:D100;C22:C100) vale aquí. Las celdas en las que se encuentran los valores de Y y de X deben aparecer en la función PENDIENTE en dicho orden pues si se altera estaríamos calculando la pendiente de la recta de regresión de X/Y. En algunas funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que aparezcan las celdas con los valores de X e Y es indiferente. Se sugiere escribir estas funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo. La función VARP es la varianza de los datos de la muestra mientras que la función VAR es la cuasivarianza de la muestra. PRE-PRÁCTICA 5 Muestreo sistemático Los cálculos para este tipo de muestreo se basan en el muestreo aleatorio simple para poblaciones finitas que ya se ha estudiado. La única novedad que presenta respecto a éste es el cálculo de k, el cual se ilustra en la PRACTICA 5 RESUELTA. 270 PRE-PRÁCTICA 6 Muestreo por conglomerados En esta pre-práctica haremos uso de la función “=SI” a la que hacíamos referencia más arriba en la pre-práctica 4. Recordemos su formato, =SI(condición; acción si cierta; acción si falsa) De las celdas cuya expresión vamos a completar en esta pre-práctica C13, C19, D12 y D13 se construyen utilizando la anterior función “=SI” que nos permite realizar dos cálculos (o acciones) distintos dependiendo de una condición. En nuestro caso concreto la condición va a ser el conocimiento o no del tamaño de la población M o lo que es equivalente el conocimiento o no del tamaño medio de los conglomerados de toda la población M = M . Si el contenido de la celda C8 es vacío (C8=“”) se entenderá que no se N conoce M y se procederá de una manera (acción si cierta), en cambio si la celda C8 no está vacía se utilizará dicha información y se procederá de otra forma (acción si falsa). En C13 y C19 las dos formas de proceder consisten en usar m = C11 o M = C8 (aparece C9 subrayado). C13 ⇒ =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 271 En D12 y D13 (también en D14, D15 y D16) dejaremos la celda en blanco (“”) si no tenemos la información de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos esa información, D12 ⇒ =SI(C8="";"";C12*C8) El resto de celdas de esta pre-práctica (C12, C17, D19, E12, E13, E17 y E19) se resuelven fácilmente a partir de las correspondientes expresiones del formulario. La función =SI se podría haber utilizado en el cálculo de las celdas E23 a E100 y F23 a F100 para evitar la aparición de ceros “falsos” como se anunció en la pre-práctica 4. En la celda E23 escribiríamos =SI(C23=“”;“”;C$12*C23) y copiaríamos su contenido hasta la celda E100. En la celda F23 escribiríamos =SI(D23=“”;“”;(D23-E23)^2) y copiaríamos su 272 contenido hasta la celda F100. Como puede comprobarse, de esta manera no aparecen ceros “falsos” y los problemas que comentábamos en la pre-práctica 4. PRE-PRÁCTICA 7 Estimación del tamaño de la población Utilizando las operaciones algebraicas básicas, potencias y logaritmos neperianos (=LN) se completan sin ningún tipo de nueva dificultad, a partir del formulario, las celdas C17, C18, D17, D18, E17, E18, E23, E24, F17, F18, F23 y F24. La cota del error de estimación y los intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de tipos de muestreo. 273 274 PRÁCTICAS 275 INTRODUCCIÓN Se han diseñado unas hojas de cálculo en Excel que permiten calcular todas las expresiones sobre muestreo, indicadores estadísticos regionales y medidas de localización espacial que se estudian en la asignatura. Aunque el formato de cada hoja es distinto dependiendo de los cálculos que en ella se realizan, hay unas características comunes que vamos a describir en primer lugar: ‰ Las celdas en las que debemos introducir los datos de la muestra son de color gris. ‰ Las celdas en las que calculamos el valor de las expresiones (coeficientes, índices, estadísticos,...) son de color amarillo. ‰ Las demás celdas de distintos colores (por motivos meramente estéticos) se corresponden con etiquetas para identificar los valores que aparecen en la hoja. ‰ En la parte superior de cada hoja se calculan los estimadores y errores asociados (además de otros valores necesarios y relativos como los intervalos de confianza,...) por debajo de estas filas y separadas por una o más filas de color blanco se calcula el tamaño de la muestra (o muestras) necesario para que se pueda hacer la estimación con un error máximo fijado de antemano, “COTA DEL ERROR DE ESTIMACION DESEADA” (o un coste total máximo, véase el muestreo estratificado) Para evitar que involuntariamente alteremos las expresiones de estas hojas de cálculo se ha protegido el contenido de todas las celdas salvo las de introducción de datos (celdas grises). Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger / Desproteger hoja o bien copiaremos la hoja del fichero original (“PRACTICAS”) en una nueva hoja no protegida (se aconseja esta segunda opción). En el desarrollo de la asignatura se propone a los alumnos la realización de 9 prácticas con la ayuda del fichero “PRACTICAS”. Para que puedan comprobar la correcta resolución de las mismas, se ofrecen resueltas en los ficheros: “PRACTICA 1 RESUELTA”,.... Las hojas de estos ficheros están protegidas para evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen previamente según se indica en el párrafo anterior. Una vez resueltos los ejercicios que aparecen en el enunciado de estas 9 prácticas (que se han seleccionado como representativos de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos problemas pueda de las relaciones de ejercicios, resueltos o no, que se le han facilitado. 276 Cuando se vaya a utilizar el fichero “PRACTICAS”, se debe borrar, antes de introducir los datos del problema, el contenido de todas las celdas de datos (celdas grises), pues dejar datos de ejercicios previos podría dar lugar a resultados erróneos. Cuando se borren los datos de las celdas grises aparecerán errores de cálculo en las celdas donde se evalúan las expresiones sobre dichos datos (#¡DIV/0!, #¡VALOR!, #¡NUM!, ..., dado que se evalúa la expresión considerando cero el valor de las celdas vacías). Estos errores desaparecerán en cuanto se introduzcan los correspondientes nuevos datos. En las celdas donde permanezcan dichos errores son expresiones que no se pueden calcular con la información de que disponemos y por tanto no podemos conocer. En algunas ocasiones será necesario introducir la información del problema en celdas distintas a las habituales (grises), para ello desprotegeremos previamente la hoja. Destacamos aquí, por ser muy frecuente, el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y muestreo estratificado en lugar de disponer de todos los datos que forman las muestras sólo tenemos la información resumida del tamaño, media y varianza (en variables numéricas) o del tamaño y proporción (en variables dicotómicas), en ese caso en las correspondientes celdas (marcadas con un color amarillo más intenso) escribiremos dichos valores, quedando vacías las celdas grises correspondientes a los datos muestrales. (Nota: en la hoja Razón, regresión y diferencia se utilizan distintos tonos de amarillo sólo con fines estéticos, no por los motivos indicados aquí para el muestreo aleatorio simple y estratificado). El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versión del programa y de la configuración de las barras de herramientas, zoom,..., de hecho en este documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no resta generalidad ni validez a los comentarios que se acompañan. Para cada una de las prácticas que siguen se han elegido ejercicios representativos, algunos están resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los capítulos. Sería conveniente resolver todos ellos a mano antes de hacerlo con el ordenador, eso ayudará a una mejor comprensión de cómo se ha construido la plantilla para la práctica y de la potencialidad del ordenador para resolver este tipo de problemas. Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que se resuelven con la ayuda del ordenador y otros a mano, sino que todos los ejercicios que hay 277 en las relaciones de cada capítulo se pueden resolver (salvo puntuales excepciones) de ambas formas y deberían resolverse cómodamente una vez que se dominen estas prácticas tras resolver los ejemplos que siguen. Las prácticas 10 y 11 sobre contrastes de hipótesis no paramétricos se realizarán con la ayuda del programa SPSS. Previo a estas prácticas se ofrece una “Introducción al SPSS” para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una “Guia breve de SPSS” para aquellos otros que quieran profundizar más en su uso. 278 PRÁCTICA 1 Muestreo Aleatorio Simple en poblaciones infinitas (o con reemplazamiento) 1. Con objeto de estimar la media poblacional de dos poblaciones infinitas, realizamos un muestreo aleatorio simple sobre ambas poblaciones, recogiendo en la primera una muestra de tamaño 36 y en la segunda una muestra de tamaño 45 26,3 28,5 31,6 25,5 24,6 32,3 35,5 29 27,3 MUESTRA 1 31,5 34,6 30,2 29,5 29,4 28,8 30,6 26,6 31,4 27,5 25 35,4 26 38 24 29 29,2 27 25,5 27,8 26 24 26 31,5 35,3 32,2 34,1 1 0 1 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 MUESTRA 2 0 1 0 0 0 0 1 0 1 1 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 0 1 Obtenga en ambos casos: a. La media muestral. b. La cuasivarianza muestral. c. Límite para el error de estimación (95% de confianza) d. Intervalo de confianza para la media poblacional (nivel de confianza del 95%) Solución: a) Media muestral b) Cuasivarianza muestral c) Límite para el error de estimación d) Intervalo de confianza MUESTRA 1 y = 29,35 MUESTRA 2 S = 13,38 1,22 (28,13 , 30,57) Sn2−1 = 0, 2556 0,1507 (36,04% , 66,18%) 2 n −1 p = 51,11% Seleccionamos del fichero Excel “PRACTICAS” la hoja “MAS infinito” (Muestreo aleatorio simple en poblaciones infinitas) y antes de nada, tal y como se aconseja en la “INTRODUCCIÓN A LAS PRÁCTICAS EN EXCEL” debemos borrar toda la información numérica que hubiera en las celdas grises. Este primer paso común a todas las prácticas que siguen no se repetirá en la explicación de cada una para no aumentar innecesariamente la longitud del documento 279 Dado que los datos de la muestra 1 son numéricos los escribiremos en la columna correspondiente a “Datos numéricos” (columna C) y la muestra 2 por ser dicotómica la escribiremos en la columna D Obteniéndose la solución del apartado a) en C10 y D10, del apartado b) en C11 y D11, del apartado c) en C13 y D13, del apartado d) en C14, C15, D14 y D15. 280 2. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 300 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) Cuantas compras deberían observarse para estimar, con un error inferior al 2%, la proporción de compras pagadas con la tarjeta. (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 2%. Solución: a) (7,95%, 15,38%), b) n=1.030,6≈1.031, c) n=2.500. Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo más intenso (Herramientas/Proteger/Desproteger hoja...). Puesto que se trata de una variable dicotómica trabajaremos sobre la columna D. Escribimos en D9 el tamaño de la muestra (300) y en D10 el valor de la proporción muestral (=35/300) 281 Obteniéndose en D14 y D15 la solución al apartado a): (0,0795 , 0,1538). Si deseamos ver el valor de una o varias celdas con más decimales, seleccionaremos éstas y pulsaremos en el botón “aumentar decimales” de la barra de herramientas “formato” tantas veces como decimales se quieran añadir. Análogamente, con el botón “disminuir decimales” redondearemos el resultado con un menor número de decimales. (Si la hoja está protegida no nos permitirá hacer este tipo de acciones). 282 En casi todas las hojas (“MAS infinito”, “MAS finito”, “2 Estratos”, “3 Estratos”, “4 Estratos”, “Razón, regresión y diferencia” y “Conglomerados”) se ha adoptado un esquema similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y los errores de estimación asociados (y cálculos relacionados con los anteriores) en la parte inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se determina el tamaño de la muestra para un límite del error de estimación fijado (deseado). Para esta parte inferior de la plantilla se necesita como información, para realizar los cálculos, la cota del error de estimación deseada y en el caso numérico la varianza muestral que puede obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta “Muestra” o bien a partir del rango (como veremos en el ejercicio 5 de la práctica 2). En el caso dicotómico la varianza muestral depende de p (proporción muestral o estimación de la proporción) y este es el valor que debemos incluir en la plantilla para obtener el tamaño muestral, p puede obtenerse de una muestra previa que aparecería bajo la etiqueta “Muestra”, introducirse directamente si se conoce su valor (como en el apartado b de este ejemplo, p = 35 / 300 ), o bien, darle el valor 0.5 cuando no se tenga ninguna información acerca de su valor (como en el apartado c). NOTA: No debe confundirse el tamaño muestral que aparece etiquetado en rosa que corresponde al tamaño de una muestra que hemos observado, que ya tenemos, del tamaño muestral que aparece etiquetado en naranja y que nos dice cómo debe ser la muestra que debemos tomar, por tanto aún no se tiene, para conseguir que las estimaciones tengan 283 como máximo un determinado error de estimación. Asimismo no debemos confundir la cota del error de estimación etiquetada en rosa que se refiere al error asociado a una estimación hecha con la muestra que hemos observado y por tanto su valor no lo decidimos nosotros, con la cota del error de estimación etiquetada en naranja que la fijamos de antemano. Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 “COTA DEL ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solución: n=1030,6 Por último, para resolver el apartado c), dado que no se tiene información sobre la proporción de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167), suponemos que ese valor es ½=0,50. 284 En las celdas D11, D12, D13, D14 y D15 aparecen errores en el cálculo de dichas expresiones debido a que entienden que el tamaño muestral en D10 es cero, pero dichas celdas no afectan al cálculo de la expresión D18 donde aparece el tamaño muestral necesario para que el error de estimación no supere el 2% (D17=0,02) 3. Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 4.500€ (siendo la cuasivarianza de los datos 615,15). Estímese el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: µ = 128,57 B = 8,38 Aunque en el mismo contexto que el ejercicio 2 de esta práctica, en este caso trabajamos con una variable numérica donde el tamaño de la muestra no es 300 sino 35 (clientes observados que pagaron con la tarjeta). En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos mediante su media (la calculamos como la suma de las compras dividida entre el número de ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja de cálculo para poder introducir directamente en las celdas color amarillo intenso los anteriores valores que la hoja de cálculo hubiese obtenido si le diéramos los datos de la muestra. La estimación de la media y el error de estimación asociado pueden leerse en las celdas C10 y C13. 285 PRÁCTICA 2 Muestreo Aleatorio Simple en poblaciones finitas. Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de poblaciones infinitas estudiado anteriormente y presenta análogas posibilidades y/o dificultades. Nos podemos encontrar con variables de tipo numérico (ejercicios 1, 2 y 3) y dicotómicas (ejercicios 3 y 4). Situaciones en las que conocemos explícitamente los datos de la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra en su media, varianza y tamaño muestrales (caso numérico, ejercicio 2) o en su proporción y tamaño muestrales (caso dicotómico, ejercicio 4). En cuanto a las diferencias entre un tipo de muestreo y otro, señalar que en el muestreo aleatorio simple en poblaciones finitas tiene sentido la estimación del total poblacional (como sabemos, a partir de la media o de la proporción) hecho que no se trata en el muestreo aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las estimaciones, errores de estimación e intervalos de confianza, tanto en el caso numérico como dicotómico, se han desdoblado para calcular los correspondientes valores relativos a la estimación de la media (o proporción) y del total. Dado que nos enfrentamos a una población finita debemos introducir el valor finito del tamaño de la población en C8 o E8. Cuando algunos valores (tamaño poblacional, tamaño muestral,..., datos muestrales) son comunes a la estimación de la media y del total se fusionan las celdas de las dos columnas para evitar repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en poblaciones finitas. 286 1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 a) Estime el total del dinero adeudado y establezca un límite para el error de estimación. b) ¿Cuántas cuentas deberían observarse para estimar el total de deuda con un error inferior a 200€? (considere los anteriores datos como una muestra previa) Solución: a) τ = 3966,6 2 V (τ ) = 381, 02 b) n = 18,96 ≈ 19 En este sencillo ejercicio sólo tenemos que borrar los datos de las celdas grises e introducir la información del enunciado. No es necesario desproteger la hoja porque no se modifica ninguna de las expresiones de las celdas amarillas. 287 Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el máximo error de estimación que deseamos en la celda D17 se obtiene el tamaño muestral necesario en D18, (si el error de estimación se refiere a la media, éste debe introducirse en C17). 2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una comunidad de regantes para estimar el promedio de consumo de agua diario (en m3) durante un periodo estacional seco. La media y varianzas muestrales fueron y = 10,31 m3 y s 2 = 2, 25 m6 . Hay en total 750 regantes en la comunidad. a) Estime el consumo medio diario de toda la comunidad y establezca un límite para el error de estimación. b) Estime con un intervalo de confianza la cantidad total de litros de agua empleada diariamente. Solución: a) y = 10,31m3 B = 0, 41m3 , b) (7.425.090 litros , 8.039.910 litros). En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que desprotegerla para escribir en C9, C10 y C11 el tamaño, la media y varianza muestrales, además de no olvidar el tamaño de la población en la celda C8. En C10 y C13 está la respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores están expresados en m3 y la respuesta la piden en litros por lo que se multiplicarán por 1000). 288 3. Para estimar el número de alumnos de un grupo de la asignatura Técnicas para el Análisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los 15 alumnos de un grupo de prácticas de la asignatura. La respuesta se recoge en la siguiente tabla 1-SI 2-SI 3-NO 4-SI 5-NO 6-NO 7-SI 8-SI 9-SI 10-NO 11-NO 12-NO 13-SI 14-SI 15-NO a) Estime, mediante un intervalo de confianza, cuántos de los 150 alumnos que hay en ese grupo tienen acceso en casa a Internet. b) ¿Le parece fiable la predicción?. c) A cuantos alumnos se tendría que preguntar para que la estimación se realizara con un error inferior a 10 alumnos. Solución: a) (42,05 , 117,95), b) No, el error es muy grande (37,95) y por tanto el intervalo de confianza muy amplio, c) n=90,1≈91. Este ejercicio es un sencillo ejemplo de datos dicotómicos donde se conocen los valores de la muestra, sólo tenemos que introducirlos en la columna correspondiente, etiquetando como 1 aquella respuesta cuya proporción o total queremos estimar (en este caso SI=1, NO=0). Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en la filas 14 y 15 la respuesta. El valor de la cota del error de estimación del total que vemos en F13=37,95 es importante si lo comparamos con la estimación del total F10=80 (casi la mitad), por lo que se concluye la poca fiabilidad de la estimación. Escribiendo el máximo error de estimación que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el tamaño muestral necesario para conseguirlo. 289 4. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada para determinar la proporción de estudiantes que está a favor del cambio del sistema semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente. Estime la proporción de estudiantes que está a favor del cambio y establezca un límite para el error de estimación. Solución: p = 19, 44% B = 3, 74% En este ejemplo de datos dicotómicos (como el anterior) no tenemos explícitamente la lista de los 180 elementos observados pero conocemos el tamaño (180) y la proporción muestral (35/180). Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y E10 (=35/180) apareciendo en E10 y E13 la respuesta. NOTA: En ejemplos con datos dicotómicos donde se tenga la lista completa de los valores de la muestra se puede optar por este procedimiento de resolución que resulta a veces más cómodo. Así por ejemplo, en el ejercicio anterior podríamos haber contado los elementos de la muestra n=15, el número de respuestas SI=8, desproteger la hoja de cálculo y escribir en E9 (15) y en E10 (=8/15). 290 5. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). NOTA: En la casilla C11 estimamos la varianza mediante R 2 (1400 − 600 ) σ ≅ = = 40.000 16 16 2 2 (se utiliza que la desviación típica en variables normales es aproximadamente la cuarta parte del rango o recorrido de los datos observados) Solución: n = 615, 62 ≈ 616 En primer lugar, señalar que se trata de un problema con datos numéricos (valor de las cuentas) y que estamos interesados en la estimación del total. Según se sugiere en la nota, escribiremos en la celda C11 la expresión =((1400-600)^2)/16 ,o bien =(800^2)/16, que como puede observarse vale 40000. En D17 introduciremos el máximo error de estimación que queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta 291 292 PRÁCTICA 3 Muestreo Aleatorio Estratificado. En el fichero Excel de las prácticas de la asignatura hay tres hojas con las plantillas para los cálculos necesarios en el muestreo aleatorio estratificado de 2, 3 y 4 estratos, tanto para datos numéricos como dicotómicos. Para un mayor número de estratos se puede confeccionar la plantilla fácilmente copiando las dos columnas de un estrato tantas veces como se quiera e incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos columnas de toda la población donde se recopila la información del conjunto de todos los estratos (véase las notas sobre las preprácticas). El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los estratos, por lo que en cada estrato (en la parte superior de la plantilla) se han copiado, exactamente, las mismas expresiones que aparecen en el muestreo aleatorio simple. La determinación del tamaño muestral y su asignación (parte inferior de la plantilla) son mucho más complejas que en el muestreo aleatorio simple y no guardan relación con él. Al igual que el muestreo aleatorio simple, el muestreo aleatorio estratificado puede hacerse sobre poblaciones finitas e infinitas. Nosotros hemos supuesto el modelo con tamaños poblacionales de los estratos finitos (que aparecen en la fila 8), pero como veremos en algunos ejemplos ( ejercicios 4 y 8) se puede aplicar también al caso de tamaños poblacionales infinitos. Para simplificar las expresiones de la parte inferior de la plantilla (determinación del tamaño muestral y asignación) se han hecho unos cálculos previos en la banda blanca intermedia que aparecen en un negro menos intenso y carecen de una interpretación directa. 1. Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se 293 muestran en la siguiente tabla: BARRIO A 36 34 26 39 38 32 38 37 29 28 41 35 29 37 41 BARRIO B 20 25 30 14 41 39 BARRIO C 14 22 15 17 21 11 20 14 24 Estime el tiempo medio que se ve la televisión, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. e) ¿Qué tipo de asignación se ha utilizado? NOTA: Obsérvese que debido al tipo de asignación utilizado, y st = y . y st aparece en la celda I10=28,23. y lo podemos calcular, por ejemplo en la celda B28, escribiendo la función =PROMEDIO(C28:G100) que calcula la media aritmética de todos los datos incluidos en las tres muestras (columnas C, E y G), obteniéndose B28=28,23. Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. f) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). NOTA: Para comprobar que la asignación óptima y de Neyman coinciden cuando los costes son iguales, escriba en las celdas C21, E21 y G21 el mismo valor para los tres costes y observará que las filas 22 y 23 de la tabla (asignación óptima y de Neyman) coinciden. g) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). 294 Solución: a) y A = 34, 67 B = 2, 40 c) y C = 17,56 B = 2,82 b) y B = 28,17 B = 8,35 d) y st = 28, 23 B = 2, 22 e) proporcional f) n=124,88 n1 =79,71 ≈ 80 n 2 =23,39 ≈ 24 n 3 =21,78 ≈ 22 n=80+24+22=126 . En el caso de no querer sobrepasar un máximo error de estimación siempre redondearemos por exceso. g) n=198,56 n1 =126,74 ≈ 126 n 2 =37,19 ≈ 37 n 3 =34,63 ≈ 34 n=126+37+34=197 . Cuando no queramos superar un determinado presupuesto redondearemos por defecto, haciéndolo así : coste total = (1× 126) + (9 × 37) + (4 × 34) = 595€ sin embargo: coste total = (1×127) + (9 × 38) + (4 × 35) = 609€ Estamos ante el caso más sencillo de estratos con datos numéricos donde sólo tenemos que introducir la información que tenemos en las celdas grises. No hace falta desproteger la hoja “3 Estratos” salvo para los cálculos del apartado e (motivo por el que lo resolveremos al final). Para responder a los apartados a, b, c y d , escribiremos los tamaños poblacionales de los estratos en la fila 8 y los valores de las muestras en las columnas C, E y G bajo las etiquetas “Muestra 1”, “Muestra 2” y “Muestra 3”. NOTA: No olvide pulsar “Enter” después de escribir el último dato pues en caso contrario la hoja de cálculo no lee éste. La estimación para la media y su límite para el error de estimación en cada uno de los estratos (barrios) pueden verse en C10, C13; E10, E13; G10, G13 y la estimación para el conjunto de todos los hogares de la población en I10, I13. 295 Para contestar al apartado f, escribiremos los costes de observación en C21, E21 y G21 y el máximo error de estimación que queremos cometer al estimar la media en I20 (si pretendiéramos estimar el total de horas con un determinado error utilizaríamos la celda J20). En las filas 22, 23 y 24 están los tres tipos de asignación estudiados. Nos fijaremos en los valores que aparecen en las columnas correspondientes a la media de cada estrato y de la población porque ha sido sobre la estimación de la media donde hemos impuesto la condición de que el error no supere 1 hora. A los valores que hay a la derecha de éstos y que se refieren al total no hay que prestarles atención, se han calculado suponiendo que queremos estimar el total con un error cero (celda J20 en blanco) y carecen de sentido, obsérvese que en el caso de la asignación óptima deberíamos observar 453 elementos de un total de 420 que hay en toda la población, con la asignación de Neyman habría que observar en el estrato 2 a 130 elementos, sin embargo sólo hay 84 en ese estrato. Hechas estas aclaraciones nos queda aún la decisión de cuál de las tres asignaciones debemos tomar. Salvo que se pregunte por una asignación concreta en el enunciado del ejercicio, debemos utilizar siempre que se pueda la asignación óptima, fila 22, pues como su nombre indica es la mejor. Cuando no conozcamos los costes de observación (bórrese estos de la fila 21) no se podrá obtener la asignación óptima, la hoja de cálculo nos dará errores de división por cero. 296 En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un presupuesto o coste total fijo, en este caso 600€. Para ello utilizamos la asignación óptima para un coste total fijo, fila 25. La solución la tenemos en la pantalla que aparece en la página 19 de este documento (celdas C25, E25, G25, I25). La celda B21 incluye dos etiquetas, la primera “COSTE DE UNA OBSERVACIÓN” se refiere a lo que cuesta una observación en cada estrato y debemos escribirlo en C21, E21 y G21, la segunda etiqueta “COSTE TOTAL” hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21. La determinación y asignación de las muestras en los apartados f y g utilizan las estimaciones de las varianzas de los datos en cada estrato (varianza muestral, fila 11) a partir de las muestras previas de 15, 6 y 9 elementos que disponemos en los respectivos estratos, tal y como se indica en el enunciado. En el apartado e vamos a verificar que se ha utilizado la asignación proporcional en la muestra observada. equivalentemente Para comprobarlo hay que ver que n1 n n n = 2 = 3 = N1 N 2 N 3 N o N1 N 2 N 3 N = = = . Para ello en cualesquiera tres celdas en blanco n1 n2 n3 n calcularemos: =C8/C9, =E8/E9, =G8/G9 y observaremos que coinciden. Nota: Para hacer esos cálculos en esta hoja habrá que desprotegerla. Si coinciden estos tres valores no es necesario comprobar la igualdad con =I8/I9. Consecuencia de haber utilizado la asignación proporcional es que y st = y . Ese hecho se ha comprobado calculando y en B28 y observando que coincide con y st en I10 (véase pantalla de la página 19). 2. En el caso anterior, también se desea saber qué proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI NO SI SI SI NO SI SI SI SI NO SI SI NO NO NO SI SI SI NO SI NO SI NO NO SI NO NO SI SI a) Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. b) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el 297 coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) c) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa. Solución: a) (42,7% , 77,3%) b) n=188,98 n1 =101,29 ≈ 102 n 2 =30,27 ≈ 31 n 3 =57,42 ≈ 58 n=102+31+58=191 c) n=204,88 n1 =102,44 ≈ 103 n 2 =40,98 ≈ 41 n 3 =61,46 ≈ 62 n=103+41+62=206 Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aquí trabajamos con datos dicotómicos. Seleccionaremos en la hoja “3 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. En el enunciado de este ejercicio no se repiten los tamaños poblacionales de los estratos porque se sobreentiende que son los mismos al no cambiar de población en estudio. Tras introducir los datos, en S14 y S15 tenemos los extremos del intervalo de confianza pedido en el apartado a. Obsérvese que aunque se dice que los costes de observación por teléfono son los mismos, éstos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la 298 asignación óptima. Pero sabemos, como se ha comprobado en la nota al apartado f del ejercicio anterior, que las asignaciones óptima y de Neyman coinciden si los costes de observación son iguales (se conozcan o no). Se sugiere escribir unos costes de observación (los que se quieran) iguales para los tres estratos y comprobar que la asignación óptima nos daría los mismos valores que la asignación de Neyman (M23, O23, Q23 y S23) que son la solución al apartado b. Cuando, como en el apartado c, no se tienen datos previos para estimar la proporción en cada estrato y a partir de ella la varianza de los datos en cada estrato, suponemos que el valor de la proporción es 0,5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir en M10, O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas “MUESTRA 1”, “MUESTRA 2” y “MUESTRA3”. Al no introducir datos muestrales (por tanto, tamaño muestral = 0) aparecen errores de cálculo en las filas 11, 12, 13, 14 y 15, pero esos valores no afectan a la determinación del tamaño muestral que sólo tiene en cuenta los tamaños de los estratos (fila 8) y la estimación de la proporción (fila 10). Además se observa que al ser la proporción igual en los tres estratos y por tanto la varianza de los estratos, las asignaciones de Neyman y proporcional coinciden y son la solución al apartado c. 299 3. Una multinacional desea obtener información acerca de la efectividad de una máquina comercial. Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la maquina con base en una escala numérica. Las divisiones están localizadas en Norteamérica, Europa y Asia. Es por eso que se usa muestreo estratificado. Los costes son mayores para las entrevistas de los jefes de división localizados fuera de Norteamérica. La tabla siguiente proporciona los costes por entrevista, varianzas aproximadas de las calificaciones y número de jefes de división en cada zona. Estrato I (Norteamérica) Estrato II (Europa) Estrato III (Asia) c1 = $9 c 2 = $25 c 3 = $36 σ 12 σ 22 σ 32 = 3,24 = 2,25 N1 = 112 = 3,24 N 2 = 68 N 3 = 39 La multinacional quiere estimar la calificación media con un error inferior a 1 punto. Encuentre el tamaño apropiado de la muestra que conduce a este error para el estimador y su asignación. Solución: n=11,26 n1 =6,84 ≈ 7 n 2 =2,99 ≈ 3 n 3 =1,43 ≈ 2 n=7+3+2=12 En la hoja “3 Estratos”, tras borrar toda la información de las celdas grises, escribimos el valor de los costes de observación en la fila 21, las varianzas de los estratos en la fila 11 (hay que desproteger la hoja) y los tamaños de los estratos en la fila 8. El máximo error de estimación que se quiere cometer al estimar la media se sustituye en I20. La solución sería la asignación óptima (fila 22), valen los mismos comentarios hechos en el ejercicio 1, apartado f. 300 4. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que proceden de tres máquinas diferentes de producción. Ella sabe que de los circuitos integrados que van a ser inspeccionados, el 50% proceden de la máquina A, el 30% de la máquina B y el 20% de la máquina C. En una muestra aleatoria de 200 circuitos integrados, 80 provienen de la máquina A, 70 de la B y 50 de la C. De los circuitos integrados muestreados: son defectuosos 10 de la máquina A, de la B son defectuosos 6 y de la C son 5 defectuosos. Estratifique la muestra en circuitos integrados provenientes de las máquinas A, B y C, estime la proporción de defectuosos en la población y fije un límite para el error de estimación (omita los coeficientes correctores para poblaciones finitas en todos los casos). NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores para poblaciones finitas N i − ni en la correspondiente hoja de cálculo (tres estratos), lo que Ni equivale a hacerlos igual a 1. Tendríamos que (por ejemplo en el estrato 1) borrar en las fórmulas de las celdas M12 y N12 las expresiones N i − ni M 8 − M 9 = (análogamente Ni M8 repetiríamos para los estratos 2 y 3 en las celdas O12, P12, Q12 y R12) . Lo anterior se puede resolver más fácilmente dando a los valores N i en las celdas M8, O8 y Q8 valores muy grandes de forma que conocidos aunque sí N i − ni ≅ 1 . Por otra parte dado que los valores N i no son Ni Ni (0,50, 0,30 y 0,20), debemos respetar dichas proporciones N (sugerencia M8=50.000.000, O8=30.000.000 y Q8=20.000.000). Solución: p st = 10,82% B = 4,56% Al no disponer de las observaciones muestrales sino de los tamaños de las muestras ( n1 = M 9 = 80 , n2 = O9 = 70 , n3 = Q9 = 50 ) y proporciones muestrales en cada estrato ( M 10 = 10 / 80 , O10 = 6 / 70 , Q10 = 5 / 50 ), desprotegeremos la hoja y escribiremos esa información en las filas 9 y 10. No se conocen los tamaños poblacionales de los estratos por lo grandes que son estos (podemos considerarlos infinitos) pero sí se conoce la relación de estos N N  tamaños con el de toda la población 100 1 = 50% , 100 2 = 30% , N N  100 N3  = 20%  . N  301 Como se indicaba en la introducción a la práctica 3, las plantillas para el muestreo aleatorio estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas, pero estas plantillas pueden utilizarse también para el caso de muestreo aleatorio estratificado con tamaños poblacionales de los estratos infinitos (tan grandes que su tamaño es desconocido). La clave para hacerlo está en la anterior nota. La diferencia entre las expresiones del muestreo aleatorio simple en poblaciones finitas e infinitas está en que en el primero aparece multiplicando el coeficiente corrector para poblaciones finitas que es lo mismo, N −n y en el segundo no (o lo N N −n N −n = 1 ). Así, borrando i i de todas las expresiones o haciendo N Ni N i − ni = 1 , habremos adaptado nuestras plantillas al caso de muestreo estratificado con Ni tamaños de los estratos infinitos. Dado que borrar y manipular sobre las expresiones escritas puede provocar fácilmente errores, si no se hace con toda cautela, proponemos la segunda alternativa como la forma más segura de transformar las expresiones del muestreo aleatorio simple finito en el caso infinito. Para ello en la fila 8 (TAMAÑO POBLACIONAL) escribiremos valores muy grandes para los tamaños de los estratos ( N i ) de forma que N i − ni ≅ 1 , lo que equivale prácticamente a quitarlo de las expresiones donde aparece. Pero Ni con esto no acaba todo, no podemos escribir unos tamaños N i tan grandes como queramos a nuestro antojo, dichos tamaños han de respetar la relación entre los tamaños de los estratos, es decir, los valores 100 N1 = 50% , N Ni que habitualmente vienen dados en porcentajes. En este ejercicio: N 100 N2 = 30% , N 100 N3 = 20% . Por último, una forma sencilla de asignar N los tamaños a los estratos respetando dichos porcentajes consiste en añadir al porcentaje varios ceros (el mismo en todos los estratos). En este caso para el estrato 1 hemos tomado 50 millones como tamaño poblacional y análogamente para N1 = M8=50.000.000 , N 2 = O8=30.000.000 y N 3 = Q8=20.000.000 302 los otros estratos: La pequeña diferencia entre la solución del problema B=4,56% y el valor que aparece en la anterior pantalla (S13=0,0457, es decir, 4,57%) es debido a que trabajamos con N i − ni ≅1 y Ni no exactamente 1. Si se quiere una mejor aproximación a la solución debemos escribir mayores valores en M8, O8 y Q8, lo que se consigue simplemente añadiendo más ceros a dichas cifras (¡ojo, el mismo número en todas!). 5. El Ministerio de Medio Ambiente quiere estimar el número total de hectáreas plantadas de árboles en las fincas de una comarca. Ya que el número de hectáreas de árboles varía considerablemente con respecto al tamaño de la finca, decide estratificar sobre la base del tamaño de las fincas. Las 240 fincas de la comarca son clasificadas en 4 categorías de acuerdo al tamaño. Una muestra aleatoria estratificada de 40 fincas, seleccionada mediante asignación proporcional, dio como resultado el número de hectáreas plantadas de árboles que se muestra en la siguiente tabla: 303 Estrato I Estrato II Estrato III Estrato IV 0-200 ha. 201-400 ha. 401-600 ha. +600 ha. N1 = 86 N 2 = 72 N 3 = 52 N 4 = 30 n1 = 14 n 2 = 12 n3 = 9 n4 = 5 97 42 25 105 27 45 53 67 125 92 86 43 59 21 125 67 256 310 220 142 155 96 47 236 352 190 142 310 495 320 196 256 440 510 396 167 655 220 540 780 a) Estime el número total de hectáreas plantadas de árboles en las fincas de la comarca y fije el límite para el error de estimación. b) Este estudio se quiere hacer anualmente con un límite para el error de estimación de 5.000 hectáreas. Encuentre el tamaño muestral y su asignación para garantizar dicho límite de error si se usa la asignación de Neyman. Solución: a) τˆ = 50505, 60 B = 8663,12 b) n=59,7 n1 =6,9 ≈ 7 n 2 =16,7 ≈ 17 n 3 =16,4 ≈ 17 n4 = 19, 7 ≈ 20 n=7+17+17+20=61 Este ejercicio es del mismo tipo que el ejercicio 1: datos numéricos y conocemos las observaciones muestrales, pero en este caso el número de estratos es 4. Salvo esa diferencia (por lo que seleccionaremos en este caso la hoja “4 Estratos”) no presenta ninguna dificultad nueva a las encontradas en el ejercicio 1. Sin necesidad de desproteger la hoja, escribiremos los tamaños poblacionales de los estratos en la fila 8 y las observaciones muestrales en las columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaños de las muestras pues la hoja de cálculo los obtiene al contar las observaciones muestrales que se han escrito debajo). En L10 y L13 está la solución al apartado a. Escribiendo en L20 el máximo error que se quiere cometer al estimar el total de hectáreas, se puede leer en la fila 23 (asignación de Neyman, dado que no tenemos información sobre costes para poder calcular la asignación óptima) la respuesta del apartado b (si queremos obtener la solución con un decimal podemos utilizar el botón “disminuir decimales” como se indicó en el ejercicio 2 de la práctica 1). Recordemos, dado que se va a estimar el total, que debemos leer de la fila 23 sólo la información de las celdas bajo las columnas “TOTAL”. 304 6. Para la comarca del ejercicio anterior, el gobierno también desea conocer la proporción de fincas que han sufrido algún incendio en los últimos diez años. Para ello, en la misma muestra se pregunta sobre el referido asunto, obteniéndose las siguientes respuestas Estrato I Estrato II Estrato III Estrato IV 0-200 ha. 201-400 ha. 401-600 ha. +600 ha. N1 = 86 N 2 = 72 N 3 = 52 N 4 = 30 n1 = 14 n 2 = 12 n3 = 9 n4 = 5 NO SI NO NO SI NO NO NO SI NO NO SI NO NO SI NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO NO NO NO NO SI NO NO Estímese con un intervalo de confianza la proporción de fincas de la comarca que han sufrido algún incendio en los últimos diez años. Solución: (11,9% , 38,21%) 305 Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Seleccionaremos en la hoja “4 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. 7. Una psicóloga que está trabajando con un grupo de adultos con retraso mental, desea estimar su tiempo medio de reacción a un cierto estímulo. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción, por lo que desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En estudios previos de este tipo de investigaciones se ha encontrado que los tiempos presentan una amplitud de variación de 5 a 20 segundos para varones y de 3 a 14 segundos para mujeres. Los costes del muestreo son los mismos en ambos estratos. Usando la asignación óptima, encuentre el tamaño muestral necesario para estimar el tiempo medio de reacción para el grupo, con un límite de error de un segundo. Solución: n = 28, 48 n1 = 14,96 ≈ 15 n2 = 13,52 ≈ 14 n = 15 + 14 = 29 N=96, N1=43, por tanto N2=53 . Como en el ejercicio 5 de la práctica 2 estimaremos la varianza de los datos en cada estrato a partir del rango o recorrido de los mismos. En el primer estrato escribiremos en la 306 R 2 ( 20 − 5 ) σ ≅ = = 14, 06 . 16 16 2 celda C11 2 Análogamente en el estrato 2, R 2 (14 − 3) E11= = = 7,56 . 16 16 2 Como en el apartado b del ejercicio 2, los costes de observación en cada estrato son los mismos. Podemos optar por escribir el mismo coste de observación en C21 y E21 (cualquier valor, por ejemplo aquí hemos considerado 1) y leer la solución en las filas 22 y 23, o bien dejar esas celdas en blanco (C21 y E21) y tomar como solución la asignación de Neyman en la fila 23 (la asignación óptima en la fila 22 daría errores de cálculo, división por cero, en este caso) 8. Una verificación de control de calidad estándar para baterías de automóviles consiste simplemente en registrar su peso. Un embarque particular de una fábrica consistió en las baterías producidas en dos meses diferentes, con el mismo número de baterías producidas en cada mes. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de observar la variación mensual. Las muestras aleatorias simples de los pesos de las baterías para los dos meses dieron las siguientes mediciones (en libras): 307 Mes A Mes B 61,5 64,5 63,5 63,8 63,5 63,5 64,0 66,5 63,8 63,5 64,5 64,0 a) Estime el peso medio de las baterías del embarque (población), y fije un límite para el error de estimación. Descarte el coeficiente corrector para poblaciones finitas. b) El estándar de la fábrica para este tipo de baterías es de 69 libras. ¿Considera usted que el embarque cumple el estándar promedio? c) ¿Cree usted que la estratificación del ejercicio anterior es deseable, o será suficiente con muestreo aleatorio simple? Solución: a) y st = 63,88 B = 0, 63 b) No, 69 no pertenece al intervalo (63,26 , 64,51) c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendría y = 63,88 B = 0, 65 , que es muy similar a lo obtenido en a) (las medias coinciden por ser la asignación proporcional). Esta pequeña diferencia entre los errores del muestreo aleatorio simple y del estratificado se debe a que los estratos no están formados por datos más homogéneos que el conjunto de la población, como puede verse al comparar sus varianzas muestrales S12 = 1, 07 S22 = 1,30 S 2 = 1, 27 , por tanto no estaría justificado estratificar basándose en la producción por meses. La producción de baterías no es conocida exactamente debido a su alto número, sólo nos dice el enunciado que la producción es la misma en cada mes. Por tanto hemos de suponer los tamaños de los estratos infinitos e iguales. Este hecho se confirma cuando en el apartado a se sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. Este problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron vamos a resolver este otro. Así, daremos a los tamaños de los estratos en C8 y E8 valores elevados pero iguales 308 La solución al apartado a se puede leer en G10 y G13. Para responder al apartado b nos fijamos en los extremos del intervalo de confianza para la media (G14, G15), dado que el valor 69 no está entre ambos concluimos que nuestros datos rechazan la afirmación de que el peso medio de la producción de baterías examinada sea de 69 libras. Para el apartado c juntaremos las muestras de los dos estratos en una única muestra aleatoria simple y la analizaremos con la ayuda de la hoja “MAS infinito”. Observamos que la estimación de la media tiene una cota de error de estimación similar a la del apartado a (analizando los datos según un muestreo estratificado). Tal y como se indica en los comentarios a la solución del apartado c más arriba, esto es debido a la falta de homogeneidad de los datos dentro de cada estrato, hecho que se confirma comparando las varianzas de las muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusión de ambas (celda C11 de la siguiente pantalla). 309 310 PRÁCTICA 4 Estimadores de Razón, Regresión y Diferencia. En esta plantilla sólo tenemos que introducir los valores que aparecen en las celdas grises, no tenemos que modificar ninguna expresión. No es necesario, por tanto, desproteger la hoja. Se deberá tener cuidado en no confundir los papeles de las variables X e Y cuyos datos muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones sobre la variable Y. Por consiguiente, una forma sencilla de establecer claramente el papel de las variables es fijarnos en sobre qué variable debemos estimar el valor de su media y/o total (variable Y). Habitualmente sólo nos darán el valor de la media poblacional de X o del total poblacional de X, pero no ambos, dado que fácilmente se puede calcular uno a partir del otro τx    µ x = ⇔ τ x = N µ x  , en cualquier caso debemos completar el valor de los dos como se ha N   C 8 15000   = hecho en la siguiente pantalla  C 9 = 75 =  y volveremos a ver en el ejercicio 1 200  C10  de esta práctica. 311 Si se quiere realizar alguna de las estimaciones con un error de estimación inferior a un determinado valor B, escribiremos éste en la celda correspondiente de la fila 18. Para obtener el tamaño muestral necesario para conseguir dicho nivel de error tenemos que conocer además de éste (fila 18), el tamaño poblacional (C8) y la varianza residual asociada al modelo (fila 17), para estimar esta última necesitamos una muestra previa que debe aparecer en las columnas C y D. Sin embargo, los valores de la media poblacional de X poblacional de X ( τx) ( µx ) o del total no son necesarios, salvo en el caso de que se quiera estimar la razón (R) con un determinado error B, entonces escribiremos el valor de µ x o en su defecto x (como en el ejercicio 2) en la celda C9. Nota: El valor del coeficiente b de la recta de regresión se ha obtenido en G22 y G23 utilizando dos expresiones distintas. Con esto se quiere mostrar al alumno que éste y otros valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas. 1. Los auditores frecuentemente están interesados en comparar el valor intervenido de los artículos con el valor asentado en el libro. Generalmente, los valores en el libro son conocidos para cada artículo en la población, y los valores intervenidos son obtenidos con una muestra de esos artículos. Los valores en el libro entonces pueden utilizarse para obtener una buena estimación del valor intervenido total o medio para la población. Supóngase que una población contiene 180 artículos inventariados con un valor establecido en el libro de 13.320€. Una muestra aleatoria simple de 10 artículos nos dio los siguientes resultados: Valor intervenido yi Valor en el libro xi 9 10 14 12 7 8 29 26 45 47 109 112 40 36 238 240 60 59 170 167 Estime el valor intervenido medio, mediante un estimador de razón, un estimador de regresión y un estimador de diferencia. Obtenga el intervalo de confianza en cada caso. Solución: 312 Estimador de razón (72,79 , 76,03). Estimador de regresión (72,80 , 75,97). Estimador de diferencia (72,86 , 75,94) En el enunciado del ejercicio está indicado quien es cada variable. Si no lo fuera así, utilizando la estrategia sugerida más arriba de que Y es la variable sobre la que se quiere hacer la estimación, es claro que Y = valor intervenido y por tanto X = valor en el libro. Conocemos C8=N=180 y C10=τ x = 13320 , escribiremos también C 9 = µ x = τx N = 13320 , 180 colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente pantalla se lee la solución en las columnas de la estimación de la media, filas 15 y 16. 2. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 8 familias fue seleccionada de entre 100. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 313 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: r = 0,1531; B = 0, 0118 NOTA: Como no se conoce la media poblacional de X, debemos estimarla por su media muestral, es decir, C9=PROMEDIO(C22:C100). La nota anterior sólo es aplicable para estimar la razón r, pues si utilizamos x en lugar de µ x cuando queremos estimar la media de la variable Y mediante un estimador de razón, regresión o diferencia, obtendríamos que µ y = µ yL = µ yD = y , es decir, estimaríamos la media de la variable Y sólo mediante su media muestral y no estaríamos utilizando información auxiliar alguna. Si en el ejercicio 1 hacemos B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que µ y = µ yL = µ yD = y (D12=F12=H12=B22) Necesitamos conocer el valor de µ x (C9) y τ x (C10) cuando se quiere estimar la media o el total, por cualquiera de los tres métodos. Sin embargo, no es necesario el valor de µ x para estimar la razón R, aunque si es preciso al menos estimarla con x si queremos obtener la cota del error de estimación asociado. Al no conocer µx en este ejemplo, ( x=promedio(C22:C100) ) en la celda C9. 314 escribiremos la media muestral de X Para identificar las variables X e Y recordemos que la razón se define como el cociente del total de Y sobre el total de X. Por tanto, en este ejemplo donde se quiere estimar la razón o proporción de dinero gastado en alimentos en relación al ingreso total por año, Y = gasto en alimentos, X = ingreso total. En cuanto a la nota sobre no usar x en lugar de µ x cuando estimemos la media de Y, se aclara con la siguiente pantalla. 315 ( ) Hemos escrito en C9 la media muestral de X x =promedio(C22:C100) en lugar de la media τ 13320   poblacional de X  µ x = x =  . Se ha calculado en B22 la media muestral de Y N 180   ( y =promedio(D22:D100) ) para comprobar que si se utiliza x en lugar de µ , la media de Y se x estimaría, mediante los tres métodos, sencillamente por y . 316 PRÁCTICA 5 Muestreo Sistemático. El muestreo sistemático, bajo determinadas condiciones (muy generales), se comporta como el muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de estimación. Debido a esto, tras razonar que nos encontramos bajo esas condiciones, utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los problemas de muestreo sistemático. 1. La gerencia de una compañía privada está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo en particular. Use los datos de la tabla siguiente para estimar la proporción a favor de la nueva política, y establezca un límite para el error de estimación. Suponga que hay un total de 2.000 empleados. Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑ y i = 132 i =1 Solución: p sy = 66% B = 6,37% 317 Dado que no conocemos explícitamente los 200 valores de la muestra (y aunque se conocieran 200 sería largo escribirlos) pero si conocemos la suma de ellos, ∑ y i = 132 , introduciremos i =1 132   directamente la estimación de p en E10  p =  y el tamaño muestral en E9 (para lo que es 200   preciso desproteger primero la hoja). El tamaño muestral se obtiene dividiendo el tamaño poblacional N=2000 entre 10 (muestra sistemática de 1 en 10) o sencillamente observando el 200 índice superior de la sumatoria ∑ y i = 132 . i =1 2. Con los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar p, con un límite para el error de estimación del 4,8%. ¿Qué tipo de muestra sistemática deberá obtenerse? Solución: n = 326, 2 ≈ 327 . Sería suficiente con tomar una muestra sistemática de 1-en-6 donde n = 2000 = 333,3 ≈ 333 o 334 . 6 La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamaño muestral necesario, en la celda E18 (326,2), para que la estimación de p no supere la cota B=0,048 (4,8%), pero no obtenemos directamente el valor de k que es sólo característico del muestreo sistemático. El valor de k se puede obtener fácilmente calculando en cualquier celda en blanco el cociente entre el tamaño poblacional y el tamaño muestral (por ejemplo, B 22 = N E8 = = 6,13 ) y n E18 quedándonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente N  E8  como se ha hecho en B 23 = ENTERO   = ENTERO  =6 n  E18  318 319 PRÁCTICA 6 Muestreo por Conglomerados. En esta plantilla utilizamos la función condicional SI para el cálculo de expresiones que tienen diferentes formas (o sencillamente no se pueden calcular) dependiendo de la información que tengamos. La función condicional SI cuya forma general es: =SI(condición; acción si la condición es cierta; acción si la condición es falsa) la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la media, si conocemos M = C8 (tamaños medio de todos los conglomerados de la población) C9 1 N − n Sc2 se hará según V ( y ) = 2 , pero si no se conoce lo estimaremos mediante m = C11 N n M (tamaño medio de los conglomerados de la muestra). Así, en la condición preguntamos si la celda C8 está vacía (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en cuyo caso no es conocido M = C8 y utilizaremos m = C11 (acción si la condición de no C9 conocer M es cierta) y utilizaremos el valor de M = C8 cuando C8 contenga el valor de M, C9 es decir, no esté vacía (acción cuando la condición de C8 vacía sea falsa). Observe que las dos acciones son iguales salvo esta diferencia que hemos subrayado. =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 320 En C19, para la determinación del tamaño muestral, se ha hecho igual que en C13. =SI(C8="";(C9*C17)/(C17+(C9*((C18*C11/2)^2)));(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2)))) En la parte inferior izquierda se ha calculado el coeficiente de correlación lineal entre los tamaños de los conglomerados y los totales por conglomerado para justificar la conveniencia de estimar el total considerando el tamaño de los conglomerados (TOTAL(M conocido), columna D) o sin utilizar dicha información (columna E). Cuando esta correlación es fuerte el método de estimación del total en la columna D nos proporciona mejores estimaciones (con menor error de estimación). La anterior pantalla recoge una situación donde la correlación es débil (los mayores tamaños de los conglomerados no están asociados con los mayores totales, ni los menores con los menores) y como puede verse el método de estimación del total en la columna D tiene un error asociado, 188218,94, mayor que el obtenido en la columna E, 184099,44. Lógicamente, cuando no podamos estimar el total por ambos métodos, todos estos comentarios sobran. También se ha utilizado la función SI en las expresiones de la estimación del total cuando M es conocido (columna D). Obviamente, éstas no pueden calcularse cuando M es desconocido. En este caso la acción cuando la condición (no conocemos M=C8) es cierta es que no se calcula nada (escribimos para dejar la celda vacía: abrir y cerrar comillas sin nada entre ellas) y si conocemos M=C8 (la condición es falsa) la acción es el cálculo de la correspondiente expresión (en D12 la estimación del total y en D13, D14, D15 y D16 el resto de valores asociados a dicha estimación) D12 ⇒ =SI(C8=””;””;C12*C8) En la anterior pantalla, donde M=1500, aparecen los valores para la estimación del total cuando M es conocido, sin embargo, en la siguiente donde C8 está en blanco (desconocemos el tamaño de la población) dichas celdas están vacías. 321 1. En una pequeña ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. d) Suponiendo que los datos de la tabla representan una muestra previa, cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 322 Solución: a) p = 37,14% B = 11,5% b) (423,25 , 616,75) c) (396,16 , 718,12) d) n = 154, 4 ≈ 155 NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 7 ∀i ), supongamos conocido M = 200 × 7 = 1400 y estime el total por los dos métodos estudiados (τ = M y ) τ t = N y t . Observe como coinciden las dos estimaciones D12=E12=520, así como la varianza del estimador D13=E13=2340 y el límite para el error de estimación D14=E14=96,75. En el muestreo por conglomerados no se distingue entre variables numéricas y variables dicotómicas. En ambos casos el total por conglomerado, yi , se calcula de igual forma, bien sumando valores numéricos o los ceros y unos de las variables dicotómicas. En este ejercicio estamos ante un ejemplo de variable dicotómica donde las respuestas interesado y no interesado se han codificado como 1 y 0, y posteriormente sumado para cada manzana o conglomerado. Conocemos el número de manzanas o conglomerados en la población, N=200, pero no sabemos el número de elementos en la población, M. Se sustituyen los valores del número de hogares en la manzana en el tamaño o número de elementos en el conglomerado, columna C, y el número de hogares que han mostrado interés, respuesta igual a 1, en el total o suma por conglomerado de la columna D. El máximo error que se quiere cometer al estimar la media (proporción en este caso) lo escribiremos en tanto por uno en C18=0,01. Las respuestas: al apartado a se lee en C12 y C14, al apartado b en E15 y E16 y al apartado d en C19. 323 En el apartado c se supone conocido M=1500. Al sustituir dicho valor en C8 se calculan las expresiones para la estimación del total cuando M es conocido, columna D. No obstante, esta estimación es peor que la obtenida en el apartado b como muestra la cota del error de estimación en D14=160,98 y E14=96,75. Lo anterior puede justificarse en base a la débil relación entre los tamaños y totales de los conglomerados, B27=0,083. 324 En la siguiente pantalla se comprueba la propiedad, que se recuerda en la nota, de coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual tamaño. 2. El gerente de un periódico desea estimar el número medio de ejemplares comprados cada semana por una familia de una localidad. Los 4000 hogares están agrupados en 400 edificios. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 edificios y se entrevistaron a todas las familias de estos edificios, obteniéndose los siguientes resultados: Edificio 1 2 3 4 a) Estime con Periódicos comprados cada semana por familia 1 2 1 3 3 2 1 4 1 1 1 3 2 2 4 4 1 1 2 2 1 1 1 1 3 2 1 2 1 1 1 1 3 2 1 5 3 3 la encuesta piloto el número medio de periódicos comprados cada semana por las familias de la localidad y el error de estimación asociado. b) Determine, usando los datos de la encuesta piloto, cuántos edificios debe 325 tener la nueva muestra si se quiere estimar el número medio de periódicos comprados cada semana por familia, con un error de estimación inferior a 0,20 unidades. Solución: a) y = 1,95 B = 0, 40 b) n = 15, 21 ≈ 16 En este ejemplo de muestreo por conglomerados nos dan explícitamente las observaciones individuales de la muestra, habrá que contar el número de elementos en cada conglomerado, mi , y hallar la suma de las observaciones en cada uno de ellos, yi . Para obtener el número de observaciones en cada edificio o conglomerado contaremos el número de familias que se han observado en cada edificio, 10 en el primero, ... Para calcular los totales yi podemos hacerlo como se indica en la siguiente pantalla, de forma que posteriores comprobaciones, correcciones de errores, ... pueden hacerse fácilmente editando el contenido de las celdas D23 y siguientes. 326 PRÁCTICA 7 Estimación del tamaño de la población. Las cuatro técnicas que se incluyen en esta práctica tienen elementos comunes como los correspondientes a la estimación del tamaño de la población y otros, como la estimación de la densidad,…, específicos de algunas de ellas. Se han marcado en negro las celdas cuyos valores o expresiones no se utilizan en alguna de las técnicas. 1. Se desea estimar la población de avutardas en determinada región. Para ello se capturan 30 avutardas que se devuelven marcadas a la población. En una segunda muestra de 20 avutardas se observaron 5 marcadas. Estímese el número de avutardas que viven en la región y la precisión del estimador usado. Solución: N = 120 B = 92,95 2. Se desea estimar la población de ardillas en un parque. Para ello se capturan 50 ardillas que se devuelven al parque marcadas. Se toma una segunda muestra hasta que se consigue encontrar 5 marcadas, para lo cual fue necesario capturar 70 de ellas. Estime, usando un intervalo con el 95% de confianza, el número de ardillas que viven en el parque. Solución: (149, 24 , 1.250, 76) 3. La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: 327 Nº del cuadro 1 2 3 4 5 6 7 8 9 10 Número de aficionados Nº del cuadro en el cuadro 193 11 216 12 250 13 163 14 209 15 195 16 232 17 174 18 215 19 198 20 Número de aficionados en el cuadro 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. Solución: a) λ = 2,16 aficionados m 2 b) M = 64.860 aficionados (2,1 , 2, 23) (62.887, 29 , 66.832,71) 4. Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución: Mˆ = 86, 24 B = 37,8 Con estos cuatro ejemplos se ilustran las cuatro técnicas de estimación del total que estudiamos en este capítulo. En el primer y segundo ejercicios sólo tenemos que identificar si se trata de muestreo directo o inverso (dependiendo de si se ha fijado el tamaño de la segunda muestra o ésta se toma hasta conseguir un número de elementos marcados). Es claro que el primer ejercicio se trata de un caso de muestreo directo y el segundo de muestreo inverso. 328 En el muestreo por cuadros y por cuadros cargados se puede considerar una población en una superficie (ejercicio 3) o en un espacio temporal (ejercicio 4). El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el número de elementos observados en cada cuadro de la muestra. El área total se calcula multiplicando 300 cuadros por el área de cada uno (10x10), y el número total de elementos observados en la n muestra, m = ∑ mi , sumando los elementos observados en los 20 cuadros (como indica la i =1 flecha en la anterior pantalla). El último ejercicio es un caso de muestreo por cuadros cargados, donde no es importante el número de elementos en cada cuadro puesto que éste es en general cero o uno y muy raras veces mayor a uno. Así sólo contaremos los cuadros con elementos (uno o más), cuadros cargados, y los cuadros sin elementos o cuadros no cargados. En este caso los cuadros en el espacio temporal son sencillamente intervalos de tiempo. Hay que tener cuidado en escribir el tamaño del área total y de cada cuadro en la misma unidad de medida. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren estimar los autobuses que circulan por un lugar se han expresado en minutos, 1080=(24-6)*60, al igual que los intervalos de tiempo controlados. 329 PRÁCTICA 8 Indicadores estadísticos regionales En las plantillas de la hoja “Indicadores estadísticos regionales” se encuentran resueltos los ejemplos 8.1 a 8.7 del capítulo 8 del mismo nombre. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises (como siempre, se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo problema para evitar trabajar por error con otros datos). 1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: N T = 0,1152 ln N i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el T = ln N + ∑ xi ln xi = 0,1597 IT = ITHEIL = coeficiente e índice de Theil. Las diferencias entre los valores obtenidos a mano y con la hoja de cálculo son debidas sólo a errores de redondeo en las operaciones. 330 2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: N N 1 1 N 2, 6865 = ∑ di = = 0, 6716 4 4 i =1 4 i =1 i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la D = ∑ di f i = ∑ di desigualdad colectiva y en el margen derecho las desigualdades individuales. 3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 80 350 R2 15 70 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. 331 1 N ∑ xi − yi = 0,97959 2 i =1 Sustituyendo los valores de PIB y número de oficinas en las variables X e Y se obtiene a pie Solución: F = 1 − de tabla el índice de asociación geográfica de Florence. Obsérvese que es indiferente permutar los valores de X e Y. En la siguiente pantalla se han cambiado los valores de X e Y en relación a como se resolvió este ejercicio al final del capítulo 8, obteniéndose el mismo resultado. 332 PRÁCTICA 9 Medidas de localización espacial En las plantillas de la hoja “Medidas localización espacial” se encuentran resueltos los ejemplos 9.2, 9.3, 9.5 y 9.6 del capítulo 9 del mismo nombre. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises de la tabla “DATOS” que aparece en la parte superior de la hoja. La hoja está preparada inicialmente para 10 sectores y 10 regiones pero puede fácilmente ampliarse a cualquier número de la siguiente forma: • Se desprotege la hoja. • Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la columna E y seleccionamos en el menú Insertar/Columnas). • Se copia la columna de alguno de los 10 sectores iniciales en ésta (siguiendo la conocida secuencia marcar+copiar+pegar, copiaremos la columna D en la E). Así, esta nueva columna ya tendrá todas las expresiones necesarias para los cálculos correspondientes (al copiar la columna se copian tanto las expresiones como los valores de la tabla “DATOS” y la cabecera, en este ejemplo: “S2”; tendremos que cambiar los datos y las etiquetas de la cabecera) 333 • Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para más de 11 sectores. Un procedimiento análogo nos permite ampliar la hoja para más de 10 regiones. En este caso se insertará una nueva fila (en cada una de las tablas) entre las regiones R1 y R10, y copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla. Esto último también es aplicable a la práctica 8 para ampliar el número de regiones o grupos de regiones. 1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones Siderurgia I II III 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. 334 Solución: Cocientes de localización y especialización Lij REGION R1 R2 R3 SECTOR S1 S2 S3 S4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 Coeficientes de especialización regional REGION R1 R2 R3 CEi 0 0 0 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 CL j 0 0 0 0 Coeficientes de diversificación de cada región REGION R1 R2 R3 CDi 0,6178 0,6178 0,6178 CDi* 0,49 0,49 0,49 Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los sectores con las regiones pues las medidas que se obtienen no son simétricas en relación a los datos, es decir, cambian si colocamos las regiones en los sectores y éstos en el lugar de las otras. Las distintas medidas de localización espacial pueden leerse en las tablas que hay bajo los DATOS. 2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. 335 b) Calcule los coeficientes de especialización para cada comunidad. Solución: Coeficientes de localización sectorial SECTOR S1 S2 S3 CLj 0,2423 0,1219 0,2197 Coeficientes de especialización regional REGION CEi R1 0,192733 R2 0,047808 R3 0,234649 R4 0,170455 Colocando los datos del ejercicio en la tabla DATOS, igual que antes, se obtienen entre otros los coeficientes pedidos. 336 INTRODUCCIÓN AL SPSS 1.- INTRODUCCIÓN El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a la realización de análisis estadísticos aplicados a las ciencias sociales. Con más de 30 años de existencia es, en la actualidad, el paquete estadístico con más difusión a nivel mundial. El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del programa. Nosotros utilizaremos solo el módulo SPSS base. En los siguientes apartados se hace una breve introducción a los conceptos básicos de este programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción. 1.1.- PASOS BÁSICOS EN EL ANÁLISIS 1. Introducir los datos en SPSS. Es posible: o Abrir un archivo creado anteriormente o o Introducir nuevos datos (se verá más adelante en “1.3- Editor de datos”). Los archivos de datos con formato SPSS tienen extensión *.sav. Para abrir un archivo de datos de este formato, seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto, SPSS dará una relación de los archivos en su directorio con extensión *.sav. Busque y seleccione el archivo que se desee abrir. Además de los archivos con este formato, SPSS puede abrir 337 archivos de EXCEL, LOTUS 1-2-3, dBASE,… sin necesidad de convertirlos a un formato intermedio ni de introducir información sobre la definición de los datos. Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas como nombres de variables. Para ello elija en los menús: Archivo/Abrir/Datos y seleccione Excel(*.xls) en la lista desplegable Tipo Tras seleccionar el fichero Excel que queremos abrir, aparecerá el cuadro de diálogo Apertura de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables en la primera fila de la hoja de cálculo ( Leer nombres de variables de la primera fila de datos), así como las casillas que se desean importar (Rango). En Excel 5 o posterior, también se pueden especificar la “Hoja de trabajo” que se desea importar. Si los encabezados de las columnas no cumplen las normas de denominación de variables de SPSS, se convertirán en nombres de variables válidos y los encabezados originales de las columnas se guardarán como etiquetas de variable (véase más adelante en “1.3.-Editor de datos”). 338 2. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús. 3. Seleccionar las variables para el análisis. Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo del que se seleccionan. 4. Ejecutar el procedimiento y ver resultados. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de extensión *.spo. Los gráficos se pueden modificar en la ventana del editor de gráficos. 339 1.2.- ENTORNO DE TRABAJO Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos: • Editor de datos. Es la ventana que se abre automáticamente cuando se inicia una sesión de SPSS. Muestra el contenido del archivo de datos actual. Con él, se pueden crear nuevos archivos o modificar los ya existentes. • Visor de resultados. Todas las tablas, gráficos y los resultados estadísticos se muestran en el visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera vez que se ejecuta un procedimiento. Además de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que configuran la apariencia general del SPSS: • Barra de títulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar y cerrar ventana. 340 • Barra de menús. Recoge las denominaciones de los menús de SPSS a través de los cuales se pueden ejecutar todos los posibles comandos que proporciona el paquete. • Barra de herramientas. Proporciona un acceso rápido y fácil a las tareas más comunes de cada ventana de SPSS. El significado de cada icono puede verse situando el ratón sobre el propio icono. • Barra de estado. Suministra información sobre el estado en que se encuentra SPSS. Ejemplo 1.- - Abrir archivo de datos “Datos de empleados.sav” - Realizar el procedimiento: Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual” - Realizar lo mismo con la variable “Meses desde el contrato”. 1.3.- EDITOR DE DATOS El editor de datos proporciona dos vistas: • Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de cálculo, sin embargo, existen algunas diferencias: o Cada fila representa un caso u observación (atención en ejercicio 1). o Las columnas son variables. o Las casillas contienen valores numéricos o de cadena. A diferencia de una hoja de cálculo, las casillas del editor de datos no pueden contener fórmulas. • Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de datos. Aquí: o Las filas son variables. o Las columnas son características de las variables. 341 Ejemplo 2.- Abrir “vista de datos” y “vista de variables” en el archivo de datos: “Datos de Empleados.sav”. Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de datos creado con anterioridad (como vimos en “1.1.- Pasos básicos en el análisis”) o crear un nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso es el de definir las variables que formarán el archivo. Para definir una variable se pueden seguir dos procedimientos: • En vista de datos, haciendo doble clic con el botón izquierdo del ratón cuando el puntero del mismo se encuentra situado en la palabra var del extremo superior de la columna o • Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable cuyos datos vamos a introducir según las indicaciones que siguen: Para la especificación del nombre de las variables se debe tener en cuenta: • El nombre debe comenzar por una letra. Los demás caracteres pueden ser letras, dígitos, puntos o los símbolos @, #, _ o $. • Los nombres de variable no pueden terminar en punto. • Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las variables creadas automáticamente por algunos procedimientos). • La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler a 64 caracteres en idiomas de un solo byte (por ejemplo, inglés, francés, alemán, español, 342 italiano, hebreo, ruso, griego, árabe, tailandés) y a 32 caracteres en los idiomas de dos bytes (por ejemplo, japonés, chino, coreano). • No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ’ y *). • Cada nombre de variable debe ser único; no se permiten duplicados. • Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. • Los nombres de variable se pueden definir combinando de cualquier manera caracteres en mayúsculas y en minúsculas, esta distinción entre mayúsculas y minúsculas se conserva en lo que se refiere a la presentación. • Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados, SPSS intenta dividir las líneas aprovechando los subrayados, los puntos y los cambios de minúsculas a mayúsculas. Una vez que se haya determinado el nombre de la variable, hay que definir sus especificaciones: • Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botón tipo y luego los puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos más usuales son numérico y cadena. Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas las variables nuevas son numéricas. Se puede utilizar Tipo de variable para cambiar el tipo de datos. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el número de decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista desplegable de ejemplos. Los tipos de datos disponibles son los siguientes: • Numérico. Una variable cuyos valores son números. Los valores se muestran en formato numérico estándar. El Editor de datos acepta valores numéricos en formato estándar o en notación científica. • Coma. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores numéricos para este tipo de variables con o sin comas, o bien en notación científica. Los valores no pueden contener comas a la derecha del indicador decimal. 343 • Punto. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores numéricos para este tipo de variables con o sin puntos, o bien en notación científica. Los valores no pueden contener puntos a la derecha del indicador decimal. • Notación científica. Una variable numérica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. El Editor de datos acepta para estas variables valores numéricos con o sin el exponente. El exponente puede aparecer precedido por una E o una D con un signo opcional, o bien sólo por el signo (por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2 y 1,23+2). • Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo para los valores de año de dos dígitos está determinado por la configuración de las opciones (en el menú Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos). • Dólar. Una variable numérica que se muestra con un signo dólar inicial ($), comas que delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir valores de datos con o sin el signo dólar inicial. • Moneda personalizada. Una variable numérica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda del cuadro de diálogo Edición/Opciones. Los caracteres definidos en la moneda personalizada no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos. 344 • Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se utilizan en los cálculos. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud definida. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se conoce como variable alfanumérica. • Nivel de medida. Puede especificar el nivel de medida como Escala (datos numéricos de una escala de intervalo o de razón), Ordinal o Nominal. Los datos nominales y ordinales pueden ser de cadena (alfanuméricos) o numéricos. • nominal. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca. Por ejemplo, el departamento de la compañía en el que trabaja un empleado. Son ejemplos de variables nominales: la región, el código postal o la confesión religiosa. • ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. Por ejemplo los niveles de satisfacción con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las puntuaciones de evaluación de la preferencia. • escala. Una variable puede ser tratada como de escala cuando sus valores representan categorías ordenadas con una métrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares. Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los valores de cadena indica el orden correcto de las categorías. Por ejemplo, en una variable de cadena cuyos valores sean bajo, medio, alto, se interpreta el orden de las categorías como alto, bajo, medio (orden que no es el correcto). Por norma general, se puede indicar que es más fiable utilizar códigos numéricos para representar datos ordinales. • Anchura. Número de dígitos de los valores de esa variable. 345 • Columnas. Anchura de las columnas. Se puede especificar un número de caracteres para el ancho de la columna. Los anchos de columna también se pueden cambiar en la Vista de datos pulsando y arrastrando los bordes de las columnas. Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Al cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y definido de un valor es más ancho que la columna, aparecerán asteriscos (*) en la ventana Vista de datos. • Decimales. Nº de decimales de los datos. • Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud (128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable. • Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar categorías que no son numéricas (por ejemplo, códigos 1 y 2 para hombre y mujer). Las etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden ocupar hasta 120 bytes. Las etiquetas de valor no están disponibles para las variables de cadena larga (variables de cadena de más de 8 caracteres). • Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado. Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayoría de los cálculos. • Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el usuario cada vez que se abre un archivo de datos. • Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de valores perdidos o un rango más un valor de tipo discreto. 346 • Sólo pueden especificarse rangos para las variables numéricas. • No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de más de ocho caracteres). • Se considera que son válidos todos los valores de cadena, incluidos los valores vacíos o nulos, a no ser que se definan explícitamente como perdidos. Para definir como perdidos los valores nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos debajo de la selección Valores perdidos discretos. • Alineación. Alineación de los datos (Izquierda, derecha o centro) Una vez definidas las variables, para la introducción de los datos (en la pestaña vista de datos) habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos valores, pulsando ENTER o moviéndonos con el cursor. También podemos modificar datos ya creados: • Insertar un nuevo caso entre los casos existentes. Seleccionar en la vista de datos, cualquier casilla debajo de la posición donde se desea insertar el nuevo caso y - Elija en la barra de menús: Datos/Insertar Caso o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar caso. • Insertar una nueva variable entre las variables existentes. Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posición donde se desea insertar la nueva variable y - Elegir los menús: Datos/Insertar variable o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar variable • Mover variables. Si queremos mover una variable que está entre otras dos, en la vista de datos, podemos insertar un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por último pegar en la nueva variable insertada. 347 • Borrar algún caso o variable. Seleccionar previamente en la vista de datos las filas, las columnas o el área a borrar y pulsar SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar. • Ir a un caso en el editor de datos. Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el correspondiente botón de la barra de herramientas. Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús Archivo/Guardar como. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad. 348 EJERCICIOS 1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado producto en una semana determinada. La variable edad es cuantitativa y mostramos sus valores, la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal: 1, hombre; 2, mujer). Los datos son los siguientes: Hombres Mujeres 32 32 42 55 37 61 48 43 50 80 61 49 30 21 37 34 Se pide: a. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el nombre Edad.sav b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores Hombres 1 Mujeres 1 Sitúala entre las variables anteriores. 1 5 1 1 2 1 1 2 1 2 2 1 1 1 2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas: SEXO Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre REGION DE PROCEDENCIA Andalucía (1) Cataluña (2) Madrid (3) País Valenciano (4) Galicia (5) Cataluña (2) País Vasco (6) Andalucía (1) Madrid (3) Andalucía (1) País Vasco (6) Madrid (3) Galicia (5) Cataluña (2) Andalucía (1) Galicia (5) MESES COMO REPRESENTANTE 60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10 INGRESOS MENSUALES en € 1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456 Se pide: a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos de la tabla anterior, definiendo las variables de forma adecuada. b. Inserta una nueva variable que será el estado civil de los representantes con los siguientes valores. 349 soltero soltero casado soltero divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero c. Inserta un nuevo caso entre los existentes con estos valores: SEXO Hombre REGION DE PROCEDENCIA Cataluña MESES COMO INGRESOS ESTADO CIVIL REPRESENTANTE MENSUALES en € 48 1500 divorciado d. Obtenga el número medio de meses como representante y los valores máximo, mínimo y mediano de los ingresos. 3. Crear un archivo con los siguientes datos y llamarlo salarios.sav SALARIOS 0-700 700-1000 1000-1500 1500-3000 más de 3000 EMPLEADOS 40 120 250 90 50 Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo, 1 a 5) y en Vista de variables en la columna Valores etiquetarlos como “0-700”,… Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo al SPSS. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación (variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una balanza. 350 PRÁCTICA 10 Contrastes no paramétricos para una muestra (SPSS) 1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE 3. CONTRASTE DE LAS RACHAS 1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE El contraste Chi-cuadrado para una muestra permite averiguar si la distribución empírica de una variable categórica (o numérica) se ajusta o no a una determinada distribución teórica. La hipótesis nula de bondad de ajuste se pone a prueba utilizando un estadístico que compara las frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (teóricas según la hipótesis nula). La condición para que el test sea válido es que las frecuencias esperadas en todas las categorías sean mayores que 5, el SPSS da por valido el test siempre y cuando el número de frecuencias esperadas menores de 5 no superen el 20% del total de frecuencias esperadas, aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. En el caso de que haya frecuencias esperadas menores que 5 se procederá a agrupar modalidades semejantes, para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada (véase ejemplo 3). Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no paramétricas/Chi-cuadrado. La lista de variables del archivo de datos ofrece un listado de todas las variables. Para contrastar la hipótesis de bondad de ajuste referida a una variable hay que trasladar esa variable a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece tantos contrastes como variables. RECUADRO RANGO ESPERADO. En esta ventana es posible decidir qué rango de valores deben tenerse en cuenta en el análisis: ¾ Obtener de los datos. Cada valor distinto de la variable se considera una categoría para el análisis. ¾ Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los límites especificados en los cuadros de texto Inferior y Superior. Los valores no incluidos en esos límites se excluyen del análisis. 351 RECUADRO VALORES ESPERADOS. Las opciones de este recuadro sirven para hacer explícitas las frecuencias esperadas con las que se desean comparar las observadas: ¾ Todas las categorías iguales. Las frecuencias esperadas se obtienen dividiendo el número total de casos válidos entre el número de categorías de la variable. ¾ Valores. Esta opción permite definir frecuencias esperadas concretas. Los valores que se introducen pueden ser porcentajes, probabilidades, frecuencias relativas o frecuencias absolutas. El orden en el que se introducen los valores es muy importante, pues la secuencia introducida se hace corresponder con las categorías de la variable cuando éstas se encuentran ordenadas de forma ascendente. Si se ha introducido como una variable numérica con etiquetas, el orden es el de los valores numéricos. Si se ha introducido como un variable de cadena (alfanumérica) el orden es el alfabético. BOTÓN OPCIONES. Permite obtener algunos estadísticos descriptivos y decidir qué tratamiento se desea dar a los valores perdidos. ¾ Estadísticos. Las opciones de este recuadro permiten obtener algunos estadísticos descriptivos: o Descriptivos. Ofrece el número de casos válidos, la media, la desviación típica, el valor mínimo y el valor máximo. o Cuartiles. Ofrece los centiles 25, 50 y 75. Hay que señalar que estos estadísticos no siempre tendrán sentido, pues la prueba de chi-cuadrado se utiliza generalmente con variables categóricas (no numéricas). Para contrastar la hipótesis de bondad de ajuste con variables cuantitativas es preferible utilizar el contraste de Kolmogorov-Smirnov. ¾ Valores perdidos. Estas opciones permiten decidir qué tratamientos se desea dar a los valores perdidos en el caso de que se haya seleccionado más de una variable: o Excluir casos según prueba. Se excluyen de cada contraste los casos con valor perdido en la variable que se está contrastando. Es la opción por defecto. o Excluir caso según lista. Se excluyen de todos los contrastes solicitados los casos con algún valor perdido en cualquiera de las variables seleccionadas. Ejemplo 1 (Ejercicio 1, relación Tema 10) El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas 352 completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). (FICHEROS DE DATOS: Ejercicio1_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio1F_T10.sav (datos agrupados, con frecuencias)) NOTA: Cuando se utilicen ficheros con frecuencias se deberá indicar en que columna se encuentran éstas, seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos..., después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias. A continuación seleccionaremos Analizar/Pruebas no paramétricas/Chi-cuadrado 353 Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste (recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores esperados marcaremos Todas las categorías iguales (aparece marcada por defecto). Pulsaremos en Aceptar, obteniéndose en el visor de resultados lo que sigue: DiasSemana N observado 49 N esperado 40,0 Residual 9,0 Martes 35 40,0 -5,0 Miércoles 32 40,0 -8,0 Jueves 39 40,0 -1,0 Viernes 45 40,0 5,0 Lunes Total 354 200 Estadísticos de contraste DiasSemana Chicuadrado(a) gl 4,900 4 Sig. asintót. ,298 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 40,0. Dado que el p-valor (0.298) es mayor que α = 0.05 , se mantiene la hipótesis nula de que el número de visitas al consultorio médico se distribuye de forma equitativa de lunes a viernes. Ejemplo 2 Una compañía de gas afirma, basándose en experiencias anteriores, que al final del invierno el 80% de las facturas ya han sido cobradas, un 10% se cobraran con pago aplazado a un mes, un 6% se cobrará a dos meses y un 4% se cobrará a más de dos meses. Al final del invierno actual, la compañía selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas ya cobradas, 49 cobradas a un mes, 30 a cobrar en dos meses y 34 a cobrar en un periodo superior a los dos meses. ¿Podemos concluir, a raíz de los resultados, que la experiencia de años anteriores se ha vuelto a repetir este invierno? (FICHERO DE DATOS: Ejemplo2F_T10.sav (datos agrupados, con frecuencias)) Seguiremos un procedimiento análogo al del ejemplo 1 pero marcaremos en Valores esperados la opción Valores e introduciremos los porcentajes del modelo que indica el enunciado en el orden 80, 10, 6 y 4 (según el orden de los valores numéricos que se han utilizado para indicar cada categoría) 355 El visor de resultados nos ofrece: facturas N observado 287 N esperado 320,0 Residual -33,0 se cobran a un mes 49 40,0 9,0 se cobran en dos meses 30 24,0 6,0 se cobran a más de dos meses 34 16,0 18,0 ya cobradas Total 400 Estadísticos de contraste facturas Chicuadrado(a) gl Sig. asintót. 27,178 3 ,000 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 16,0. Como el p-valor (0.000) es menor que 0.05, se rechaza la hipótesis nula de que los datos observados se ajustan a los datos esperados. Por tanto, la experiencia de años anteriores no se ha vuelto a repetir este invierno. Ejemplo 3 (Ejercicio 8, relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2, 7 ? (utilice el contraste χ 2 ) (FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias)) Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados, vamos a introducir las probabilidades del modelo de la distribución de Poisson. Aunque en la muestra sólo aparecen valores entre cero y cinco, en la distribución de Poisson se puede presentar cualquier valor entero mayor o igual a cero. Según lo anterior consideraremos inicialmente las modalidades: 0 personas, 1 persona, 2 personas, ..., 5 o más personas. Consultando en la tabla de probabilidades de la distribución de Poisson con λ = 2, 7 obtenemos para las anteriores modalidades: 356 x p(x) 0 0,0672 1 0,1815 2 0,2450 3 0,2205 4 0,1488 ... ... La probabilidad, p(x ≥ 5), se puede obtener sumando p(5)+p(6)+p(7)+... , hasta el último valor que aparezca en la columna de λ = 2, 7 con probabilidad distinta de cero, o bien, restando a 1 las probabilidades asociadas a x<5, 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1- 0,8630=0,1370. (Introduciremos las probabilidas sin el cero de las unidades, pues sólo acepta valores con 5 dígitos incluida la coma: ,0672 ... ,1370) En el visor de resultados aparecerá: Estadísticos de contraste N observado 2 N esperado 1,8 Residual ,2 1,00 4 4,9 -,9 2,00 5 6,6 -1,6 3,00 8 6,0 2,0 4,00 5 4,0 1,0 5,00 3 3,7 -,7 Total 27 PersonasDia ,00 PersonasDia Chicuadrado(a) gl 1,655 5 Sig. asintót. ,895 a 4 casillas (66,7%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 1,8. Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos últimas modalidades para que todas las frecuencias esperadas sean mayores que 5. 357 NOTA: La opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de independencia y homogeneidad. Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable. Seleccionamos como variable numérica PersonasDia y como variable de resultado escribimos PersonasDiaB. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 0->1 1->1 2->2 3->3 4->4 5->4 (posteriormente, si se quiere, se etiquetarán los valores 1 como 1 o menos y 4 como 4 o más). Se repetirá el contraste sobre la nueva variable PersonasDiaB, considerando las siguientes modalidades y probalidades asociadas 358 x 1 o menos 2 3 4 o más p(x) 0,2487=0,0672+0,1815 0,2450 0,2205 0,2858=0,1488+0,1370 Tras aceptar las selecciones de la anterior pantalla, en el visor de resultados observaremos: PersonasDiaB Estadísticos de contraste N observado 6 N esperado 6,7 Residual -,7 2,00 5 6,6 -1,6 3,00 8 6,0 2,0 1 o menos 4 o más Total 8 7,7 27 ,3 PersonasDiaB Chicuadrado(a) gl Sig. asintót. 1,184 3 ,757 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 6,0. Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de 5 a 3 después de agrupar modalidades. Según el nivel de significación asociado al estadístico chi-cuadrado (0,757>>0,05) se aceptaría la hipótesis nula de que el número de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2, 7 . 359 2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE Al igual que el contraste chi-cuadrado para una muestra, la prueba de Kolmogorov-Smirnov es una prueba de bondad de ajuste: sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad. A diferencia del contraste Chi-cuadrado que fue diseñada para evaluar más bien el ajuste de variables categóricas, el contraste K-S para una muestra se usa sólo para evaluar el ajuste de variables cuantitativas. Para contrastar la hipótesis nula de bondad de ajuste, la prueba K-S se basa en la comparación de dos funciones de distribución: la empírica, Fn , y la teórica F0 . Para las distribuciones discretas (Poisson,...) se calculan las diferencias: Di = Fn ( xi ) − F0 ( xi ) Para las distribuciones continuas (Normal, Uniforme,...) se calculan las diferencias Di = Fn ( xi ) − F0 ( xi ) y Di* = Fn ( xi ) − F0 ( xi +1 ) El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto ( ) y del tamaño muestral n, Z = n max i Di , Di* , obteniéndose la significación asintótica bilateral a partir de la fórmula de Smirnov: Si 0 ≤ Z ≤ 0, 27 ⇒ p =1 Si 0, 27 ≤ Z ≤ 1 ⇒ p = 1− Si 1 ≤ Z ≤ 3,1 ⇒ p = 2 ( Q − Q 4 + Q 9 − Q16 ) Si 3,1 ≤ Z ⇒ p=0 2,506628 (Q + Q 9 + Q 25 ) Z (Q = e ) (Q = e ) −1,233701Z −2 −2 Z 2 Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona Analizar/Pruebas no paramétricas/K-S de 1 muestra. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para contrastar la hipótesis de bondad de ajuste referida a una variable se traslada a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. RECUADRO DISTRIBUCIÓN DEL CONTRASTE. Las opciones de este recuadro permiten elegir la distribución teórica a la cual se desea ajustar la distribución de la variable seleccionada: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse más de una). Los parámetros en las diferentes distribuciones se estiman a partir de los datos. BOTÓN OPCIONES. Conduce a un subcuadro de diálogo idéntico al del contraste de chi- cuadrado. 360 Ejemplo 4 (Ejercicio 8, relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov) (FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/K-S de 1 muestra. En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos PersonasDia, pulsando Aceptar en el visor de resultados aparecerá: 361 Prueba de Kolmogorov-Smirnov para una muestra PersonasDia 27 N Parámetro de Poisson(a,b) Diferencias más extremas Media 2,7037 Absoluta ,085 Positiva ,057 Negativa -,085 Z de Kolmogorov-Smirnov ,443 Sig. asintót. (bilateral) ,989 a La distribución de contraste es la de Poisson. b Se han calculado a partir de los datos. Como el p-valor (0,989) es mayor que 0,05 se acepta la hipótesis de que el número de personas que requieren información se distribuye como una Poisson (de parámetro 2,7). Ejemplo 5 (Ejercicio 7, relación Tema 11) Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25 (desviación típica 1,5). (FICHERO DE DATOS: Ejercicio7_T11.sav (datos sin agrupar, sin frecuencias)) El SPSS toma por defecto como valores de la media y de la desviación típica para la hipótesis nula los de la muestra (14,4 y 1,955). Prueba de Kolmogorov-Smirnov para una muestra N 10 Media Parámetros normales(a,b) Desviación típica Diferencias más extremas Absoluta 14,4000 1,95505 ,181 Positiva ,181 Negativa -,119 Z de Kolmogorov-Smirnov ,573 Sig. asintót. (bilateral) ,898 a La distribución de contraste es la Normal. b Se han calculado a partir de los datos. Si queremos que la media y desviación típica tomen en la hipótesis nula unos valores concretos, como en este ejemplo, debemos seleccionar Pegar en la ventana de opciones del contraste de Kolmogorov-Smirnov para una muestra. Nos aparecerán los comandos de SPSS que siguen: NPAR TESTS /K-S(NORMAL)= DATOS /MISSING ANALYSIS. 362 A continuación del comando NORMAL escribiremos una coma seguida del valor de la media seguida de otra coma y del valor de la desviación típica. Si la media o desviación típica tuvieran decimales se usará el punto decimal (nunca la coma). Una vez modificado quedará como: NPAR TESTS /K-S(NORMAL,14,1.5)= DATOS /MISSING ANALYSIS. En esta misma ventana donde se ha hecho la modificación seleccionamos Ejecutar/Todo y obtendremos el resultado del contraste. Prueba de Kolmogorov-Smirnov para una muestra N 10 Media Parámetros normales(a,b) Desviación típica Diferencias más extremas Absoluta 14 1,5 ,200 Positiva ,109 Negativa -,200 Z de Kolmogorov-Smirnov ,632 Sig. asintót. (bilateral) ,819 a La distribución de contraste es la Normal. b Especificado por el usuario Como el p-valor (0,819) es mayor que 0,05 se acepta la hipótesis de que la muestra procede de una distribución Normal de media 14 y varianza 2,25. 363 3. CONTRASTE DE LAS RACHAS La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son independientes entre sí. Esta prueba permite detectar si el número de rachas observado en una determinada muestra de tamaño n es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la hipótesis de aleatoriedad en las observaciones. Para obtener el número de rachas de un conjunto de observaciones es necesario que éstas estén clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). Si no lo están, se deberá utilizar algún criterio (media, mediana, moda, etc.) para hacer que lo estén. Una vez clasificadas las observaciones en dos grupos, el SPSS utiliza una tipificación del número de rachas cuya distribución es una N(0,1). El SPSS ofrece el nivel crítico bilateral. Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramétricas/Rachas. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para contrastar la hipótesis de aleatoriedad o independencia referida a una variable se traslada esa variable a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. RECUADRO PUNTO DE CORTE. Para obtener el número de rachas es necesario que las observaciones estén claramente clasificadas en dos grupos. Si no lo están, debe utilizarse algún criterio para hacer que lo estén. Pueden usarse como criterio de dicotomización la mediana, la moda, la media o cualquier valor. En ese caso, los valores más pequeños que el punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el punto de corte pasan a formar parte del segundo grupo. Si se desea contrastar la hipótesis de independencia referida a una variable categórica o de cadena puede utilizarse en punto de corte la opción Personalizado. Si la variable es, por ejemplo, dicotómica, con códigos 0 y 1, puede utilizarse como punto de corte el valor 0.5 (o cualquier número comprendido entre 0 y 1), de modo que los casos con código 0 pasen a formar parte del primer grupo y los casos con valor 1 pasen a formar parte del segundo grupo. Para convertir las variables de cadena en variables numéricas (para poder aplicar este contraste) utilice el procedimiento Recodificación automática, disponible en el menú Transformar. BOTÓN OPCIONES. Igual que en los contrastes anteriores. 364 Ejemplo 6. (Ejercicio 14, relación Tema 11) Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( α = 0,10 ). (FICHERO DE DATOS: Ejercico14_T11.sav (datos sin agrupar, sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/Rachas. En el enunciado no se indica que se tome como punto de corte un valor en especial. Hemos tomado la mediana que es el valor marcado por defecto. Prueba de rachas Valor de prueba(a) Casos < Valor de prueba Casos >= Valor de prueba Casos en total Número de rachas Z Sig. asintót. (bilateral) ejemplo_rachas 19,00 4 7 11 4 -1,102 ,270 a Mediana Como el p-valor (0,270) es mayor que 0,10 se acepta la hipótesis nula de aleatoriedad de la muestra. 365 PRÁCTICA 11 Contrastes no paramétricos: Tablas de contingencia y contrastes para dos muestras independientes (SPSS) 1.- TABLAS DE CONTINGENCIA. CHI-CUADRADO. INDEPENDENCIA Y HOMOGENEIDAD. 2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. PRUEBA DE KOLMOGOROV-SMIRNOV. PRUEBA U DE MANN-WHITNEY 1.- TABLAS DE CONTINGENCIA Cuando se trabaja con dos variables categóricas, los datos suelen organizarse en tablas de doble entrada en las que cada entrada representa un criterio de clasificación o variable categórica. Como resultado de esta clasificación, las frecuencias aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios. A estas tablas de frecuencias se les llama tablas de contingencias. El procedimiento de tablas de contingencias permite obtener no solo las tablas, además incluye estadísticos y medidas de asociación que proporcionan la información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que conforman la tabla. Para utilizar este procedimiento seleccionamos en el menú Analizar la opción Estadísticos Descriptivos/ Tablas de contingencias. La lista de variables del archivo de datos muestra todas las variables numéricas y de cadena corta del archivo de datos. Para obtener una tabla de contingencia se traslada una variable a la lista filas y otra a la lista columna. Las opciones disponibles son: ¾ Mostrar los gráficos de barras agrupadas. Activando esta opción el visor de resultados muestra un gráfico de barras agrupadas con las categorías de la variable fila en el eje de abscisas y las categorías de la variable columna anidadas dentro de las categorías de la variable fila. Cada barra del diagrama, por tanto, representa una casilla y su altura viene dada por la frecuencia de la correspondiente casilla. ¾ Suprimir tablas. Esta opción puede activarse si no se desea obtener ninguna tabla de contingencias. Esto tendría sentido si únicamente interesara obtener un gráfico de barras o alguno de los estadísticos o medidas de asociación disponibles en el procedimiento Tablas de contingencias. 366 BOTÓN ESTADÍSTICOS El grado de relación existente entre dos variables categóricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencias. Incluso aunque la tabla recoja las frecuencias porcentuales en lugar de las absolutas, la simple observación de las frecuencias no puede conducir a una conclusión definitiva. Para determinar si dos variables se encuentran relacionadas debe utilizarse una medida de asociación, preferiblemente acompañada de su correspondiente prueba de significación. Una de las opciones disponibles es Chi-cuadrado. CHI-CUADRADO La opción Chi-cuadrado proporciona un estadístico que permite contrastar la hipótesis de que los dos criterios de clasificación utilizados (las dos variables categóricas) son independientes. Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables fueran independientes. Si los datos son compatibles con la hipótesis de independencia, la probabilidad asociada al estadístico Chi-cuadrado (el p-valor) será alta (mayor 0.05). Si esa probabilidad es pequeña (menor que 0.05), se considera que los datos son incompatibles con la hipótesis de independencia y se concluirá que las variables estudiadas está relacionadas. Para que el estadístico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas no sean demasiado pequeñas. Suele asumirse que, si existen frecuencias esperadas menores de 5, éstas no deben superar el 20% del total de frecuencias esperadas, aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. El SPSS muestra en una nota a pie de tabla un mensaje indicando el valor de la frecuencia esperada más pequeña; si existe alguna casilla con frecuencia esperada menor que 5, la nota a pie de tabla también informa acerca del porcentaje que éstas representan sobre el total de casillas de la tabla. En el caso de que ese porcentaje supere el 20%, el estadístico debe interpretarse con cautela o mejor proceder a agrupar filas y/o columnas de la tabla. Para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada. BOTÓN CASILLAS Las casillas o celdas de una tabla de contingencias pueden contener información muy variada, en concreto: frecuencias observadas, frecuencias esperadas, varios tipos de porcentajes y residuos brutos y tipificados. Parte de esta información es esencial para poder interpretar apropiadamente las pautas de asociación presentes en una tabla después de que se rechace la hipótesis de independencia. 367 Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias absolutas: ƒ Observadas. Número de casos resultantes de la clasificación. ƒ Esperadas. Número de casos que debería haber en cada casilla si las variables utilizadas fueran independientes. Recuadro Porcentajes. Es posible seleccionar uno o más de las siguientes frecuencias porcentuales: ƒ Fila. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su fila. ƒ Columna. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su columna. ƒ Total. Porcentaje que la frecuencia observada de una casilla representa respecto al número total de casos de la tabla. Recuadro Residuos. Los residuos son las diferencias existentes entre las frecuencias observadas y esperadas de una casilla. Son especialmente útiles para averiguar en qué grado se desvían de la hipótesis de independencia las frecuencias de cada casilla; consecuentemente, son útiles para interpretar las pautas de asociación presentes en la tabla. Es posible seleccionar una o más de las siguientes opciones: ƒ No tipificados. Diferencia entre la frecuencia observada y la esperada. ƒ Tipificados. Residuo no tipificado dividido por la raíz cuadrada de su correspondiente frecuencia esperada. Su valor esperado es 0 pero su desviación típica es menor que 1, lo cual hace que no puedan interpretarse como puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada casilla contribuye al valor del estadístico chi-cuadrado. De hecho, sumando los cuadrados de los residuos tipificados se obtiene el valor del estadístico chicuadrado. Los residuos tipificados son iguales a ƒ (n ij − Eij ) Eij 2 = (n ij − Eij ) Eij Tipificados corregidos. Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. Su utilidad radica en que, puesto que se distribuye como N(0,1), son fácilmente interpretables: utilizando un nivel de confianza 0.95, puede afirmarse que los residuos mayores de 1.96 delatan casillas con más casos de los que debería haber en esa casilla si las variables estudiadas fueran independientes; mientras que los residuos menores de -1.96 delatan 368 casillas con menos casos de los que cabría esperar bajo la condición de independencia. BOTÓN FORMATO Controla algunos detalles relacionados con el aspecto de las tablas de contingencias generadas. Recuadro Orden de filas. Permite controlar el orden en el que aparecen las categorías de la variable fila: ƒ Ascendente. Muestra las categorías de la variable fila ordenadas de menor a mayor. Es la opción por defecto. ƒ Descendente. Muestra las categorías de la variable fila ordenadas de mayor a menor. Ejemplo 1 (ejercicio 10, relación tema 10) Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0, 05) Salario\Antigüedad <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 n• j 17 16 4 9 6 52 5 8 11 8 3 35 10 9 5 8 4 36 6 7 2 6 6 27 ni• 38 40 22 31 19 150 (FICHEROS DE DATOS: Ejercicio10_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio10F_T10.sav (datos agrupados, con frecuencias)) Recordemos que cuando se utilizan ficheros con frecuencias se deberá indicar en que columna se encuentran éstas, seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos..., después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias. Seleccionamos Analizar/Estadísticos Descriptivos/Tablas de contingencia 369 En situaciones reales, inicialmente no se dispone de los datos agrupados y ordenados en una tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un formato de dos columnas como aparece en estas pantallas. Por ello vamos a pedir que estos datos los represente en una tabla de contigencia (no marcaremos la opción Suprimir tablas) con los Salarios por filas y la Antigüedad por columnas. 370 En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de contingencia, en este ejemplo marcaremos Frecuencias observadas (aparece como recuento en la tabla), Frecuencias esperadas y Residuos tipificados corregidos. En Estadísticos seleccionaremos el estadístico Chi-cuadrado de Pearson para estudiar la independencia entre Salario y Antigüedad. Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen: • La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los residuos tipificados corregidos 371 Tabla de contingencia Salario * Antiguedad Antiguedad Salario 0-500 menos de 5 años 17 Recuento 500-1000 1000-2000 Total 13,2 8,9 9,1 6,8 1,5 -1,7 ,4 -,4 Recuento 8 9 7 40 13,9 9,3 9,6 7,2 40,0 Residuos corregidos ,8 -,6 -,3 -,1 4 11 5 2 22 Frecuencia esperada 7,6 5,1 5,3 4,0 22,0 Residuos corregidos -1,8 3,2 -,2 -1,2 9 8 8 6 31 Frecuencia esperada 10,7 7,2 7,4 5,6 31,0 Residuos corregidos -,7 ,4 ,3 ,2 6 3 4 6 19 Frecuencia esperada 6,6 4,4 4,6 3,4 19,0 Residuos corregidos -,3 -,8 -,3 1,6 Recuento 52 35 36 27 150 52,0 35,0 36,0 27,0 150,0 Recuento Pruebas de chi-cuadrado Valor 15,932(a) 14,781 1,888 Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos gl 12 12 1 Sig. asintótica (bilateral) ,194 ,254 ,169 150 a 4 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,42. • Gráfico de barras Años_Antiguedad < 5 años 5-10 años 10-20 años Más de 20 años 20 15 Recuento 38,0 16 La prueba Chi-cuadrado de independencia 10 5 0 0-500 500-1000 1000-2000 Salario 372 38 Frecuencia esperada Frecuencia esperada • 10-20 años 10 Residuos corregidos Recuento Más de 3000 5-10 años 5 Frecuencia esperada Recuento 2000-3000 Total más de 20 años 6 2000-3000 Más 3000 Según el p-valor (0.194) se aceptaría la hipótesis de independencia. Sin embargo, el residuo corregido para un salario (1000-2000) y una antigüedad (5-10) es 3.2 que no está comprendido entre -1.96 y 1.96, es decir, se escapa de la hipótesis de independencia al 5% de significación. Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 últimas filas y las dos últimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean mayores que 5. Recordemos que la opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para una muestra (como vimos en el ejemplo 3 de la práctica 10). Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta variable. Seleccionamos como variable numérica Salario y como variable de resultado escribimos SalarioB. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->4 5->4 (posteriormente, si se quiere, se etiquetaran los valores 1, 2 y 3 como en Salario y el nuevo valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Más de 2000). Repetiremos el mismo proceso con la variable Antigüedad. Seleccionamos como variable numérica Antiguedad y como variable de resultado escribimos AntiguedadB. (Nota: En la ventana Var. numérica->Var. de resultado hay que eliminar primero Salario->SalarioB, pues si no lo hacemos se aplicará también a ese par de variables la recodificación que queremos hacer en la pareja Antigüedad->AntiguedadB). En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->3 (posteriormente, si se quiere, se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como más de 10 años). Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros Ejercicio10_T10.sav y Ejercicio10F_T10.sav) obteniendo: 373 Tabla de contingencia SueldoB * AntiguedadB AntiguedadB SueldoB 0-500 500-1000 1000-2000 más de 2000 Total menos de 5 años 17 Recuento 5-10 años 5 mas de 10 años 16 Frecuencia esperada 13,2 8,9 16,0 Residuos corregidos 1,5 -1,7 ,0 Recuento Total 38 38,0 16 8 16 40 Frecuencia esperada 13,9 9,3 16,8 40,0 Residuos corregidos ,8 -,6 -,3 Recuento 4 11 7 22 Frecuencia esperada 7,6 5,1 9,2 22,0 Residuos corregidos -1,8 3,2 -1,0 15 11 24 50 Frecuencia esperada 17,3 11,7 21,0 50,0 Residuos corregidos -,8 -,3 1,1 Recuento 52 35 63 150 52,0 35,0 63,0 150,0 Recuento Frecuencia esperada Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal Valor 13,108(a) 12,069 1,537 N de casos válidos gl 6 6 1 Sig. asintótica (bilateral) ,041 ,060 ,215 150 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 5,13. Según el p-valor (0.041) se rechazaría la hipótesis de independencia a un nivel de significación del 5% (0,05), contrariamente a la conclusión obtenida antes de agrupar las frecuencias esperadas menores que 5. Ejemplo 2 (Ejercicio 11, relación Tema 10) A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: BAJA MEDIA ALTA Contrastar la hipótesis de que Universidad A Universidad B 105 140 140 135 255 225 la distribución de calificaciones en las 2 universidades es la misma (con α = 0, 01 ) (FICHEROS DE DATOS: Ejercicio11_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio11F_T10.sav (datos agrupados, con frecuencias)) La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los residuos corregidos, es la siguiente: 374 Tabla de contingencia Nota * Universidad Universidad A Nota Baja Media Alta Recuento 140 245 Frecuencia esperada 122,5 122,5 245,0 Residuos corregidos -2,6 2,6 Recuento 140 135 275 Frecuencia esperada 137,5 137,5 275,0 Residuos corregidos ,4 -,4 Recuento 255 225 480 240,0 240,0 480,0 Residuos corregidos 1,9 -1,9 Recuento 500 500 1000 500,0 500,0 1000,0 Frecuencia esperada Total Total B 105 Frecuencia esperada Se puede observar como los residuos corregidos de las casillas “Nota baja” se salen del intervalo (-1.96, 1.96). Existe una desproporción significativa a favor de la “Universidad B” (residuo corregido 2.6 frente a -2.6) lo que significa que hay una proporción de alumnos de la universidad A menor de la esperada con notas bajas. En la prueba chi-cuadrado se obtiene: Pruebas de chi-cuadrado Valor 6,966(a) 6,984 1000 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos gl 2 2 Sig. asintótica (bilateral) ,031 ,030 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 122,50. El p-valor menor de 0.05 (0.031) nos lleva a rechazar la hipótesis de homogeneidad con un nivel de significación del 5% pero a aceptarla con un nivel de significación del 1% como aparece en el enunciado del ejercicio. Gráfico de barras Universidad A B 300 250 Recuento 200 150 100 50 0 Baja Media Alta Nota 375 2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES Este procedimiento contiene varias pruebas no paramétricas, todas ellas diseñadas para analizar datos provenientes de diseños con una variable independiente categórica (con dos niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos ordinal (en la cual interesa comparar los dos grupos o muestras). El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos muestras, la prueba U de Mann-Whitney, la prueba de reacciones extremas de Moses y la prueba de las rachas de Wald-Wolfowitz. Para obtener cualquiera de estas pruebas: Se selecciona la opción Pruebas no paramétricas/Dos muestras independientes del menú Analizar. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para obtener cualquiera de las pruebas no paramétricas incluidas en el procedimiento (puede seleccionarse más de una simultáneamente): ¾ Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. ¾ Seleccionar la variable que define los grupos (muestras) que interesa comparar y trasladarla al cuadro Variable de agrupación. ¾ Pulsar el botón Definir grupos para acceder al subcuadro de diálogo que permite indicar cuáles son los dos códigos de la variable de agrupación que corresponden a los grupos que interesa comparar. ¾ En el recuadro Tipo de prueba, marcar la opción u opciones correspondientes a las pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten contrastar la misma hipótesis. El botón opciones conduce a un cuadro de diálogo que permite obtener algunos estadísticos descriptivos y controlar el tratamiento de los valores perdidos. PRUEBA DE KOLMOGOROV-SMIRNOV Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la misma población. Para ello compara las funciones de distribución empíricas de ambas muestras, Fn ( x) y Fm ( x) . Se calculan las diferencias Di = Fn ( xi ) − Fm ( xi ) . El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y de los tamaños muestrales n y m, 376 Z= nm max i ( Di ) , obteniéndose la significación asintótica bilateral a partir de la fórmula n+m de Smirnov: Si 0 ≤ Z ≤ 0, 27 ⇒ p =1 Si 0, 27 ≤ Z ≤ 1 ⇒ p = 1− Si 1 ≤ Z ≤ 3,1 ⇒ p = 2 ( Q − Q 4 + Q 9 − Q16 ) Si 3,1 ≤ Z ⇒ p=0 2,506628 (Q + Q 9 + Q 25 ) Z (Q = e ) (Q = e ) −1,233701Z −2 −2 Z 2 Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia central, simetría, variabilidad,… Ejemplo 3 (Ejercicio 9, relación Tema 11) Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 2 4 2 3 5 Muestra 2 2 4 5 3 5 (FICHERO DE DATOS: Ejercicio9_T11.sav) 6 4 7 7 8 6 9 5 3 3 Al tratarse de muestras independientes, aparecerán todos los datos de ambas muestras en la misma columna (Puntuación) y en la columna Muestras con los códigos 1 y 2 distinguiremos a qué muestra pertenece cada puntuación. Seleccionaremos Analizar/Pruebas no paramétricas/Dos muestras independientes del menú Analizar. 377 En la ventana que aparecerá, seleccionaremos Puntuaciones para Contrastar variables y Muestras para Variable de agrupación. En Definir grupos indicaremos que la primera muestra tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de Kolmogorov-Smirnov. En el visor de resultados se obtiene: Estadísticos de contraste(a) Diferencias más extremas Absoluta Valores ,200 Positiva ,100 Negativa -,200 Z de Kolmogorov-Smirnov ,447 Sig. asintót. (bilateral) ,988 a Variable de agrupación: Muestra Dado que la significación asintótica (0.988) es mayor que 0.05 se acepta la hipótesis de que ambas muestras proceden de la misma población. PRUEBA U DE MANN-WHITNEY Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se cumplen los supuestos en los que se basa la prueba (normalidad), o cuando no es apropiado utilizar la prueba T porque el nivel de medida de los datos es ordinal. Este test es sensible a las diferencias de medianas, algo sensible frente a las diferencias de asimetría e insensible frente a las diferencias de varianzas. Es fiable en la comparación de dos promedios poblacionales cuando ambas distribuciones tienen la misma forma. 378 Con muestras pequeñas el SPSS ofrece el nivel crítico bilateral exacto del estadístico U, el cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales que U. Con muestras grandes, el SPSS ofrece una tipificación del estadístico U denominada Z, que se distribuye aproximadamente como una N(0,1). El nivel crítico bilateral se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales a Z. Ejemplo 4 (Ejercicio 9, relación Tema 11) Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney. Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann- Whitney en Tipo de prueba Según el visor de resultados: Estadísticos de contraste(b) U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] Valores 46,500 101,500 -,268 ,789 ,796(a) a No corregidos para los empates. b Variable de agrupación: Muestra Al ser las muestras pequeñas observamos la significación exacta (0.796). Ésta es mayor que 0.05, concluimos que ambas muestras proceden de la misma población. 379 Nota: Según Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de m≥8 y n ≥ 8 . Hay autores que consideran m y n grandes cuando m + n ≥ 60 . En nuestro ejemplo n=10, m=10 y la significación exacta y asintótica son muy próximas. 380 FORMULARIOS Y TABLAS ESTADÍSTICAS 381 382 MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS (O CON REEMPLAZAMIENTO) MEDIA 1 n y = ∑ yi n i =1 ESTIMADOR S2 = CUASIVARIANZA MUESTRAL VARIANZA DEL ESTIMADOR PROPORCION 1 n p = ∑ yi , n i =1 ( 1 n ∑ yi − y n − 1 i =1 )  n  yi  ∑ n yi2 −  i =1  ∑ n S 2 = i =1 n −1 V ( y) = LIMITE DEL ERROR DE ESTIMACIÓN = B σ2 2 V ( y) = 2 INTERVALO DE CONFIANZA TAMAÑO MUESTRAL n= σ2 B2 4 = σ2 D S2 n V ( p) = pq n 2 V ( p) = 2 =B , D= ) = n pq n −1 V ( p) = pq n −1 2 q = 1− p S n σ2 n 2 2 S S   , y+2  y−2  n n  2 V ( y) = 2 ( 1 n S = ∑ yi − y n − 1 i =1 2 V ( y) = n yi = 0, 1 B2 4 pq n −1  pq pq   p−2  , p+2  n −1 n −1    2 V ( p) = 2 n= pq pq = B2 D 4 pq =B n , D= B2 4 383 MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS SIN REEMPLAZAMIENTO MEDIA TOTAL 1 n y = ∑ yi n i =1 ESTIMADOR τ =Ny= V ( y) = VARIANZA DEL ESTIMADOR LIMITE DEL ERROR DE ESTIMACIÓN = B N n 1 n p = ∑ yi , n i =1 n i =1 i S2 N − n n N 384 2 V ( p) 2 V (τ ) = N 2 V ( p ) ) (τ − 2 V (τ ) , τ + 2 V (τ ) ) = = ( N ( y − 2 V ( y ) ) , N ( y + 2 V ( y ) )) B2 (media ) D= 4 B2 D= (total ) 4N 2 pq N − n n −1 N S2 pq V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) n n −1 2 V (τ ) = N 2 V ( y ) Nσ 2 n= ( N − 1) D + σ 2 TAMAÑO MUESTRAL V ( p) = 2 V ( y) V ( y) , y + 2 V ( y) yi = 0, 1 τ =Np ∑y V (τ ) = V ( N y ) = N 2 V ( y ) = N ( N − n) (y − 2 INTERVALO DE CONFIANZA PROPORCION TOTAL (p − 2 (τ − 2 = (N ( p − 2 n= D= V ( p) , p + 2 V ( p) ) ) V (τ ) , τ + 2 V (τ ) = ) ( V ( p) , N p + 2 V ( p) Npq ( N − 1) D + pq B2 4 ( proporcion) B2 D= 4N 2 (total ) )) MUESTREO ALEATORIO ESTRATIFICADO MEDIA TOTAL y st = ESTIMADOR PROPORCION TOTAL L 1 N ∑ Ni y i p st = i =1 L VARIANZA DEL ESTIMADOR = 1 N2 L N i2 V ( y i ) = ∑ i =1 L N i2 ∑ i =1 Si2 N i − ni ni N i L V (τ st ) = N 2 V ( y st ) = ∑ N i2 i =1 TAMAÑO MUESTRAL Si2 N i − ni ni N i V ( p st ) = = 1 N2 n= i =1 ωi L N 2D + ∑ N iσ i2 i =1 i pi 1 N2 L N V(p ) = ∑ N ∑ i =1 L 2 i 2 i i =1 i p i q i N i − ni ni − 1 N i L V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 p i q i N i − ni ni − 1 N i PROPORCION TOTAL L FORMULACIÓN GENERAL i =1 i =1 MEDIA TOTAL N i2σ i2 ∑ ∑N τ st = N p st = ∑ N i p i i =1 1 N2 L L τ st = N y st = ∑ N i y i V ( y st ) = 1 N N i2 pi qi ∑ L n= i =1 ωi L N 2D + ∑ N i pi qi i =1 385 MUESTREO ALEATORIO ESTRATIFICADO TAMAÑO MUESTRAL MEDIA TOTAL PROPORCION TOTAL L (error fijo B ) n = Nσ ∑ i i =1 L i Ni σ i ci ∑ ci i =1 L N 2D + ∑ N iσ i2 L n= Ni ∑ i =1 Nσ C ∑ i i ci i =1 L Nσ ∑ i i =1 L i =1 n= L N ∑ cj ASIGNACIÓN DE NEYMAN ωj = N iσ i ∑ ci i =1 2 i =1 i L N 2D + ∑ N iσ i2 N jσ j i i =1 n= L N 2D + ∑ N i pi qi i =1 i ASIGNACIÓN PROPORCIONAL i =1 ND + 1 N ωj = D 386 L N iσ i2 ∑ L ∑N pi qi i L N pq ∑ n= i i =1 ND + i =1 Nj 1 N ωj = N B2 (media ) 4 B2 (total ) D= 4N 2 D= N j p jq j i =1 N i σ i2 ∑ ) 2 pi qi i i =1 pi qi ci i (∑ N L n= ∑N ωj = L ∑Nσ L L i =1 ωj = p jq j cj i =1 (∑ N σ ) L n= pi qi ci i i =1 Nj L i pi qi ci C∑ Ni N jσ j ωj = i =1 i =1 ci i i N 2D + ∑ N i pi qi L (coste fijo C ) n = N ∑ L i =1 ASIGNACIÓN ÓPTIMA L pi qi ci D= B2 4 D= i i L N pq ∑ i =1 i i i Nj N ( proporcion) B2 4N 2 (total ) pi qi ci ESTIMACIÓN DE RAZÓN RAZÓN MEDIA TOTAL n µ y = rµx y ∑ i ESTIMADOR y r = in=1 = x xi ∑ τ y = rτ x i =1 S r2 = VARIANZA RESIDUAL 1 n 2 ( yi − rxi ) ∑ n − 1 i =1 V ( µ y ) = µ x2 V (r ) = VARIANZA DEL ESTIMADOR V (r ) = 1 N − n Sr2 µ x2 N n N − n Sr2 N n V (τ y ) = τ x2 V (r ) = N 2 n= Nσ r2 ND + σ r2 DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 σ r = Sr2 de una muestra previa D= D= B2 4 N − n Sr2 N n B 2 µ x2 4 ( para estimar R) ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) 387 ESTIMACIÓN DE REGRESIÓN S x2 = ( 1 n ∑ xi − x n − 1 i =1 VARIANZA, COVARIANZA 1 n Y COEF. DE S xy = ∑ xi − x n − 1 i =1 CORRELACIÓN MUESTRALES ( ) MEDIA TOTAL 1 n sx2 = ∑ xi − x n i =1 ( 2 )( y − y ) rxy2 = S xy2 S x2 S y2 2 ( 1 n ∑ xi − x n i =1 sxy = i ) = (n − 1) S x2 = nsx2 x y − xy )( y − y ) = 1n ∑ n i i =1 i i sxy2 sx2 s y2 ( x − x )( y − y ) ∑ n µ yL = y + b( µ x − x) b= ESTIMADOR S xy S x2 = sxy sx2 = i i =1 i ( x − x) ∑ n i =1 2 i τ yL = N µ yL VARIANZA RESIDUAL ( ( 1 n S = ∑ yi − y + b( xi − x) n − 2 i =1 2 L ERROR TÍPICO DE ESTIMACIÓN )) 2  n 2 s y (1 − rxy2 )  =  n−2 S L2 = S L V ( µ yL ) = VARIANZA DEL ESTIMADOR N − n S L2 N n V (τ yL ) = N 2 V ( µ yL ) n= Nσ L2 ND + σ L2 D= B2 4 DETERMINACIÓN DEL TAMAÑO MUESTRAL 388 2 n  2 sxy =  sy − 2 n − 2  sx 2 σ L = S L2 de una muestra previa ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) ESTIMACIÓN DE DIFERENCIA MEDIA TOTAL µ yD = y + ( µ x − x) = µ x + d d = y−x ESTIMADOR τ yD = N µ yD VARIANZA RESIDUAL S D2 = ( 1 n ∑ yi − ( xi + d ) n − 1 i =1 ) 2 = ( 1 n ∑ di − d n − 1 i =1 V ( µ yD ) = VARIANZA DEL ESTIMADOR ) 2 di = yi − xi N − n S D2 N n V (τ yD ) = N 2 V ( µ yD ) DETERMINACIÓN DEL TAMAÑO MUESTRAL Nσ D2 n= ND + σ D2 B2 D= 4 2 σ D = S D2 ( para estimar µ y ) de una muestra previa B2 D= 4N 2 ( para estimar τ y ) 389 MUESTREO POR CONGLOMERADOS MEDIA o PROPORCIÓN TOTAL (M conocido) n = conglomerados en la muestra yi = suma de las observaciones del conglomerado i N = conglomerados en la población mi = elementos en el conglomerado i N NOTACIÓN n M = ∑m i = elementos en la población m = ∑m i = elementos en la muestra i =1 M= 1 N TOTAL i =1 N ∑ m = tamaño medio de los conglomerados de la población i =1 i m= 1 n ∑ mi = tamaño medio de los conglomerados de la muestra n i =1 n µ=y= ESTIMADOR ∑y i =1 n i yt = ∑m i =1 i τ t = N yt τ =My Sc2 = VARIANZA DEL ESTIMADOR ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 St2 = 1 N − n Sc2 V ( y) = 2 N n M S2 V (τ ) = M V ( y ) = N ( N − n) c n TAMAÑO MUESTRAL 390 Nσ c2 ND + σ c2 2 σ c = Sc2 de una muestra previa ( 1 n ∑ yi − y t n − 1 i =1 (media) (total ) 2 V (τ t ) = N 2 V ( y t ) = N ( N − n) n= Nσ t2 ND + σ t2 2 σ t = St2 B2 D= 4N 2 St2 n de una muestra previa 2 B2 M D= 4 B2 D= 4N 2 ) N − n St2 V ( yt ) = N n 2 n= 1 n ∑ yi n i =1 (total ) ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO DIRECTO NOTACIÓN ESTIMADOR t = elementos marcados n = total de elementos en la muestra de recaptura s = elementos marcados en la muestra de recaptura N= ( ) t p E N =N+ PROPIEDADES DEL ESTIMADOR MUESTREO INVERSO ( ) = nt s N (N − t) nt t 2 n( n − s ) V N = s3 N= t p = nt s ( ) E N =N ( ) t 2 n( n − s ) V N = 2 s ( s + 1) 391 ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO POR CUADROS DENSIDAD NOTACIÓN TOTAL A = área total a = área de cada cuadro n = número de cuadros en la muestra m = número medio de elementos por cuadro en la muestra ESTIMADOR VARIANZA DEL ESTIMADOR λ= () M = λA m a V λ = ( ) λ A2 λ V M =AV λ = an an ( ) 2 CUADROS CARGADOS DENSIDAD NOTACIÓN ESTIMADOR VARIANZA DEL ESTIMADOR 392 TOTAL A = área total a = área de cada cuadro n = número de cuadros en la muestra y = número total de cuadros no cargados 1  y λ = − ln   a n () V λ = 1 n− y a 2 ny M = Aλ = − ( ) A  y ln   a n ( ) V M = A2 V λ = A2 n − y a 2 ny INDICADORES ESTADÍSTICOS REGIONALES Medidas de desigualdad-concentración regional: x j = valores porcentuales (proporciones) de la variable respecto del total= Xj N ∑X j =1 j N Coeficiente de Theil T = ln N + ∑ x j ln x j j =1 k  xg Propiedad de agregación: T = ln N + ∑ xg ln  g =1  Ng k ∑ Ng = N ∑ xg = j∈Gg g =1  k  + ∑ xg Tg  g =1 Tg = ln N g + xj N Índice de Theil: IT = ITHEIL T = = ln N Desigualdad individual: di = ln N + ∑ x j ln x j j =1 ln N ∑ j∈Gg N = 1+ ∑x j =1 j x ln  j xg  xg xj    ln x j ln N x − Xi x = −1 Xi Xi N Desigualdad colectiva: D = ∑ di f i i =1 Propiedad de agregación: D = Dg = ∑ j∈Gg xg − X j Xj dg = fj 1 N k ∑ dg Ng + g =1 x N k ∑D g =1 g Ng xg x − xg xg Medidas de dispersión regional: Varianza: V ( X ) = 1 N N ∑( X j =1 j − x) 2 Varianza normalizada: VN ( X ) = V (X ) x2 Coeficiente de asociación geográfica de Florence : F = 1 − 1 N ∑ xj − yj 2 j =1 393 MEDIDAS DE LOCALIZACIÓN ESPACIAL Yij Yi j → participación de la región i en el sector j Yi i → participación de la región i en la población Y Yij Yi i Yij Yi i → participación del sector j en la región i → participación del sector j en la región i Cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) : Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Coeficiente de localización sectorial (del sector j-ésimo): CL j = 1 N Yij Yi i ∑ − 2 i =1 Yi j Y Coeficiente de especialización regional (de la región i-ésima): CEi = 1 L Yij Yi j ∑ − 2 j =1 Yi i Y Coeficiente de diversificación (de la región i-ésima): 2  L   ∑ Yij  Y2 j =1 CDi =  L  = Li i L ∑ Yij2 L∑ Yij2 j =1 j =1 Coeficiente de diversificación normalizado: CDi* = 394 L  1  CDi −  L −1  L Contrastes χ 2 de Pearson ni=nº de observaciones en la clase i. Ei=npi=nº esperado de observaciones en la clase i bajo H0. k (n χ2 = ∑ i i =1 − Ei ) Ei 2 nij = nº de elementos en la categoría Ai de X nij = nº de elementos en la categoría Ai de X, y B j de Y. de la población B j . c ni• = ∑ nij = nº de elementos en la categoría ni• = ∑ nij = nº de elementos en la categoría Ai de X. Ai de X. j =1 r r n• j = ∑ nij = nº de elementos en la población B j de Y. Bj . n = nº de elementos en la muestra. n = nº de elementos en la muestra. Eij = ni• n• j n χ2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) H 0 : X → F(x) H0 : X e Y son independientes. H 1: X → G ( x). G ( x) ≠ F ( x) H1 : X e Y no son independientes. χ 2 > χ k2−1,1−α j =1 n• j = ∑ nij = nº de elementos en la categoría i =1 rechazamos H 0 si c rechazamos H o si i =1 2 Eij χ 2 > χ (2r −1)( c−1); 1−α Eij = ni• n• j n χ2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) 2 Eij H0: Las c poblaciones son homogéneas (se distribuyen igual) H1: Las c poblaciones no se distribuyen igual rechazamos H o si χ 2 > χ (2r −1)( c−1); 1−α 395 Contrastes de Kolmogorov-Smirnov (muestras independientes). F0 ( x) = P [ X ≤ x ] muestra 1 n º observaciones ≤ x Fn ( x ) = n Dexp = max F0 ( x ) − Fn ( x ) Fn ( x ) = muestra 2 nº observaciones ≤ x n º observaciones ≤ x Fm ( x ) = n m Dexp = max Fn ( x) − Fm ( x) Contraste bilateral: H 0 : X → F(x)  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales: H 1: X → G ( x). G ( x) ≠ F ( x)  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  rechazamos H 0 si 396 Dexp > Dα (tabla A.14) ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. Se rechaza H 0 si Dexp > Dα . (Tablas A.18 y A.19) Contraste de Mann-Whitney (muestras independientes). U1 = nm + muestras de tamaños n y m n≤m n(n + 1) − R1 2 U 2 = nm + n + m > 60 ( z → N (0,1) ) U 0 = min (U1 , U 2 ) H 0 = Las dos muestras proceden de la misma población. Fn ( x) = Fm ( x) H1 = Las muestras proceden de poblaciones distintas. Fn ( x) ≠ Fm ( x) n ≤ 20 y m ≤ 40 (tablas 3.17 a 3.20) m(m + 1) − R2 2 Se rechaza H 0 si U 0 ≤ U α H1 = Fn ( x) < Fm ( x) H1 = Fn ( x) > Fm ( x) ( La muestra de tamaño n toma valores mayores que la muestra de tamaño m). ( La muestra de tamaño n toma valores menores que la muestra de tamaño m). Se rechaza H 0 si U 0 ≤ Uα Se rechaza H 0 si U 0 ≤ Uα (Uα valor crítico para el test bilateral ) (Uα valor crítico para el test unilateral ) (Uα valor crítico para el test unilateral ) U0 − µ σ µ= = z0 nm 2 σ2 = nm(n + m + 1) 12 p = P [ z ≤ z0 ] Se rechaza H 0 si p ≤ α 2 Se rechaza H 0 si p ≤ α Se rechaza H 0 si p ≤ α 397 Test de las rachas (aleatoriedad, muestras independientes). H 0 = El orden de los valores de la muestra es aleatorio (casual ) H 0 = Las dos muestras proceden de la misma población H A1 = Las dos muestras proceden H A = El orden de los valores de la H A1 = Efecto de aglomeración H A 2 = Los valores se suceden de forma regular. de poblaciones distintas. muestra NO es aleatorio (casual ) ( pocas rachas ) n1 y n2 ≤ 20 (tabla 4.40) ( N (0,1) ) Se mantiene H 0 si ru < R Se mantiene H 0 si ru < R Se mantiene H 0 si R < ro (límites inferiores y superiores (límites inferiores del α %) (límites superiores del α %) (límites inferiores del α %) α %) 2 R−µ σ µ= =z 2n1n2 +1 n1 + n2 σ2 = 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 Se mantiene H 0 si − zα < z < zα 2 398 ( pocas rachas ) Se mantiene H 0 si ru < R < ro del n1 o n2 > 20 (muchas rachas) 2 Se mantiene H 0 si − zα < z Se mantiene H 0 si z < zα Se mantiene H 0 si − zα < z Test de los signos (muestras dependientes). H 0 : La mediana de las diferencias es cero ≈ Las dos muestras proceden de la misma distribución. F1 ( x) = F2 ( x) Se rechaza H 0 cuando hay demasiadas diferencias de un signo y, por tanto, muy pocas del signo contrario di = xi1 − xi 2 d + = diferencias de signo positivo H1 : Las dos muestras proceden de distribuciones distintas. F1 ( x) ≠ F2 ( x) n ≤ 100 d − = diferencias de signo negativo H1 : Las dos muestras proceden H1 : Las dos muestras proceden de distribuciones distintas. F1 ( x) < F2 ( x) ( La muestra 1 toma de distribuciones distintas. F1 ( x) > F2 ( x) ( La muestra 1 toma valores mayores que la muestra 2). valores menores que la muestra 2). Se acepta H 0 si EI ≤ {d + , d − } ≤ ED Se acepta H 0 si {d+ ≤ ED , EI ≤ d − } Se acepta H 0 si {d− ≤ ED , EI ≤ d + } Se acepta H 0 si EI ≤ {d + , d − } ≤ ED Se acepta H 0 si {d + ≤ ED , EI ≤ d − } Se acepta H 0 si {d − ≤ ED , EI ≤ d + } (tabla 4.4) 101 ≤ n ≤ 1000 (tabla 4.5) 30 ≤ n ( N (0,1) ) z+ = d+ − µ z− = σ µ= n 2 σ2 = d− − µ σ d+ − µ σ z− = d− − µ σ n 4 Se acepta H 0 si − zα ≤ { z+ , z− } ≤ zα 2 z+ = Se acepta H 0 si { z+ ≤ zα , − zα ≤ z− } Se acepta H 0 si { z− ≤ zα , − zα ≤ z+ } 2 399 Test de Wilcoxon de los signos-rangos (muestras dependientes). di = xi1 − xi 2 ⇒ ordenar di de menor a mayor ⇒ R+ y R− ⇒ verificar R+ + R− = n(n + 1) ⇒ R = min( R+ , R− ) 2 H 0 : La distribución de las diferencias es simétrica alrededor de su mediana 0 ≈ Las dos muestras proceden de la misma distribución. H0 : f(+d)= f(-d) F(+d)+ F(-d)= 1 H1 : Las dos muestras proceden de distribuciones distintas. n ≤ 65 ( tabla 4.2 ) n > 25 ( N (0,1) ) Se rechaza H 0 si R−µ σ Se rechaza H 0 si µ= =z z ≤ − zα 2 400 R ≤ Rα n(n + 1) 4 (test bilateral ) ( Rα valor crítico para el test ) σ2 = n ( n + 1)( 2n + 1) 24 Se rechaza H 0 si z ≤ − zα (test unilateral )