Preview only show first 10 pages with watermark. For full document please download

Caracterización De Datos Cuantitativos No Agrupados

   EMBED


Share

Transcript

CONGREGACIÓN DE LOS HERMANOS DE LAS ESCUELAS CRISTIANAS DISTRITO DE MEDELLÍN INSTITUTO LA SALLE LA EXIGENCIA DA EXCELENCIA  Código Fecha Material de Estudio No. 2 08 - 05 - 11 Docente: Angélica María López Asignatura: Estadística Curso: 9°03 ² 9°04 Caracterización de datos cuantitativos no agrupados Para caracterizar datos no agrupados se utilizan: el diagrama de caja y bigotes, medidas de tendencia central, medidas de posición ymedidas de dispersión. Medidas de tendencia central Las medidas de tendencia central son la media, la mediana y la moda. Media aritmética o promedio Es un dato que pertenece a un individuo artificial, no necesariamente está en el conjunto de datos, que representa las características del grupo. La media es el punto de equilibrio del conjunto de datos.  Cuando  Cuando   se considera una muestra, la media aritmética se simboliza con para un conjunto de datos se calcula así:               y se considera una población, la media aritmética se simboliza  y se calcula de la misma forma. La media es una medida que se ve afectada por el cambio drástico de uno de los datos. Si hay un dato muy grande o muy pequeño con respecto a los demás el valor de la media cambia significativamente, es decir, la media es una medida sensible al cambio de un dato. Mediana Es el dato que divide en dos partes, porcentualmente, iguales el conjunto de datos. Cuando   se considera una muestra la mediana se simboliza una población la mediana se simboliza . y cuando se considera Para calcularla, se ordena el conjunto de datos de menor a mayor y se ubica el dato de la mitad. Si el número de datos es impar, la mediana es el dato que se ubica en la mitad y siempre pertenece al conjunto. Si el número de datos es par, la mediana corresponde al promedio de los dos datos de la mitad. En algunos casos, este valor no pertenece al conjunto. La mediana es una medida que no considera la magnitud de los datos, por ello no se ve afectada por el cambio significativo de uno de ellos. Sin embargo, al no considerar la magnitud no es una medida que describa las características de los datos cuando están lejanos unos de otros. Moda Corresponde al dato que más se repite dentro de un conjunto de datos.   En aquellos casos en los cuales se analiza una muestra, la moda se simboliza trata de una población la moda se simboliza . , si se Sus principales propiedades son:  Cálculo  Interpretación  sencillo. muy clara.   Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot". Cuando de datos cuantitativos se trata, la moda no es una medida muy utilizada para describir su comportamiento ya que carece de significado en un contexto determinado y en algunos casos pueden presentarse distribuciones bimodales y multimodales. Medidas de posición Las medidas de posición dividen a los datos en partes porcentualmente iguales. Las medidas de posición son: los cuartiles, los deciles y los percentiles. Cuartiles Son las medidas en que dividen un conjunto de datos en cuatro partes iguales. Cada una representa el 25 % del total.    Los cuartiles son tres valores que se simbolizan   a continuación:  . Gráficamente se representa Se puede ver que el valor del cuartil dos corresponde a la mediana. Antes del primer cuartil se encuentra el 25 % de los datos, entre el primero y el segundo cuartil se encuentra el 25 % de los datos y así sucesivamente. Para calcular el valor de los cuartiles se orden los datos de mayor a menor y se calcula el valor de la mediana, es decir  . Luego, se considera la primera mitad de los datos y se calcula la mediana, este dato será el primer cuartil. Igualmente se considera la segunda mitad de los datos y se calcula la mediana, este dato corresponde al tercer cuartil.   Si el número de datos menores a la mediana es par, para calcular  la mediana se incluye. De la misma forma se procede para  .  Deciles Son los valores que dividen un conjunto de datos en diez partes iguales. Cada una representa el 10 % del total. Los deciles son 9 datos y se simbolizan     . El valor del quinto decil corresponde a la mediana. El proceso para calcular los deciles es semejante al que se utilizó para calcular los cuartiles. Primero, la mediana, luego los cuartiles y la mediana de la primera cuarta parte de los datos y así sucesivamente hasta obtener los nueve deciles. Percentiles Son los valores que dividen un conjunto de datos en cien partes iguales. Cada una representa el 1 % del total de datos. Los percentiles son 99 y el percentil 50 corresponde al valor de la mediana. Estas dos medidas de posición se utilizan en contextos donde la cantidad de datos que se va a utilizar es grande y en contextos relacionados con distribuciones de probabilidad. Medidas de dispersión  Al analizar un conjunto de datos es necesario establecer algunas medidas que determinan la variabilidad o dispersión de los datos entre si. Estas medidas son: el rango, la varianza y la desviación estándar. Rango Corresponde a la longitud o ancho que abarcan los datos. Se define como la diferencia entre el dato mayor y el dato menor. Cuando el rango de los datos es pequeño se dice que la variabilidad o dispersión es baja y viceversa. viceversa. Desviación La desviación de un dato es la distancia que hay entre ese valor y la media. La desviación del i - ésimo dato es      . Una desviación negativa significa que el dato es menor que la media, y una desviación positiva significa que el dato es mayor que la media.  Ya que el promedio es el punto de equilibrio de los datos, las desviaciones negativas se deben compensar con las desviaciones positivas. Por tanto, la suma de las desviaciones debe ser cero. Debido a que la suma de las desviaciones es cero, se debe considerar una medida que incluya estos valores y que no sea nula. Para ello, se calculan los cuadrados de las desviaciones, bajo el principio que si una desviación es grande, su cuadrado será grande. Para un conjunto de datos se tiene la siguiente definición:     V arianza arianza Si la variable que se va a caracterizar se ha tomado de una población, la varianza se define como la media de las desviaciones al cuadrado. La varianza poblacional se simboliza         Una fórmula alternativa para calcular la varianza es                         corresponde a la suma de los cuadrados de los datos.  N corresponde a la suma de los datos elevada al cuadrado. corresponde al número de datos. donde: La interpretación del valor de la varianza está ligada a las unidades en las cuales esté medida la variable. Si la varianza es grande, los datos están muy dispersos y la variabilidad de la variable es alta. Si se puede concluir que la varianza es grande, entonces la media no es un buen representante del grupo ya que existen datos muy alejados entre sí o datos muy lejanos del promedio. Si la variable que va a caracterizarse se ha tomado de una muestra, la varianza se define como la suma delos cuadrados de las desviaciones, sobre el número de datos menos uno. La varianza muestral se simboliza S 2.          Es importante aclarar, que para el caso muestral, se estima el valor de una medida, por lo cual se tiende a cometer error en la estimación, luego, la variabilidad de la variable es más alta. La mayoría de estudios estadísticos están relacionados con muestras, por lo cual, la varianza que normalmente se utiliza para el análisis de resultados es la muestral. La varianza es una medida de variabilidad o dispersión que debe interpretarse con cuidado, ya que, al considerar los cuadrados de las desviaciones, las cantidades también se elevan. Para interpretar la variabilidad de una variable sin considerar el problema de las unidades, se considera la desviación estándar como medida alterna. La desviación estándar corresponde a la raíz cuadrada de la varianza. Para el caso poblacional, se simboliza  W y se calcula:                             Para el caso muestral, se simboliza S, y se calcula:                             La desviación estándar es una medida que tiene las mismas unidades que los datos iniciales. Por ello, al analizar si es grande o pequeña no hay problema de comparación entre unidades diferentes. Diagrama de caja y bigotes En los estudios en los cuales se caracteriza una variable cuantitativa es necesario establecer algunos criterios que permiten determinar si existen datos inusuales que afectan significativamente la media y la desviación estándar. El criterio del diagrama de caja y bigotes cumple con esta misión. El diagrama de caja y bigotes es una representación gráfica que permite detectar datos inusuales en la muestra. El diagrama de cajas se construye usando la mediana y los cuartiles. La forma del diagrama se muestra en la siguiente gráfica: q1   q3 q3 ² q1 Pasos para construir un diagrama de caja y bigotes 1. Se calculan los cuartiles y se ubican sobre una recta real. Estos tres forman las cajas del diagrama. 2. La longitud de las cajas es la diferencia entre el primer y el tercer cuartil. A  este valor se llama rango intercuartílico. 3. El primer bigote tiene longitud igual a 1,5 veces el rango intercuartílico. Es decir, el extremo superior del primer bigote está en q 3+1,5(q 3 ² q1). De la misma forma, se tiene que, el extremo inferior del primer bigote estaubicado en q 1 ²  1,5(q3 ² q1). El criterio para multiplicar el rango por 1,5 es estándar. En algunos diagramas se puede multiplicar por una unidad o en otros casos por dos. Los datos que se encuentren dentro de los primeros bigotes, son los que no afectan el valor de las medidas de caracterización. 4. El segundo bigote se construye de la misma forma. Es decir, que el extremo superior del segundo bigote está en q 3 + 3(q3 ² q1) y el extremo inferior del segundo bigote esta en q1 ² 3(q3 ² q1). Los datos ubicados sobre los segundos bigotes son los que influyen, no significativamente sobre las medidas de caracterización. 5. Una vez se ha construido el diagrama de caja y bigotes, se determina si existen datos que están fuera de los dos bigotes. A estos valores se les llama atípicos o inusuales. Estos datos influyen significativamente en las medidas de caracterización de la variable. Si existe algún dato atípico la varianza es alta. En caso de determinar que existen datos de este estilo, se debe revisar el proceso de muestreo o se debe determinar si el dato en mención procede de un individuo que no pertenece a la población. Para caracterizar una variable cuantitativa se utilizan todos los procesos mencionados en este material.