Medidas de dispersión
Después de leer este artículo, aprenderá acerca de las diversas medidas de dispersión utilizadas en la investigación social.
En la investigación social, a menudo deseamos conocer el grado de homogeneidad y heterogeneidad entre los encuestados con respecto a una característica dada. Cualquier conjunto de datos sociales tiene valores que pueden caracterizar la heterogeneidad. El conjunto de datos sociales se caracteriza típicamente por la heterogeneidad de los valores.
De hecho, la medida en que son heterogéneas o varían entre sí, es de importancia básica en las estadísticas. Las medidas de tendencia central describen una característica importante de un conjunto de datos, pero no nos dicen nada sobre esta otra característica básica.
En consecuencia, necesitamos formas de medir la heterogeneidad, en la medida en que los datos están dispersos. Las medidas que proporcionan esta descripción se denominan medidas de dispersión o variabilidad. Las siguientes tres distribuciones que se muestran en la Fig. 18.4 ilustrarán la importancia de medir la dispersión de datos estadísticos.
Distribución de valores medios para muestras de diferentes tamaños :
Se puede ver que la media aritmética de las tres curvas en la figura anterior es la misma, pero la distribución de los valores representada por la curva A muestra menos variabilidad (dispersión) que la representada por la curva B, mientras que la curva B tiene menos variabilidad en comparación con lo mostrado por la curva C.
Si consideramos solo la medida de la tendencia central de las distribuciones, perderemos una diferencia importante entre las tres curvas. Para obtener una mejor comprensión del patrón de los datos, también debemos obtener la medida de su dispersión o variabilidad, ahora pasamos a considerar varias medidas de dispersión.
Distancia:
El rango se define como la diferencia entre los valores más altos y más bajos: matemáticamente,
R (Rango) = M n - M L
donde M n y M l representan el valor más alto y más bajo. Por lo tanto, para el conjunto de datos: 10, 22, 20, 14 y 14, el rango sería la diferencia entre 22 y 10, es decir, 12. En el caso de datos agrupados, tomamos el rango como la diferencia entre los puntos medios del extremo clases Por lo tanto, si el punto medio del intervalo más bajo es 150 y el del más alto es 850, el rango será 700.
La única ventaja del rango, cuya medida de dispersión rara vez se utiliza, es que se puede calcular y comprender fácilmente. A pesar de esta ventaja, generalmente no es una medida de dispersión muy útil; Su principal inconveniente es que no nos dice nada acerca de la dispersión de valores intermedios entre los dos extremos.
Rango de semilíteres o desviación del cuartil:
Otra medida de la dispersión es el rango semi-inter-cuartil, comúnmente conocido como Desviación del cuartil. Los cuartiles son los puntos que dividen la matriz o serie de valores en cuatro partes iguales, cada una de las cuales contiene el 25 por ciento de los elementos de la distribución. Los cuartiles son los valores más altos en cada una de estas cuatro partes. El rango intercuartil es la diferencia entre los valores de los cuartiles primero y tercero.
Por lo tanto, donde y Q 1 y Q 3 representan los cuartiles primero y tercero, el rango semi-inter-cuartil o la desviación de cuartil se da mediante la fórmula = Q 3 –Q 1/2
Cálculo de la desviación del cuartil:
La desviación del cuartil es una medida absoluta de dispersión. Si se va a utilizar la desviación de cuartiles para comparar las dispersiones de series, es necesario convertir la medida absoluta en un coeficiente de desviación de cuartiles.
Desviación media :
El rango y la desviación del cuartil adolecen de serios inconvenientes, es decir, se calculan teniendo en cuenta solo dos valores de una serie. Por lo tanto, estas dos medidas de dispersión no se basan en todas las observaciones de la serie. Como resultado, la composición de la serie se ignora por completo. Para evitar este defecto, la dispersión se puede calcular teniendo en cuenta todas las observaciones de la serie en relación con un valor central.
El método de cálculo de la dispersión se denomina método de promediar desviaciones (desviación media). Como su nombre lo sugiere claramente, es el promedio aritmético de las desviaciones de varios ítems de una medida de tendencia central.
Como bien sabemos, la suma de las desviaciones de un valor central siempre será cero. Esto sugiere que para obtener una desviación media (alrededor de la media o cualquiera de los valores centrales), debemos eliminar de alguna manera los signos negativos. Esto se hace ignorando los signos y tomando el valor absoluto de las diferencias.
En nuestro ejemplo hipotético, la media de los números 12, 14, 15, 16 y 18 es 15. Esto implica que la diferencia de 15 de cada uno de estos números, ignorando los signos todo el tiempo y luego sumando los resultados, obtendremos el total desviación.
Dividiéndolo por 5, obtenemos:
= 1.6 (donde | d | representa la suma de las desviaciones absolutas).
Por lo tanto, podemos decir que en promedio las puntuaciones difieren de la media en 1.6.
Cálculo de la desviación media en fecha desagrupada (observaciones individuales):
Cálculo de la desviación media en series continuas:
Para comparar la desviación media de la serie, se calcula el coeficiente de desviación media o la desviación media relativa. Esto se obtiene dividiendo la desviación media por esa medida de tendencia central a partir de la cual se calcularon las desviaciones. Así,
Coeficiente de media. Desviación / X
Aplicando esta fórmula al ejemplo anterior, tenemos,
Coeficiente de desviación media = 148/400 = 0.37
Desviación estándar :
La medida de dispersión más útil y utilizada con mayor frecuencia es la desviación estándar o la desviación cuadrada de la media de la raíz respecto de la media. La desviación estándar se define como la raíz cuadrada de la media aritmética del cuadrado de las desviaciones sobre la media. Simbólicamente,
σ = √Σd 2 / N
donde σ (letra griega Sigma) representa la desviación estándar, Σd 2 para la suma del cuadrado de las desviaciones medidas de la media y N para el número de elementos.
Cálculo de la desviación estándar en series de observaciones individuales:
Método de atajo:
Cálculo de la desviación estándar en series discretas :
En una serie discreta, las desviaciones de una media supuesta se calculan primero y se multiplican por las respectivas frecuencias de los elementos. Las desviaciones son cuadradas y multiplicadas por las respectivas frecuencias de los artículos. Estos productos están totalizados y divididos por el total de las frecuencias. La desviación estándar se calcula mediante la siguiente fórmula:
La siguiente ilustración explicaría la fórmula:
Cálculo de la desviación estándar en una serie continua :
En una serie continua, los intervalos de clase están representados por sus puntos medios. Sin embargo, generalmente los intervalos de clase son de igual tamaño y, por lo tanto, las desviaciones del promedio asumido se expresan en unidades de intervalo de clase. Alternativamente, las desviaciones de paso se obtienen al dividir las desviaciones por la magnitud del intervalo de clase.
Por lo tanto, la fórmula para calcular la desviación estándar se escribe como en:
donde i representa el factor común o la magnitud del intervalo de clase.
El siguiente ejemplo ilustraría esta fórmula:
Coeficiente de variación:
La desviación estándar representa la medida de la dispersión absoluta. También es necesario medir la dispersión relativa de dos o más distribuciones. Cuando la desviación estándar está relacionada con su media, mide la dispersión relativa. Karl Pearson ha desarrollado una medida simple de dispersión relativa que generalmente se conoce como el coeficiente de variación.
El coeficiente de variación para el problema en la Tabla 18.47 es: