Ochoa Sangrador C, Molina Arias M. Estadística descriptiva. Evid Pediatr. 2018;14:43.
Como hemos visto en el anterior artículo de esta serie de fundamentos, el primer paso del análisis estadístico es el cálculo de medidas descriptivas de la muestra de estudio. Podemos diferenciar varios grupos de medidas: de masa, de tendencia (o centralización) y de dispersión.
Son medidas de masa el tamaño muestral (n), el sumatorio y las frecuencias absoluta y relativa.
En la tabla 1 se puede ver la tabla de frecuencias de la variable número de hijo de 20 parejas, tal y como lo ofrecen la mayoría de los paquetes estadísticos.
Tabla 1.Tablas de frecuencias de la variable número de hijos de 20 parejas. Mostrar/ocultar
Las principales medidas de tendencia son la media, la moda y la mediana. Cada una de ellas describe una característica de los datos que estamos analizando.
$$\overline X = \frac{X_1 + X_2 + ... + X_n}{n} = \frac {\sum^n_{i=l} X_i}{n} = \frac{\sum X_i}{n}$$
$$\tilde X =\left\{ \begin{array} \frac {X_{n+1}\over 2} \space si\space n\space impar \\[2ex] \frac{X_{n/_2} + X_{n/_2+1}}{2}\space si\space n\space par \end{array} \right\} \{ X_i \} \space ordenadas $$
Veamos de forma gráfica cómo localizar la mediana. En una muestra de 20 pacientes se recogieron las siguientes estancias hospitalarias:
$$ X = \{2, 20, 3, 4, 5, 2, 3, 6, 7, 4, 2, 1, 3, 4, 6, 8, 6, 5, 4, 3 \} $$
Si las ordenamos (figura 1), la posición central la ocupan dos 4. La media de ambos es 4. Esa es la mediana.
Figura 1. Identificación de la mediana. Mostrar/ocultar
La medida más popular y empleada es la media; sin embargo, cuando los valores de una muestra no siguen una distribución normal o existen valores extremos en la distribución, no es una buena medida de tendencia. En estas circunstancias recomendamos utilizar la mediana. Si la media y la mediana son muy diferentes, es poco probable que el valor medio describa la tendencia de los datos (probablemente no tengan una distribución de Gauss o normal), por lo que tendremos que dar la mediana o ambos.
Las medidas de tendencia no permiten describir los datos de una muestra, porque no informan de cuan alejados está cada uno de los valores respecto el valor central. Las principales medidas de dispersión son el rango, la varianza, la desviación típica, el coeficiente de variación y el rango intercuartílico.
Si ordenamos los valores de menor a mayor, es la diferencia entre los valores extremos (mínimo y máximo):
$$\{X_i\}\space ordenados\space X_n - X_i \space (máximo - mínimo). $$
La varianza es la media de las diferencias al cuadrado entre cada valor y la media. Se elevan al cuadrado para evitar que las diferencias negativas se anulen con las positivas. Se representa con s2.
$$\ s^2 = \frac {\sum (X_i - \overline X )^2}{n}$$
La cuasivarianza es una fórmula de estimación corregida de la dispersión de los datos. Aunque la varianza describe fielmente la dispersión de los datos de la muestra, infraestima la dispersión de los datos en la población de la que procede la muestra si esta tiene pequeño tamaño muestral; por ello la fórmula se corrige disminuyendo su denominador. La varianza que se emplea en inferencia estadística es la cuasivarianza, también conocida como varianza muestral o estimada o simplemente varianza.
$$\ s^2 = \frac {\sum (X_i - \overline X )^2}{n - 1}$$
Como en el cálculo de la varianza las distancias entre cada valor y la media se elevan al cuadrado la magnitud de la dispersión pierde sentido (por ejemplo, para la variable peso su varianza tiene una dimensión en kg2). Por ello, recurrimos a redimensionar la dispersión haciendo la raíz cuadrada de la varianza. De ahí resulta la desviación típica, representada por s.
$$\ s = + \sqrt {s^2} = \sqrt {\frac {\sum (X_i - \overline X )^2}{n - 1}}$$
Al igual que con la varianza, la fórmula no corregida o desviación típica poblacional:
$$\ s = + \sqrt {s^2} = \sqrt {\frac {\sum (X_i - \overline X )^2}{n}}$$
Repasemos los pasos para el cálculo de la varianza y desviación típica. No recomendamos realizar los cálculos manualmente, ya que estas medidas son estimadas automáticamente por cualquier calculadora, hoja de cálculo o paquete estadístico. La intención de conocer sus pasos es para entender su significado:
En la tabla 2 podemos ver el cálculo de la varianza y desviación típica a partir de los datos de longitud de una serie de recién nacidos.
Tabla 2. Cálculo de la varianza y desviación típica a partir de los datos de longitud de una serie de recién nacidos. Mostrar/ocultar
El coeficiente de variación expresa la dispersión de los datos como medida ajustada. Al dividir la desviación típica por la media, nos indica el porcentaje de dispersión con respecto a la media. Generalmente se expresa como tantos por ciento. Resulta útil para comparar el grado de dispersión de variables con distintas unidades de medida o rango.
$$CV = {\frac {s}{\overline X}}\space a\space veces;\space CV = {\frac {s}{\overline X}\space x\space 100} $$
Ordenando los Xi de menor a mayor el valor que deja a su izquierda el 25% de los casos es el percentil 25 y el que deja por arriba a un 25% de los casos el percentil 75. El rango o recorrido intercuartílico es el intervalo entre ambos percentiles (que, en ocasiones, pueden denominarse también como primer y tercer cuartil). En muestras con distribución no normal es la mejor alternativa a la desviación estándar como medida de dispersión.
Veamos de forma gráfica cómo localizar los percentiles 25 y 75. En una muestra de 20 pacientes se recogieron las siguientes estancias hospitalarias:
$$ X = \{2, 20, 3, 4, 5, 2, 3, 6, 7, 4, 2, 1, 3, 4, 6, 8, 6, 5, 4, 3 \}. $$
Si las ordenamos (figura 2), los valores que corresponden a los percentiles 25 y 75 son “3” y “6”. El rango intercuartílico sería 6 – 3 = 3.
Figura 2. Identificación de percentiles 25 y 75 (rango intercuartílico) Mostrar/ocultar
Ochoa Sangrador C, Molina Arias M. Estadística descriptiva. Evid Pediatr. 2018;14:43.