Aldanálisis: Medidas de Dispersión

jueves, 2 de octubre de 2014

Medidas de Dispersión

Si bien lo más común al describir un conjunto de datos es utilizar una medida de tendencia central, como la media, por ejemplo, es cierto que no son absolutamente descriptivas, no indican la homogeneidad de los datos.

Ejemplificando esta idea, supongamos que tenemos 2 grupos de pacientes a quienes les tomamos la tensión arterial, siendo los conjuntos de valores obtenidos:

Nótese que en ambos casos la media y la mediana coinciden, 126 mmHg y 125 mmHg, respectivamente.

Sin embargo, si observamos los valores en un gráfico de dispersión podremos notar algunas diferencias.

Al hablar de pocos valores, la tabla era quizás suficiente para notar esos valores extremos en el grupo B. Pero cuando trabajamos con muestras mayores, 100, 200, N > 1000, no se verían a simple vista.

Es allí donde se evidencia la utilidad de las medidas de dispersión.

Las medidas de dispersión, son valores cuantitativos que indican la variabilidad de una distribución, indicando si los diferentes valores de una variable están muy alejados de la media.

Mientras más grande sea el valor de una medida de dispersión mayor es la variabilidad del conjunto de datos. Asimismo, mientras menor sea el valor, más homogénea es la muestra.

A continuación hablaremos un poco acerca de las medidas de dispersión más utilizadas.

Rango

El rango intercuartílico es la diferencia entre el valor máximo y el valor mínimo en un grupo de datos.

En el ejemplo, sería:

Grupo A R = (135 - 115)

R = 20

Grupo B R = (180 - 80)

R = 100

El rango medio es el punto medio entre los valores máximo y mínimo de un conjunto de datos.

Grupo A medioRango = (135 + 115)/2

medioRango = 125

Grupo B medioRango = (180 + 80)/2

medioRango = 130

Desviación Estándar

La desviación estándar describe la forma en que los valores de la variable se dispersan a lo largo de la distribución, en relación a la media. Involucra tanto la separación que existe entre el valor y la media, como el número de datos, es decir, involucra a todos los datos de la muestra o población.

Ejemplo:

Grupo A Sx² = 6,62

Grupo B Sx² = 34,82

Se puede observar que la desviación estándar del grupo B es mucho mayor.

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Ejemplo:

Grupo A Sx = 43,80

Grupo B Sx = 1212,60

Una vez más se observa una gran diferencia entre los valores entre los grupos.

Error Estándar

El error estándar es una medida de variabilidad de la media cuantificando las oscilaciones de la media muestral alrededor de la media poblacional.

Ejemplo:

Grupo A SEx = 2,00

Grupo B SEx = 10,50

Intervalos de Confianza

El error estándar se suele utilizar para establecer el intervalo de confianza de una media. Asumiendo una distribución normal y utilizando como valor aceptable de confianza un 95% se calculan los límites inferior y superior.

Este rango establece, con 95% de confianza, donde encuentra el verdadero valor de la media en la población.

Ejemplo:

Grupo A Límite Inferior = 126 - (2 x 1,96) = 122,09

Límite Superior = 126 + (2 x 1,96) = 129,91

I.C.95% = 122,09 - 129,91

Grupo B Límite Inferior = 126 - (10,50 x 1,96) = 57,75

Límite Superior = 126 + (10,50 x 1,96) = 194,25

I.C.95% = 57,75 - 194,25

Podemos mencionar dos medidas adicionales: la covarianza y el coeficiente de correlación de Pearson.

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. Cuando se calcula sobre una muestra se designa con Sxy.

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson (r), permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas, es decir, la raíz cuadrada de las varianzas.

2 comentarios:

Raúl dijo...: Yo normalmente utilizo proporciones, pero no sé si todo lo hago correctamente. Por ejemplo, indicar que al xx% de los pacientes les bajó la TA.
Tampoco he hecho mucha investigación. La tesis y un par de papers.
Me gusta este site.
Exito.; martes, 07 octubre, 2014
Ana Paula dijo...: Trabajo en un laboratorio universitario. Aún soy estudiante.
Estoy colaborando en mi primera investigación. Me pregunto si también sirve como rango colocar los valores máximo y mínimo registrados en la muestra.
Gracias.
Ana Paula; martes, 07 octubre, 2014

Publicar un comentario