Aldanálisis: 2014

jueves, 2 de octubre de 2014

Medidas de Dispersión

Si bien lo más común al describir un conjunto de datos es utilizar una medida de tendencia central, como la media, por ejemplo, es cierto que no son absolutamente descriptivas, no indican la homogeneidad de los datos.

Ejemplificando esta idea, supongamos que tenemos 2 grupos de pacientes a quienes les tomamos la tensión arterial, siendo los conjuntos de valores obtenidos:

Nótese que en ambos casos la media y la mediana coinciden, 126 mmHg y 125 mmHg, respectivamente.

Sin embargo, si observamos los valores en un gráfico de dispersión podremos notar algunas diferencias.

Al hablar de pocos valores, la tabla era quizás suficiente para notar esos valores extremos en el grupo B. Pero cuando trabajamos con muestras mayores, 100, 200, N > 1000, no se verían a simple vista.

Es allí donde se evidencia la utilidad de las medidas de dispersión.

Las medidas de dispersión, son valores cuantitativos que indican la variabilidad de una distribución, indicando si los diferentes valores de una variable están muy alejados de la media.

Mientras más grande sea el valor de una medida de dispersión mayor es la variabilidad del conjunto de datos. Asimismo, mientras menor sea el valor, más homogénea es la muestra.

A continuación hablaremos un poco acerca de las medidas de dispersión más utilizadas.

Rango

El rango intercuartílico es la diferencia entre el valor máximo y el valor mínimo en un grupo de datos.

En el ejemplo, sería:

Grupo A R = (135 - 115)

R = 20

Grupo B R = (180 - 80)

R = 100

El rango medio es el punto medio entre los valores máximo y mínimo de un conjunto de datos.

Grupo A medioRango = (135 + 115)/2

medioRango = 125

Grupo B medioRango = (180 + 80)/2

medioRango = 130

Desviación Estándar

La desviación estándar describe la forma en que los valores de la variable se dispersan a lo largo de la distribución, en relación a la media. Involucra tanto la separación que existe entre el valor y la media, como el número de datos, es decir, involucra a todos los datos de la muestra o población.

Ejemplo:

Grupo A Sx² = 6,62

Grupo B Sx² = 34,82

Se puede observar que la desviación estándar del grupo B es mucho mayor.

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Ejemplo:

Grupo A Sx = 43,80

Grupo B Sx = 1212,60

Una vez más se observa una gran diferencia entre los valores entre los grupos.

Error Estándar

El error estándar es una medida de variabilidad de la media cuantificando las oscilaciones de la media muestral alrededor de la media poblacional.

Ejemplo:

Grupo A SEx = 2,00

Grupo B SEx = 10,50

Intervalos de Confianza

El error estándar se suele utilizar para establecer el intervalo de confianza de una media. Asumiendo una distribución normal y utilizando como valor aceptable de confianza un 95% se calculan los límites inferior y superior.

Este rango establece, con 95% de confianza, donde encuentra el verdadero valor de la media en la población.

Ejemplo:

Grupo A Límite Inferior = 126 - (2 x 1,96) = 122,09

Límite Superior = 126 + (2 x 1,96) = 129,91

I.C.95% = 122,09 - 129,91

Grupo B Límite Inferior = 126 - (10,50 x 1,96) = 57,75

Límite Superior = 126 + (10,50 x 1,96) = 194,25

I.C.95% = 57,75 - 194,25

Podemos mencionar dos medidas adicionales: la covarianza y el coeficiente de correlación de Pearson.

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. Cuando se calcula sobre una muestra se designa con Sxy.

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson (r), permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas, es decir, la raíz cuadrada de las varianzas.

sábado, 20 de septiembre de 2014

Variables

Para realizar una investigación es necesario definir las variables que van a ser observadas y analizadas y a partir de esa definición se establecen los datos a ser recolectados. A dichos datos se aplicarán las diferentes herramientas y métodos estadísticos, con el fin de obtener los resultados necesarios para establecer las conclusiones del caso.

En términos sencillos las variables son características o cualidades de una población susceptibles a tomar diferentes valores medibles de una unidad a otra y que pueden ser objeto de análisis.

La estadística busca estudiar, describir y explicar las variables. Así pues en un análisis estadísticos las variables vienen a ser el principal insumo, susceptible a ser analizado a través de las herramientas disponibles. Adicionalmente para las variables que tiene asociada una ley determinada de probabilidad, a cada valor le corresponde una probabilidad específica.

Una variable cualitativa (o categóricas) no se expresan aparecen en forma numérica, sino como categorías o atributos y se expresan en palabras. Por ejemplo: sexo, procedencia.

Una variable aleatoria o variable estocástica es una variable estadística cuyos valores se obtienen de mediciones en experimento aleatorio. Viene a ser una función que asigna un valor numérico a cada resultado en el espacio muestral de un experimento.

El rango de una variable aleatoria es el conjunto de valores que puede tomar.

Las variables aleatorias son cuantitativas, es decir, se expresan numéricamente, y se clasifican en:

Variables Aleatorias Discretas: variable que toman valores aislados, es decir, expresados en números naturales, o en un espacio finito, y no pueden tomar valores intermedios entre dos consecutivos fijados. Por ejemplo: nro. de hijos, cantidad de partos.

Variables Aleatorias Continuas: variables que toman valores infinitos, es decir, expresados en números reales, en un intervalo dado, de forma que, teóricamente, pueden tomar cualquier valor intermedio en su rango de variación. Por ejemplo: peso, presión arterial.

La distribución de probabilidad de una variable aleatoria, o función de distribución, describe teóricamente la forma en que varían los resultados de un experimento aleatorio.

Para una variable X, la distribución de probabilidad es la función:

Fx(X)

Esta función asigna a cada evento definido sobre X una probabilidad que viene dada por la siguiente expresión:

Fx(X) = P(x ≤ X)

Estas probabilidades pueden ser estimadas o modeladas.

Es frecuentemente útil representar gráficamente la distribución de probabilidades por un histograma.

Distribución Conjunta de Dos Variables:

Si se necesita analizar conjuntamente dos variables aleatorias dadas X e Y se debe establecer una relación que una los valores de una variable con los valores de la otra.

Toda relación puede ser estudiada, aún cuando en la práctica, sólo se utilicen aquellas que tengan una relación considerada lógica.

Entonces para variables discretas, se puede establecer una función de probabilidad para las posibles parejas de valores de ambas variables.

A esta función se le llama función de probabilidad conjunta:

F(x,y)

Una función de probabilidad conjunta de las variables X e Y es una función de las dos variables tal que, al sustituir la "x" por un valor de la variable X y la "y" por un valor de la variable Y, el valor de la función nos da la probabilidad de que X e Y tomen simultáneamente la pareja de valores citados.

P[(X = x)∩(Y = y)] = f(x,y)

Lea más en:

http://bit.ly/1raUGbt

http://bit.ly/1raUBVq

http://bit.ly/Z2rpp6

http://bit.ly/1rqsJwU