Aldanálisis: 2017

miércoles, 1 de noviembre de 2017

Acerca de la Regresión Logística Múltiple

Regresión Logística Múltiple

La regresión logística múltiple generaliza el método de regresión logística para problemas, con más de dos posibles resultados discretos. Se utiliza para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables .

La opción Regresión logística múltiple resulta útil en aquellas situaciones en las que desee poder clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente no está restringida a dos categorías.

La regresión logística permite discriminar entre dos poblaciones, en términos de un conjunto de

variables en el papel de predictores.

para representar probabilidades de ocurrencia de un evento, como función de una serie de variables predictoras.

Adicionalmente, sirve para representar una variable asociada a un fenómeno que de un conjunto de variables predictoras, cuyo comportamiento sea aproximadamente lineal, dentro de un cierto rango de los predictores, y tiendan a mantenerse constantes fuera de él.

Los predictores pueden ser también variables dicotómicas, en tal caso se utilizan variables dummy para representarlas.

El modelo de regresión logística es un modelo lineal generalizado

en que la función de enlace η es del tipo:

Las variables x1, x2, ....., xk son los predictores, ,la variable γ es la respuesta, que toma los valores 1 o 0, los β₀, β₁, ......., β_kson los parámetros del modelo.

e es un error aleatorio, tal que 0 <η (x)+e<1

Si el modelo se utiliza para clasificar, los valores 0 y 1 de la respuesta e identifican a ambas poblaciones en que se puede clasificar una observación.

El modelo logístico multinomial supone que los datos son específicos del caso; Es decir, cada variable independiente tiene un valor único para cada caso.

El modelo logístico multinomial también supone que la variable dependiente no puede ser perfectamente pronosticada a partir de las variables independientes para ningún caso.

Existen varios tipos de regresión logística múltiple.

_____________________________________

Wikipedia

http://www.jorgegalbiati.cl/ejercicios_7/RegrLog.pdf

viernes, 1 de septiembre de 2017

Test de Comparación Múltiple de Bonferroni

El Test de Bonferroni recibe su nombre del matemático italiano Carlo Emilio Bonferroni quien trabajó ampliamente en teoría de la probabilidad.

Este test permite comparar las medias de los t niveles de un factor después de haber rechazado la hipótesis nula (Ho) de igualdad de medias mediante la técnica ANOVA.

Ajusta el nivel de significación en relación al número de pruebas estadísticas realizadas simultáneamente sobre un conjunto de datos.

Es un test de comparaciones múltiples.

En este procedimiento se fija un nivel de significación α que se reparte entre cada una de las comparaciones consideradas y se utiliza la desigualdad de Bonferroni.

El Test de Bonferroni se basa en la creación de un umbral por encima del cual la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será de estadísticamente significativa.

Suele ser bastante conservador y se utiliza más que todo cuando no son muchas las comparaciones a realizar y además, los grupos son homogéneos en varianzas. Una aproximación muy buena para su cálculo consiste en multiplicar el valor original de p, por el número de comparaciones posibles a realizar.

El método de Bonferroni ajusta el nivel de confianza para cada intervalo individual, de manera que el nivel de confianza simultáneo resultante sea igual al valor que ha especificado.

Los intervalos de confianza más amplios de Bonferroni proveen estimaciones menos precisas del parámetro de población, pero limitan a un máximo de 5 % la probabilidad de que uno o más de los intervalos de confianza no contenga el parámetro.

viernes, 10 de marzo de 2017

Varianza y Desviación Típica

La varianza y la desviación típica son estadísticos de variabilidad o dispersión.

La varianza se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a la media aritmética de una distribución estadística.

La varianza se expresa como:

Expresado matemáticamente diríamos:

Algunas propiedades de la varianza son:

La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
Si a todos los valores de la variable se les suma un número la varianza no varía.
Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.

Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas.

En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.

Como sus unidades son las del cuadrado de la variable, es más sencillo usar su raíz cuadrada, que viene a ser la desviación típica.

La desviación típica se expresa con:

La desviación típica, también llamada desviación estándar, es una medida del grado de dispersión de los datos con respecto al valor promedio.

Expresado matemáticamente:

Puede ser interpretada como una medida de incertidumbre.

La desviación estándar de un grupo repetido de medidas nos da la precisión de las mismas.

Algunas propiedades de la desviación típica son:

La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
Si a todos los valores de la variable se les suma un número la desviación típica no varía.
Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.

En resumen, las medidas de dispersión, como la varianza y la desviación típica, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media.