Aldanálisis: Acerca de la Regresión Lineal

jueves, 1 de diciembre de 2011

Acerca de la Regresión Lineal

Si utilizamos un sistema de coordenadas cartesianas para representar una distribución bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersión, como se puede observar en el gráfico, cuyo análisis permite estudiar cualitativamente, la relación entre ambas variables.

Visualmente podríamos inferir que ambas variables aumentan o disminuyen, más o menos, al unísono. Pero lo que realmente debemos hacer para estar seguros es calcular la determinación de la dependencia funcional entre las dos variables X e Y que mejor ajusta a la distribución bidimensional.

El problema de la regresión lineal simple entre dos variables X y Y se reduce a calcular la recta de regresión que mejor represente su distribución conjunta.

Ordenando datos como pares, o como una matriz de dos columnas, tenemos:

(x₁, y₁)

(x₂, y₂)

(x₃, y₃)

(x₄, y₄)

(x_n, y_n)

siendo (xi, yi), con i= 1, 2, ..., n, el i-ésimo par observado. Se pretende ajustar un modelo a la forma:

y_i = ax_i+b+e_i

bajo las siguientes hipótesis:

1 - La variable respuesta y_i depende de la variable explicativa x_i de forma lineal (con pendiente a y ordenada en origen b), más un factor residual aleatorio e_i.

2 - Los residuos tienen distribución normal de media 2. 0 y varianza desconocida.

3 - Estos factores aleatorios son independientes entre sí.

Los parámetros de la recta de regresión, a y b, se calculan siguiendo el criterio de los mínimos cuadrados.

No quiero complicar mucho el post, creo que para los investigadores clínicos lo más importante es saber que el objetivo principal de construir un modelo de regresión puede ser, por ejemplo, evaluar cómo afecta el cambio en unas características determinadas (variables independientes) sobre otra característica en concreto (variable dependiente), denominado modelo con fines explicativos.

O también el objetivo podría ser intentar estimar o aproximar el valor de una característica (variable dependiente) en función de los valores que pueden tomar en conjunto otra serie de características (variables independientes), denominado entonces modelo con fines predictivos.

La regresión lineal nos permite entonces, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendría para un valor X que no esté en la distribución.

4 comentarios:

Dra. Victoria dijo...: Déjeme ver si entendí: si yo he reunido unos 80 pares de datos de dos variables, que no vienen al caso, y usted logra demostrar que hay regresión Lineal Simple ¿podríamos completar una tabla más extensa con valores de la otra variable muy aproximados?

Dra. Vicky Barrios; martes, 06 diciembre, 2011
Carolina dijo...: Todavía estoy confundida, ¿son o no lo mismo la correlación y la regresión lineal simple?

Carolina; martes, 06 diciembre, 2011
Aldanalisis dijo...: Hola Victoria, si se pudiera demostrar con una amplia probabilidad y un error mínimo, entonces podría completarse la tabla.
Pero lo mejor sería tener muchos más datos.
Saludos!; martes, 06 diciembre, 2011
Aldanalisis dijo...: Hola Carolina:
Se relacionan estrechamente, pero no son exactamente lo mismo, el coeficiente de correlación lineal permite determinar si existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta al conjunto de puntos de la gráfica.

Espero haber aclarado tu duda!; martes, 06 diciembre, 2011

Publicar un comentario