Sopa de bits

Reflexiones sobre la información

By

Modelos lineales (regresión lineal)


Relación entre modelos lineales y estadística multivariante

Antes de entrar a fondo, sí me gustaría comentar un detalle de concepto. Los modelos lineales son un tipo de estadística multivariante (o multivariable), pero ni mucho menos el único.  El análisis multivariante se centra en estudiar conjuntos de variables y su peso en los análisis para poder descartar las menos representativas.

En el caso de los modelos lineales se parte de la base que existe un proceso (debido a una secuencia de causas) que genera el efecto a analizar, y en el cual intervienen una serie de perturbaciones aleatorias ajenas al proceso, y denominadas error.

En otros casos de estadística multivariable se considera que la aleatoriedad forma parte implícita del proceso, que no hay factores dependientes e independientes, sino que todas las variables son interdependientes.  Esa interdependencia se estudia con el análisis de conglomerados o clusters, por poner el caso más conocido.

 

En los modelos lineales la aleatoriedad de las perturbaciones se considera como medio de análisis para llegar al objetivo (analizar la variable dependiente), mientras que en otros métodos de estadística multivariable la aleatoriedad es inherente al análisis.

 

Partiendo de la recta plana

Antes de identificar las causas que provocan un evento, nuestra capacidad racional para deducirlo es baja o nula, y sin embargo es lo único que cuenta.  Traducir al lenguaje matemático este desconocimiento nos lleva al cero. La relación causa-efecto es nula, o al menos eso creemos a priori.

Dado que el modelo lineal se puede representar con una recta que atraviesa la “nube de puntos”, el siguiente paso es tratar de representar ese “conocimiento cero” en forma de recta.  Para ello, podemos partir de la base (totalmente arbitraria si se quiere) que la recta es totalmente plana y está a la altura de Y=0.

Para empezar con el caso, voy a partir de un pequeño conjunto de puntos, a partir del cual generaremos una recta de regresión.  Este modelo es muy sencillo porque es fácilmente representable.  Los modelos lineales pueden tratar con una cantidad indeterminada de variables, pero para el caso creo que es suficiente.

Los datos son:

X Y
1 3
-1 -2
2 6
5 8
6 3
4 1

Estos datos, representados conjuntamente con la recta Y=0 (que equivale al modelo Y = 0·X + 0), se puede mostrar con el siguiente gráfico:

Gráfico 1: Modelo lineal inicial – Recta en Y = 0

Nota para evitar confusiones: Con situar la gráfica en Y = 0 no estoy afirmando que esta recta signifique relación nula.  Podría darse perfectamente el caso que esta fuera la mejor recta.  Por ejemplo, podría ser que los valores fueran negativos y positivos, sin ningún tipo de pendiente.  La recta inicial es sólo eso, la representación gráfica de un punto de partida arbitrario que permita dar el siguiente paso.

Distancias, superficies y el error cuadrático

Partiendo de este supuesto, los modelos lineales tratan de encontrar la recta que cumpla el error cuadrático mínimo.  En este punto se acostumbra a dar un salto.  Pasamos de tener los puntos a buscar la recta, y de buscar la recta a calcular los errores cuadráticos. El por qué de los errores cuadráticos es clave para entender el proceso que culmina en la recta con error cuadrático mínimo.

El error se puede entender como una perturbación ajena a un proceso.  Este error es un desplazamiento (errare = mover) desde la recta (el mejor modelo) hasta el punto. Este desplazamiento se traduce en una resta: se mide la distancia vertical desde cada uno de los puntos hasta la recta.  Si dejáramos “caer” los puntos sobre la recta, ¿que distancia recorrerían?

Esta distancia se debe entender en términos absolutos.  Da igual si el punto está por encima o por debajo de la recta, la distancia es siempre positiva o nula (mayor o igual a cero).  Si la distancia de Barcelona a Madrid es de 600 kilómetros, no diremos que la distancia de Madrid a Barcelona es -600 kilómetros, ¿no? Estamos midiendo distancias no los cambios en las coordenadas geográficas.  En términos matemáticos, la distancia  (kilómetros entre Barcelona y Madrid), la dirección (este-oeste) y el sentido (Barcelona -> Madrid ó Madrid -> Barcelona) son cuestiones diferentes.  Ahora nos centraremos en la distancia.

Para realizar el cálculo de las distancias no hacemos una resta directa: calculamos el cuadrado de la resta.  Este comportamiento es análogo al que se realiza en el cálculo de la varianza, y que también se utiliza en el cálculo de la “norma” o distancia geométrica en espacios euclidianos. No voy a entrar en el por qué de este funcionamiento.  Para el caso nos podemos limitar a ver que es una forma rápida de saber la distancia eliminando el “sentido”.  De todos modos, en el momento de tomar decisiones, el hecho de utilizar el cuadrado de las distancias es determinante.

Para cada punto, se calcula la distancia vertical respecto a la recta, y se eleva al cuadrado.  Sumando estos valores, tenenos el error (distancias) cuadrático (al cuadrado) total (distancias sumadas).

En la segunda parte comentaré todo el proceso relacionado con el error cuadrático y de los criterios de definición del mejor modelo, incluyendo cuestiones relativas al contraste de hipótesis.

4 Responses to Modelos lineales (regresión lineal)

  1. mila says:

    esta muy interesante pero como que le falta un poco..!!!

  2. Mario says:

    Gracias Mila. Lo cierto es que intentaba aclarar un concepto básico (el del error cuadrático) que muchas veces bloquea la comprensión de ideas posteriores. Y por encima de todo, el objetivo era utilizar conceptos intuitivos, sin caer en el uso de fórmulas.

    Espero que encontrarás otros recursos en Internet con mayor detalle.

  3. q says:

    No se encuentran los datos de la gráfica.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>