La Recta de Mejor Ajuste
Tienes un montón de datos dispersos en una gráfica. Siguen más o menos una tendencia, pero no están perfectamente alineados. ¿Cómo dibujas la mejor recta que pase por ellos? De eso se trata la regresión lineal.
Parte 1: Estimando una Tendencia a Ojo
Imagina que registraste cuántas horas estudiaron los alumnos y qué nota sacaron en un examen. Los datos podrían verse como una nube ascendente y dispersa. Tu instinto es trazar una recta por el centro de esa nube — y ese instinto es exactamente correcto.
Aquí tienes un conjunto de puntos. Usa los deslizadores de pendiente e intersección para intentar ajustar una recta a través de ellos:
Intenta ajustar estos datos a ojo:
- (1, 45), (2, 50), (3, 55), (4, 58), (5, 65)
- (6, 68), (7, 72), (8, 78), (9, 82), (10, 90)
Pon la pendiente alrededor de 4-5 y la intersección alrededor de 40-42. La recta de “mejor ajuste” minimiza la distancia total de todos los puntos a la recta.
Parte 2: ¿Qué Hace que una Recta Sea la “Mejor”?
El método oficial se llama regresión por mínimos cuadrados. Para cada dato, mides la distancia vertical desde el punto hasta la recta — eso es el residuo (o error). Luego elevas al cuadrado cada residuo y los sumas. La “mejor” recta es la que hace que este total sea lo más pequeño posible.
¿Por qué elevar al cuadrado los residuos? Porque algunos puntos están por encima de la recta (error positivo) y otros por debajo (error negativo). Elevar al cuadrado los hace todos positivos para que no se cancelen entre sí.
Piénsalo así: Si tuvieras una liga conectando cada punto de datos a la recta, la recta de mínimos cuadrados es la que minimiza el estiramiento total de todas las ligas (bueno, el estiramiento al cuadrado).
Parte 3: Pendiente e Intersección — Qué Significan
En la ecuación de regresión y = mx + b:
-
m (pendiente): Por cada aumento de 1 unidad en x, la y predicha cambia en m. Si m = 4.5 en un ejemplo de horas de estudio vs. calificación, cada hora extra de estudio predice unos 4.5 puntos más en el examen.
-
b (intersección): La y predicha cuando x = 0. En nuestro ejemplo, b = 42 significaría que un estudiante que estudia 0 horas tendría una predicción de 42. (Esto no siempre tiene sentido en el mundo real — ¡usa el criterio!)
Predice: Si un estudiante estudia 7 horas, ¿qué nota predice la recta? Lee el valor de y en x = 7 en la gráfica, o calcúlalo: y = 4.5(7) + 42 = 73.5. ¡Prueba cambiar la pendiente para ver cómo cambia la predicción!
Parte 4: Correlación — ¿Qué Tan Fuerte Es la Tendencia?
No todos los diagramas de dispersión tienen una tendencia lineal clara. La correlación (escrita como r) mide qué tan agrupados están los puntos alrededor de una recta:
- r = 1: Relación lineal positiva perfecta (todos los puntos en una recta ascendente)
- r = -1: Relación lineal negativa perfecta (todos los puntos en una recta descendente)
- r = 0: Sin relación lineal alguna
Cuando el ruido es bajo, ambas curvas casi se superponen — eso es una correlación alta (r cercano a 1). Sube el ruido y la línea roja se ondula alejándose — la correlación baja.
¡Correlación NO significa causalidad! Solo porque dos cosas estén correlacionadas (las ventas de helado y los ahogamientos suben en verano) no significa que una cause la otra. Puede haber una variable oculta (el clima caluroso) causando ambas. Siempre piensa críticamente sobre por qué existe una correlación.
Parte 5: Correlación Positiva, Negativa y Nula
- Correlación positiva: Cuando x aumenta, y aumenta (estudiar más, sacar mejor nota)
- Correlación negativa: Cuando x aumenta, y disminuye (faltar más a clase, sacar peor nota)
- Sin correlación: x e y no tienen relación lineal (talla de zapato vs. nota del examen)
Resumen
| Concepto | Qué Significa |
|---|---|
| Recta de mejor ajuste | La recta que minimiza el error cuadrado total |
| Pendiente (m) | Cuánto cambia y por cada unidad de x |
| Intersección (b) | y predicha cuando x = 0 |
| Correlación (r) | Fuerza y dirección de la relación lineal (-1 a 1) |
| r^2 | Proporción de la variación de y explicada por x |
Desafío: Un conjunto de datos tiene una recta de mejor ajuste y = -2x + 100 con r = -0.9.
- ¿La relación es positiva o negativa?
- ¿La correlación es fuerte o débil?
- Predice y cuando x = 30.
- ¿Deberías confiar en una predicción con x = 500? ¿Por qué sí o por qué no?
La regresión lineal es una de las herramientas más utilizadas en toda la estadística. Desde predecir precios de casas hasta analizar experimentos científicos, la humilde “recta de mejor ajuste” está en todas partes.