Muestreo, Sesgo e Inferencia
No puedes medir a cada persona, probar cada producto ni encuestar a cada votante. En su lugar, tomas una muestra — un grupo más pequeño — y la usas para sacar conclusiones sobre toda la población. Pero, ¿qué tan grande debe ser la muestra? ¿Y qué puede salir mal?
Parte 1: La Distribución de la Población
Imagina una población con algún valor promedio (la media poblacional mu) y cierta variación natural (la desviación estándar poblacional sigma):
Esta es la distribución verdadera. En la vida real, normalmente no conocemos su forma exacta — para eso sirve el muestreo. Estamos intentando conocer esta curva tomando muestras.
Parte 2: Distribución Muestral de la Media
Cuando tomas una muestra de tamaño n y calculas su media, esa media muestral es en sí misma una variable aleatoria. Si repitieras el muestreo muchas veces, las medias muestrales formarían su propia distribución — la distribución muestral.
El Teorema del Límite Central (TLC) nos dice algo extraordinario:
Las medias muestrales se centran en la media poblacional, pero su dispersión disminuye a medida que el tamaño de la muestra aumenta.
Mueve el deslizador de tamaño de muestra y observa la curva verde:
- n = 1: La distribución muestral ES la población — no hay mejora
- n = 4: La dispersión se reduce a la mitad (sigma/sqrt(4) = sigma/2)
- n = 25: La dispersión es 1/5 de la original
- n = 100: La dispersión es 1/10 — las medias muestrales se agrupan estrechamente alrededor de mu
¡Esta es la magia del TLC: muestras más grandes dan estimaciones más precisas!
Parte 3: La Ley de la Raíz Cuadrada
¿Notas cómo aumentar n de 1 a 4 ayuda mucho, pero pasar de 25 a 100 ayuda menos dramáticamente? Eso se debe a que la dispersión disminuye con sqrt(n), no con n directamente:
Rendimientos decrecientes: Para reducir el error estándar a la mitad, necesitas cuadruplicar el tamaño de la muestra. Pasar de n=100 a n=400 da la misma mejora que pasar de n=1 a n=4. Por eso las empresas encuestadoras pueden encuestar a solo 1000 personas y obtener resultados precisos — pero encuestar a 4000 personas no mejora la precisión 4 veces, solo 2 veces.
Parte 4: Sesgo — Cuando las Muestras Engañan
Incluso con una muestra grande, tus resultados pueden ser incorrectos si la muestra tiene sesgo — es decir, si no es representativa de la población de forma sistemática.
Una muestra sesgada tiene su centro desplazado respecto a la verdadera media poblacional:
Cuando el sesgo es 0, la muestra está centrada en la verdadera media poblacional — es una muestra representativa. Al aumentar el sesgo, el centro de la muestra se aleja.
¡Ningún aumento en el tamaño de la muestra corrige el sesgo! Una muestra sesgada de 10,000 sigue estando equivocada. El muestreo aleatorio es la clave para evitar el sesgo.
Parte 5: Confianza — Precisión vs. Tamaño de Muestra
A medida que el tamaño de la muestra crece, tenemos más confianza sobre dónde está la media poblacional. Un intervalo de confianza se estrecha con más datos:
Desafío: Una empresa encuestadora quiere estimar el apoyo a un candidato con un margen de error de 3 puntos porcentuales (sigma ~ 50 para porcentajes).
El margen de error es aproximadamente 1.96 * sigma / sqrt(n). Plantea la ecuación: 3 = 1.96 * 50 / sqrt(n). Resuelve para n.
¿Cuántos votantes necesitan encuestar?
Resumen
| Concepto | Idea Clave |
|---|---|
| Distribución muestral | Distribución de las medias muestrales obtenidas al muestrear repetidamente |
| Teorema del Límite Central | Las medias muestrales siguen una distribución normal con sigma/sqrt(n) |
| Error estándar | sigma/sqrt(n) — disminuye con el tamaño de la muestra |
| Sesgo | Error sistemático que no disminuye al aumentar el tamaño de la muestra |
| Intervalo de confianza | Rango que probablemente contiene la verdadera media poblacional |
El Teorema del Límite Central es una de las ideas más poderosas de la estadística. Nos dice que sin importar cómo luzca la población, las medias muestrales serán aproximadamente normales — y la precisión mejora de forma predecible con el tamaño de la muestra.