Estadística

Muestreo, Sesgo e Inferencia

No puedes medir a cada persona, probar cada producto ni encuestar a cada votante. En su lugar, tomas una muestra — un grupo más pequeño — y la usas para sacar conclusiones sobre toda la población. Pero, ¿qué tan grande debe ser la muestra? ¿Y qué puede salir mal?

Parte 1: La Distribución de la Población

Imagina una población con algún valor promedio (la media poblacional mu) y cierta variación natural (la desviación estándar poblacional sigma):

Media poblacional (mu)0

-33

Sigma poblacional2

0.53

Esta es la distribución verdadera. En la vida real, normalmente no conocemos su forma exacta — para eso sirve el muestreo. Estamos intentando conocer esta curva tomando muestras.

Parte 2: Distribución Muestral de la Media

Cuando tomas una muestra de tamaño n y calculas su media, esa media muestral es en sí misma una variable aleatoria. Si repitieras el muestreo muchas veces, las medias muestrales formarían su propia distribución — la distribución muestral.

El Teorema del Límite Central (TLC) nos dice algo extraordinario:

\text{Distribución muestral de } \bar{x}: \quad \mu_{\bar{x}} = \mu, \quad \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}

Las medias muestrales se centran en la media poblacional, pero su dispersión disminuye a medida que el tamaño de la muestra aumenta.

Tamaño de muestra (n)4

1100

\sigma_{\bar{x}} = \frac{2}{\sqrt{4}}

Prueba Esto

Mueve el deslizador de tamaño de muestra y observa la curva verde:

n = 1: La distribución muestral ES la población — no hay mejora
n = 4: La dispersión se reduce a la mitad (sigma/sqrt(4) = sigma/2)
n = 25: La dispersión es 1/5 de la original
n = 100: La dispersión es 1/10 — las medias muestrales se agrupan estrechamente alrededor de mu

¡Esta es la magia del TLC: muestras más grandes dan estimaciones más precisas!

Parte 3: La Ley de la Raíz Cuadrada

¿Notas cómo aumentar n de 1 a 4 ayuda mucho, pero pasar de 25 a 100 ayuda menos dramáticamente? Eso se debe a que la dispersión disminuye con sqrt(n), no con n directamente:

Tamaño de muestra (n)10

1200

\text{Error estándar} = \frac{2}{\sqrt{10}}

Conexión

Rendimientos decrecientes: Para reducir el error estándar a la mitad, necesitas cuadruplicar el tamaño de la muestra. Pasar de n=100 a n=400 da la misma mejora que pasar de n=1 a n=4. Por eso las empresas encuestadoras pueden encuestar a solo 1000 personas y obtener resultados precisos — pero encuestar a 4000 personas no mejora la precisión 4 veces, solo 2 veces.

Parte 4: Sesgo — Cuando las Muestras Engañan

Incluso con una muestra grande, tus resultados pueden ser incorrectos si la muestra tiene sesgo — es decir, si no es representativa de la población de forma sistemática.

Una muestra sesgada tiene su centro desplazado respecto a la verdadera media poblacional:

Sesgo de la muestra0

-33

\text{Sesgo} = \bar{x}_{muestra} - \mu_{población} = 0

Prueba Esto

Cuando el sesgo es 0, la muestra está centrada en la verdadera media poblacional — es una muestra representativa. Al aumentar el sesgo, el centro de la muestra se aleja.

¡Ningún aumento en el tamaño de la muestra corrige el sesgo! Una muestra sesgada de 10,000 sigue estando equivocada. El muestreo aleatorio es la clave para evitar el sesgo.

Parte 5: Confianza — Precisión vs. Tamaño de Muestra

A medida que el tamaño de la muestra crece, tenemos más confianza sobre dónde está la media poblacional. Un intervalo de confianza se estrecha con más datos:

Tamaño de muestra (n)10

2100

\text{Ancho del IC al 95\%} \approx 2 \times 1.96 \times \frac{2}{\sqrt{10}}

Desafío

Desafío: Una empresa encuestadora quiere estimar el apoyo a un candidato con un margen de error de 3 puntos porcentuales (sigma ~ 50 para porcentajes).

El margen de error es aproximadamente 1.96 * sigma / sqrt(n). Plantea la ecuación: 3 = 1.96 * 50 / sqrt(n). Resuelve para n.

¿Cuántos votantes necesitan encuestar?

Resumen

Concepto	Idea Clave
Distribución muestral	Distribución de las medias muestrales obtenidas al muestrear repetidamente
Teorema del Límite Central	Las medias muestrales siguen una distribución normal con sigma/sqrt(n)
Error estándar	sigma/sqrt(n) — disminuye con el tamaño de la muestra
Sesgo	Error sistemático que no disminuye al aumentar el tamaño de la muestra
Intervalo de confianza	Rango que probablemente contiene la verdadera media poblacional

El Teorema del Límite Central es una de las ideas más poderosas de la estadística. Nos dice que sin importar cómo luzca la población, las medias muestrales serán aproximadamente normales — y la precisión mejora de forma predecible con el tamaño de la muestra.

Hacer el Examen