Datos y Probabilidad

Introducción a la Probabilidad

¿Cuáles son las probabilidades? Esa pregunta surge todo el tiempo — desde predecir el clima hasta calcular tus chances de ganar un juego. La probabilidad nos da una forma de medir qué tan probable es algo, y cuando la graficamos, surgen formas hermosas. Exploremos dos de las más importantes.

La Probabilidad como Área

Aquí hay una idea clave que conecta la probabilidad con las gráficas: la probabilidad de un resultado es el área bajo una curva. El área total bajo cualquier distribución de probabilidad siempre es igual a 1 (lo que significa 100% de probabilidad de que algo ocurra).

Conexión

Piénsalo así: si dejas caer una pelota sobre una curva de distribución, el área bajo cualquier sección te dice la probabilidad de que la pelota caiga en esa región. Más área = más probable.

La Distribución Normal (La Campana de Gauss)

La distribución normal es la forma más famosa de toda la estadística. Aparece en todas partes — calificaciones de exámenes, estaturas, errores de medición y más.

Se define con dos números:

Media (mu) — el centro de la campana, donde está el pico
Desviación estándar (sigma) — qué tan dispersos están los datos

\text{PDF} = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x - \mu)^2}{2\sigma^2}}

Usa los controles deslizantes para modificar la campana:

Media (mu)0

-55

Desv. Estándar (sigma)1

0.33

\mu = 0, \quad \sigma = 1

Prueba Esto

Experimenta con estos:

Desliza mu a la izquierda y derecha — toda la campana se mueve con él. ¡La media es el centro!
Aumenta sigma — la campana se hace más ancha y baja. Los datos están más “dispersos”.
Disminuye sigma hacia 0.3 — la campana se vuelve alta y estrecha. Los datos se agrupan cerca de la media.
Observa: sin importar lo que hagas, el área total bajo la curva siempre es 1.

La Regla 68-95-99.7

Para cualquier distribución normal:

68% de los valores caen dentro de 1 desviación estándar de la media
95% caen dentro de 2 desviaciones estándar
99.7% caen dentro de 3 desviaciones estándar

Por eso la campana de Gauss es tan útil — una vez que conoces la media y la desviación estándar, puedes predecir dónde caerán casi todos los datos.

Comparando Campanas

Aquí hay tres distribuciones normales con diferentes desviaciones estándar, todas centradas en cero. Observa cómo sigma controla la forma:

Cuanto menor la desviación estándar, más alto y estrecho el pico. Un sigma pequeño significa que los datos son muy consistentes. Un sigma grande significa mucha variación.

Conexión

Imagina tres clases tomando el mismo examen. La clase con sigma = 0.5 tuvo calificaciones muy similares (todos estudiaron más o menos lo mismo). La clase con sigma = 2.0 tuvo calificaciones de todo tipo — algunos sacaron excelente, otros no. Mismo promedio, dispersiones muy diferentes.

La Distribución Binomial

La distribución binomial responde una pregunta diferente: si repites un experimento n veces, y cada ensayo tiene una probabilidad p de éxito, ¿cuál es la probabilidad de obtener exactamente k éxitos?

Piensa en lanzar una moneda n veces — ¿cuántas caras obtendrás?

P(k) = \binom{n}{k} \, p^k \, (1-p)^{n-k}

Podemos aproximar la distribución binomial con una curva suave. Ajusta el número de ensayos (n) y la probabilidad de éxito (p):

Ensayos (n)10

140

Probabilidad (p)0.5

0.010.99

n = 10, \quad p = 0.5, \quad \text{media} = np = 10 \cdot 0.5

Prueba Esto

Experimenta con estos:

Pon p = 0.5 (moneda justa) y aumenta n — la curva se hace más ancha y simétrica. Más lanzamientos = más dispersión en los resultados.
Mantén n = 20 y desliza p de 0.1 a 0.9 — ¡observa cómo el pico se desplaza! Cuando p es pequeño, la mayoría de los resultados se agrupan cerca de cero. Cuando p es grande, se agrupan cerca de n.
Pon p = 0.5 y n = 1 — la curva es muy ancha. Con un solo ensayo, cualquier cosa puede pasar. Ahora sube n hasta 40 — ¡la predictibilidad aumenta!

¿Cuándo la Binomial se Parece a la Normal?

A medida que n crece, ¡la distribución binomial empieza a parecerse a una distribución normal! Esto se llama el Teorema del Límite Central — una de las ideas más poderosas de toda la estadística.

La aproximación funciona mejor cuando tanto np como n(1-p) son al menos 5.

Conexión

En realidad, esto es lo que graficamos arriba — una aproximación normal de la distribución binomial, con media = np y desviación estándar = sqrt(np(1-p)). Vuelve atrás y pon n = 30, p = 0.5 — ¡se ve casi perfectamente como una campana!

Lado a Lado: Mover la Media vs. Cambiar la Dispersión

Juntemos todo. Aquí hay dos curvas normales — una donde controlas la media y otra donde controlas la dispersión:

Media Azul-2

-44

Desv. Est. Roja0.8

0.33

Desafío

Desafío: ¿Puedes hacer que las dos curvas se superpongan perfectamente? Piensa en qué valores de la media azul y la desviación estándar roja las harían idénticas. Pista: la curva roja está centrada en x = 2 y la azul tiene sigma = 1.

Ideas Clave

Probabilidad = área bajo la curva. El área total siempre es 1.
La distribución normal se define por su media (centro) y desviación estándar (dispersión).
La distribución binomial cuenta éxitos en ensayos repetidos, controlada por n (ensayos) y p (probabilidad).
A medida que n crece, la distribución binomial se aproxima a una distribución normal — ese es el Teorema del Límite Central.
Cambiar la media desplaza la curva a la izquierda o derecha. Cambiar la desviación estándar la hace más ancha o más estrecha.

Hacer el Examen