Histogramas, Diagramas de Caja y Desviación Estándar
Cuando recopilas datos — calificaciones de exámenes, estaturas, temperaturas — necesitas una forma de ver qué está pasando. Los números en bruto son difíciles de interpretar, pero una imagen de los datos te dice todo: dónde se agrupan los valores, qué tan dispersos están y si algo inusual está ocurriendo.
Exploremos las herramientas más importantes para visualizar y medir datos.
Parte 1: La Curva Normal (de Campana)
Muchos conjuntos de datos del mundo real — estaturas de personas, errores de medición, calificaciones de exámenes — siguen un patrón en forma de campana llamado la distribución normal. Su fórmula es:
No te preocupes por memorizar eso. Lo que importa es que dos números controlan todo:
- μ (mu) — el centro de la distribución (la media)
- σ (sigma) — la dispersión (la desviación estándar)
Veámoslos en acción. Arrastra los deslizadores para mover y cambiar la forma de la curva:
Juega con los deslizadores y observa:
- Cambiar mu desliza toda la curva a la izquierda o derecha sin cambiar su forma
- Aumentar sigma hace la curva más ancha y baja (más dispersa)
- Disminuir sigma la hace más angosta y alta (más concentrada)
- El área total bajo la curva siempre se mantiene igual (es igual a 1)
Parte 2: Desviación Estándar — Midiendo la Dispersión
La desviación estándar (sigma) te dice qué tan lejos se encuentran los datos típicos de la media. Esta es la regla clave:
En una distribución normal, aproximadamente el 68% de los datos cae dentro de 1 sigma de la media, el 95% dentro de 2 sigma, y el 99.7% dentro de 3 sigma.
Esto se llama la Regla 68-95-99.7 (o Regla Empírica).
Visualicemos esto. Ajusta sigma y observa cómo cambian las “zonas”:
¿Por qué importa esto? Si las calificaciones de una clase tienen media 75 y desviación estándar 10, entonces:
- Aproximadamente el 68% de los estudiantes sacaron entre 65 y 85
- Aproximadamente el 95% sacaron entre 55 y 95
- Una calificación de 95+ está a más de 2 desviaciones estándar por encima del promedio — ¡muy raro!
Parte 3: Distribuciones Angostas vs. Amplias
Dos conjuntos de datos pueden tener la misma media pero dispersiones muy diferentes. Compara:
Piensa en ejemplos reales:
- Distribución angosta: Una máquina que corta tornillos con gran precisión — casi todos los tornillos tienen una longitud muy cercana al objetivo
- Distribución amplia: Estaturas humanas en todo el mundo — hay mucha variación
¿Cuál preferirías para el control de calidad en una fábrica?
Parte 4: Desplazando el Centro
¿Qué pasa cuando desplazas la media manteniendo la dispersión constante? Es como comparar dos grupos diferentes:
Observa cómo cambia la superposición entre las dos curvas. Cuando las medias están cerca una de la otra, las distribuciones se superponen mucho — es difícil saber de qué grupo proviene un dato. Cuando están lejos, los grupos son claramente distintos.
Parte 5: Asimetría — Cuando los Datos No Son Simétricos
No todos los datos tienen forma perfecta de campana. A veces los datos se sesgan hacia un lado, con una cola más larga extendiéndose en una dirección. Una distribución sesgada a la derecha tiene una cola larga hacia la derecha.
Usa el control para agregar más sesgo. Observa cómo la cola se estira hacia la derecha mientras el pico se mueve a la izquierda — eso es sesgo a la derecha. La media se arrastra hacia la cola mientras la mayoría de los datos se agrupan cerca del pico.
Datos sesgados en el mundo real:
- Sesgo a la derecha: Distribuciones de ingresos (la mayoría gana cantidades moderadas, unos pocos ganan mucho)
- Sesgo a la izquierda: Edad de jubilación (la mayoría se jubila alrededor de los 65, unos pocos se jubilan muy temprano)
Cuando los datos están sesgados, la media se desplaza hacia la cola, mientras que la mediana permanece cerca del centro del grueso de los datos. ¡Por eso el ingreso mediano suele ser más informativo que el ingreso promedio!
Resumen
Esto es lo que has descubierto:
| Concepto | Qué Te Dice |
|---|---|
| Media (mu) | El centro de la distribución — donde se agrupan los datos |
| Desviación estándar (sigma) | Qué tan dispersos están los datos respecto a la media |
| Regla 68-95-99.7 | Porcentaje de datos dentro de 1, 2 o 3 desviaciones estándar |
| Angosta vs. amplia | Sigma bajo = datos consistentes; sigma alto = datos variables |
| Asimetría | Cuando los datos se acumulan hacia un lado en vez de ser simétricos |
Desafío: Una fábrica produce componentes con peso medio de 100g y desviación estándar de 2g. Un componente se rechaza si está a más de 2 desviaciones estándar de la media.
- ¿Cuál es el rango de peso aceptable?
- ¿Aproximadamente qué porcentaje de componentes se rechazan?
- Si la fábrica mejora sus máquinas para que sigma baje a 1g, ¿cómo cambia el rango aceptable?
¡Usa los deslizadores de arriba para visualizar tus respuestas!
Dos números — la media y la desviación estándar — capturan la esencia de una distribución de datos. Domínalos, y podrás resumir miles de datos en una sola oración.