Estadística

Histogramas, Diagramas de Caja y Desviación Estándar

Cuando recopilas datos — calificaciones de exámenes, estaturas, temperaturas — necesitas una forma de ver qué está pasando. Los números en bruto son difíciles de interpretar, pero una imagen de los datos te dice todo: dónde se agrupan los valores, qué tan dispersos están y si algo inusual está ocurriendo.

Exploremos las herramientas más importantes para visualizar y medir datos.


Parte 1: La Curva Normal (de Campana)

Muchos conjuntos de datos del mundo real — estaturas de personas, errores de medición, calificaciones de exámenes — siguen un patrón en forma de campana llamado la distribución normal. Su fórmula es:

f(x)=1σ2πe(xμ)22σ2\displaystyle f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x - \mu)^2}{2\sigma^2}}

No te preocupes por memorizar eso. Lo que importa es que dos números controlan todo:

Veámoslos en acción. Arrastra los deslizadores para mover y cambiar la forma de la curva:

Centro (mu)0
-55
Dispersión (sigma)1
0.33
μ=0,σ=1\mu = 0, \quad \sigma = 1
-8-6-4-22468
Prueba Esto

Juega con los deslizadores y observa:

  • Cambiar mu desliza toda la curva a la izquierda o derecha sin cambiar su forma
  • Aumentar sigma hace la curva más ancha y baja (más dispersa)
  • Disminuir sigma la hace más angosta y alta (más concentrada)
  • El área total bajo la curva siempre se mantiene igual (es igual a 1)

Parte 2: Desviación Estándar — Midiendo la Dispersión

La desviación estándar (sigma) te dice qué tan lejos se encuentran los datos típicos de la media. Esta es la regla clave:

En una distribución normal, aproximadamente el 68% de los datos cae dentro de 1 sigma de la media, el 95% dentro de 2 sigma, y el 99.7% dentro de 3 sigma.

Esto se llama la Regla 68-95-99.7 (o Regla Empírica).

Visualicemos esto. Ajusta sigma y observa cómo cambian las “zonas”:

Desviación estándar (sigma)1
0.53
-8-6-4-22468Curva normalDentro de 1 sigma (68%)Dentro de 2 sigma (95%)
1σ=±1,2σ=±2×1\text{1}\sigma = \pm1, \quad \text{2}\sigma = \pm 2 \times 1
Conexión

¿Por qué importa esto? Si las calificaciones de una clase tienen media 75 y desviación estándar 10, entonces:

  • Aproximadamente el 68% de los estudiantes sacaron entre 65 y 85
  • Aproximadamente el 95% sacaron entre 55 y 95
  • Una calificación de 95+ está a más de 2 desviaciones estándar por encima del promedio — ¡muy raro!

Parte 3: Distribuciones Angostas vs. Amplias

Dos conjuntos de datos pueden tener la misma media pero dispersiones muy diferentes. Compara:

Sigma angosto0.5
0.31.5
Sigma amplio2
14
-8-6-4-22468Distribución angostaDistribución amplia
Prueba Esto

Piensa en ejemplos reales:

  • Distribución angosta: Una máquina que corta tornillos con gran precisión — casi todos los tornillos tienen una longitud muy cercana al objetivo
  • Distribución amplia: Estaturas humanas en todo el mundo — hay mucha variación

¿Cuál preferirías para el control de calidad en una fábrica?


Parte 4: Desplazando el Centro

¿Qué pasa cuando desplazas la media manteniendo la dispersión constante? Es como comparar dos grupos diferentes:

Centro del Grupo A-2
-40
Centro del Grupo B2
04
-8-6-4-22468Grupo AGrupo B
Diferencia de medias=2(2)\text{Diferencia de medias} = 2 - (-2)

Observa cómo cambia la superposición entre las dos curvas. Cuando las medias están cerca una de la otra, las distribuciones se superponen mucho — es difícil saber de qué grupo proviene un dato. Cuando están lejos, los grupos son claramente distintos.


Parte 5: Asimetría — Cuando los Datos No Son Simétricos

No todos los datos tienen forma perfecta de campana. A veces los datos se sesgan hacia un lado, con una cola más larga extendiéndose en una dirección. Una distribución sesgada a la derecha tiene una cola larga hacia la derecha.

Usa el control para agregar más sesgo. Observa cómo la cola se estira hacia la derecha mientras el pico se mueve a la izquierda — eso es sesgo a la derecha. La media se arrastra hacia la cola mientras la mayoría de los datos se agrupan cerca del pico.

Cantidad de sesgo (menor = más sesgado)3
18
246810121416
Conexión

Datos sesgados en el mundo real:

  • Sesgo a la derecha: Distribuciones de ingresos (la mayoría gana cantidades moderadas, unos pocos ganan mucho)
  • Sesgo a la izquierda: Edad de jubilación (la mayoría se jubila alrededor de los 65, unos pocos se jubilan muy temprano)

Cuando los datos están sesgados, la media se desplaza hacia la cola, mientras que la mediana permanece cerca del centro del grueso de los datos. ¡Por eso el ingreso mediano suele ser más informativo que el ingreso promedio!


Resumen

Esto es lo que has descubierto:

ConceptoQué Te Dice
Media (mu)El centro de la distribución — donde se agrupan los datos
Desviación estándar (sigma)Qué tan dispersos están los datos respecto a la media
Regla 68-95-99.7Porcentaje de datos dentro de 1, 2 o 3 desviaciones estándar
Angosta vs. ampliaSigma bajo = datos consistentes; sigma alto = datos variables
AsimetríaCuando los datos se acumulan hacia un lado en vez de ser simétricos
Desafío

Desafío: Una fábrica produce componentes con peso medio de 100g y desviación estándar de 2g. Un componente se rechaza si está a más de 2 desviaciones estándar de la media.

  1. ¿Cuál es el rango de peso aceptable?
  2. ¿Aproximadamente qué porcentaje de componentes se rechazan?
  3. Si la fábrica mejora sus máquinas para que sigma baje a 1g, ¿cómo cambia el rango aceptable?

¡Usa los deslizadores de arriba para visualizar tus respuestas!

Dos números — la media y la desviación estándar — capturan la esencia de una distribución de datos. Domínalos, y podrás resumir miles de datos en una sola oración.

Hacer el Examen