सांख्यिकी

हिस्टोग्राम, बॉक्स प्लॉट और मानक विचलन (Standard Deviation)

जब आप डेटा इकट्ठा करते हैं — परीक्षा के अंक, लंबाई, तापमान — तो आपको यह देखने का तरीका चाहिए कि क्या हो रहा है। कच्ची संख्याओं को समझना मुश्किल है, लेकिन डेटा की तस्वीर आपको सब कुछ बता देती है: मान कहां इकट्ठे हैं, कितने फैले हुए हैं, और कुछ असामान्य तो नहीं।

आइए डेटा को देखने और मापने के सबसे महत्वपूर्ण उपकरणों को समझें।


भाग 1: सामान्य (बेल) वक्र

बहुत से वास्तविक डेटा सेट — लोगों की लंबाई, मापन त्रुटियां, परीक्षा के अंक — एक घंटी-आकार पैटर्न का पालन करते हैं जिसे सामान्य वितरण (normal distribution) कहते हैं। इसका सूत्र है:

f(x)=1σ2πe(xμ)22σ2\displaystyle f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x - \mu)^2}{2\sigma^2}}

इस सूत्र को याद करने की चिंता न करें। महत्वपूर्ण बात यह है कि दो संख्याएं सब कुछ नियंत्रित करती हैं:

आइए इन्हें क्रिया में देखें। वक्र को हिलाने और बदलने के लिए स्लाइडर्स खींचें:

केंद्र (mu)0
-55
विस्तार (sigma)1
0.33
μ=0,σ=1\mu = 0, \quad \sigma = 1
-8-6-4-22468
यह आज़माएं

स्लाइडर्स से खेलें और ध्यान दें:

  • mu बदलने से पूरा वक्र बाएं या दाएं खिसकता है बिना आकार बदले
  • sigma बढ़ाने से वक्र चौड़ा और छोटा होता है (ज़्यादा फैला हुआ)
  • sigma घटाने से वक्र संकरा और ऊंचा होता है (ज़्यादा केंद्रित)
  • वक्र के नीचे का कुल क्षेत्रफल हमेशा समान रहता है (यह 1 के बराबर होता है)

भाग 2: मानक विचलन — प्रसार मापना

मानक विचलन (sigma) बताता है कि सामान्य डेटा बिंदु माध्य से कितनी दूर बैठते हैं। मुख्य नियम यह है:

सामान्य वितरण में, लगभग 68% डेटा माध्य से 1 sigma के भीतर, 95% 2 sigma के भीतर, और 99.7% 3 sigma के भीतर आता है।

इसे 68-95-99.7 नियम (या अनुभवजन्य नियम/Empirical Rule) कहते हैं।

आइए इसे देखें। sigma समायोजित करें और देखें “क्षेत्र” कैसे बदलते हैं:

मानक विचलन (sigma)1
0.53
-8-6-4-22468सामान्य वक्र1 sigma के अंदर (68%)2 sigma के अंदर (95%)
1σ=±1,2σ=±2×1\text{1}\sigma = \pm1, \quad \text{2}\sigma = \pm 2 \times 1
जोड़

यह क्यों मायने रखता है? अगर एक कक्षा के परीक्षा अंकों का माध्य 75 और मानक विचलन 10 है, तो:

  • लगभग 68% छात्रों ने 65 से 85 के बीच अंक प्राप्त किए
  • लगभग 95% ने 55 से 95 के बीच अंक प्राप्त किए
  • 95+ का अंक माध्य से 2 मानक विचलन से अधिक ऊपर है — बहुत दुर्लभ!

भाग 3: संकरा बनाम चौड़ा वितरण

दो डेटा सेट का माध्य समान हो सकता है लेकिन प्रसार बहुत अलग। तुलना करें:

संकीर्ण sigma0.5
0.31.5
विस्तृत sigma2
14
-8-6-4-22468संकीर्ण वितरणविस्तृत वितरण
यह आज़माएं

वास्तविक उदाहरणों के बारे में सोचें:

  • संकरा वितरण: एक मशीन जो बोल्ट बहुत सटीक काटती है — लगभग सभी बोल्ट लक्ष्य लंबाई के बहुत करीब हैं
  • चौड़ा वितरण: पूरी दुनिया में मानव लंबाई — बहुत विविधता है

फैक्ट्री में गुणवत्ता नियंत्रण के लिए आप कौन सा पसंद करेंगे?


भाग 4: केंद्र को खिसकाना

जब प्रसार स्थिर रखकर माध्य खिसकाया जाए तो क्या होता है? यह दो अलग-अलग समूहों की तुलना करने जैसा है:

समूह A केंद्र-2
-40
समूह B केंद्र2
04
-8-6-4-22468समूह Aसमूह B
Difference in means=2(2)\text{Difference in means} = 2 - (-2)

ध्यान दें कि दोनों वक्रों का अतिव्यापन कैसे बदलता है। जब माध्य करीब होते हैं, तो वितरण बहुत अतिव्यापित होते हैं — यह बताना मुश्किल है कि कोई डेटा बिंदु किस समूह से आया। जब वे दूर होते हैं, तो समूह स्पष्ट रूप से अलग दिखते हैं।


भाग 5: विषमता (Skewness) — जब डेटा सममित न हो

सभी डेटा पूर्ण घंटी-आकार का नहीं होता। कभी-कभी डेटा एक तरफ विषम (skew) होता है, एक लंबी पूंछ एक दिशा में खिंचती है। दाएं-विषम (right-skewed) वितरण में दाईं ओर लंबी पूंछ होती है।

स्लाइडर से अधिक विषमता जोड़ें। देखें कैसे पूंछ दाईं ओर खिंचती है जबकि शिखर बाईं ओर सरकता है — यही दाईं विषमता है। माध्य पूंछ की ओर खिंचता है जबकि अधिकांश डेटा शिखर के पास रहता है।

विषमता (कम = अधिक विषम)3
18
246810121416
जोड़

वास्तविक विषम डेटा के उदाहरण:

  • दाएं-विषम (right-skewed): आय वितरण (अधिकांश लोग मध्यम कमाते हैं, कुछ बहुत अधिक)
  • बाएं-विषम (left-skewed): सेवानिवृत्ति की आयु (अधिकांश 65 के आसपास सेवानिवृत्त होते हैं, कुछ बहुत जल्दी)

जब डेटा विषम होता है, तो माध्य (mean) पूंछ की ओर खिंच जाता है, जबकि माध्यिका (median) डेटा के बड़े हिस्से के केंद्र में रहती है। इसलिए माध्यिका आय अक्सर माध्य आय से अधिक सार्थक होती है!


सारांश

आपने यह जाना:

अवधारणायह क्या बताती है
माध्य (mu)वितरण का केंद्र — डेटा कहां इकट्ठा होता है
मानक विचलन (sigma)माध्य के आसपास डेटा कितना फैला हुआ है
68-95-99.7 नियम1, 2, या 3 मानक विचलन के भीतर डेटा का प्रतिशत
संकरा बनाम चौड़ाकम sigma = सुसंगत डेटा; अधिक sigma = परिवर्तनशील डेटा
विषमता (Skewness)जब डेटा सममित होने के बजाय एक तरफ इकट्ठा हो
चुनौती

चुनौती: एक फैक्ट्री विजेट बनाती है जिनका माध्य वज़न 100g और मानक विचलन 2g है। कोई विजेट अस्वीकृत होता है अगर वह माध्य से 2 मानक विचलन से अधिक दूर हो।

  1. स्वीकार्य वज़न सीमा क्या है?
  2. लगभग कितने प्रतिशत विजेट अस्वीकृत होते हैं?
  3. अगर फैक्ट्री अपनी मशीनों को सुधारती है और sigma 1g हो जाता है, तो स्वीकार्य सीमा कैसे बदलती है?

अपने उत्तरों को देखने के लिए ऊपर के स्लाइडर्स का उपयोग करें!

दो संख्याएं — माध्य और मानक विचलन — किसी डेटा वितरण का सार पकड़ लेती हैं। इन्हें अच्छे से समझ लें, और आप हज़ारों डेटा बिंदुओं को एक वाक्य में सारांशित कर सकते हैं।

परीक्षा दें