हिस्टोग्राम, बॉक्स प्लॉट और मानक विचलन (Standard Deviation)
जब आप डेटा इकट्ठा करते हैं — परीक्षा के अंक, लंबाई, तापमान — तो आपको यह देखने का तरीका चाहिए कि क्या हो रहा है। कच्ची संख्याओं को समझना मुश्किल है, लेकिन डेटा की तस्वीर आपको सब कुछ बता देती है: मान कहां इकट्ठे हैं, कितने फैले हुए हैं, और कुछ असामान्य तो नहीं।
आइए डेटा को देखने और मापने के सबसे महत्वपूर्ण उपकरणों को समझें।
भाग 1: सामान्य (बेल) वक्र
बहुत से वास्तविक डेटा सेट — लोगों की लंबाई, मापन त्रुटियां, परीक्षा के अंक — एक घंटी-आकार पैटर्न का पालन करते हैं जिसे सामान्य वितरण (normal distribution) कहते हैं। इसका सूत्र है:
इस सूत्र को याद करने की चिंता न करें। महत्वपूर्ण बात यह है कि दो संख्याएं सब कुछ नियंत्रित करती हैं:
- μ (म्यू) — वितरण का केंद्र (माध्य/mean)
- σ (सिग्मा) — प्रसार (मानक विचलन/standard deviation)
आइए इन्हें क्रिया में देखें। वक्र को हिलाने और बदलने के लिए स्लाइडर्स खींचें:
स्लाइडर्स से खेलें और ध्यान दें:
- mu बदलने से पूरा वक्र बाएं या दाएं खिसकता है बिना आकार बदले
- sigma बढ़ाने से वक्र चौड़ा और छोटा होता है (ज़्यादा फैला हुआ)
- sigma घटाने से वक्र संकरा और ऊंचा होता है (ज़्यादा केंद्रित)
- वक्र के नीचे का कुल क्षेत्रफल हमेशा समान रहता है (यह 1 के बराबर होता है)
भाग 2: मानक विचलन — प्रसार मापना
मानक विचलन (sigma) बताता है कि सामान्य डेटा बिंदु माध्य से कितनी दूर बैठते हैं। मुख्य नियम यह है:
सामान्य वितरण में, लगभग 68% डेटा माध्य से 1 sigma के भीतर, 95% 2 sigma के भीतर, और 99.7% 3 sigma के भीतर आता है।
इसे 68-95-99.7 नियम (या अनुभवजन्य नियम/Empirical Rule) कहते हैं।
आइए इसे देखें। sigma समायोजित करें और देखें “क्षेत्र” कैसे बदलते हैं:
यह क्यों मायने रखता है? अगर एक कक्षा के परीक्षा अंकों का माध्य 75 और मानक विचलन 10 है, तो:
- लगभग 68% छात्रों ने 65 से 85 के बीच अंक प्राप्त किए
- लगभग 95% ने 55 से 95 के बीच अंक प्राप्त किए
- 95+ का अंक माध्य से 2 मानक विचलन से अधिक ऊपर है — बहुत दुर्लभ!
भाग 3: संकरा बनाम चौड़ा वितरण
दो डेटा सेट का माध्य समान हो सकता है लेकिन प्रसार बहुत अलग। तुलना करें:
वास्तविक उदाहरणों के बारे में सोचें:
- संकरा वितरण: एक मशीन जो बोल्ट बहुत सटीक काटती है — लगभग सभी बोल्ट लक्ष्य लंबाई के बहुत करीब हैं
- चौड़ा वितरण: पूरी दुनिया में मानव लंबाई — बहुत विविधता है
फैक्ट्री में गुणवत्ता नियंत्रण के लिए आप कौन सा पसंद करेंगे?
भाग 4: केंद्र को खिसकाना
जब प्रसार स्थिर रखकर माध्य खिसकाया जाए तो क्या होता है? यह दो अलग-अलग समूहों की तुलना करने जैसा है:
ध्यान दें कि दोनों वक्रों का अतिव्यापन कैसे बदलता है। जब माध्य करीब होते हैं, तो वितरण बहुत अतिव्यापित होते हैं — यह बताना मुश्किल है कि कोई डेटा बिंदु किस समूह से आया। जब वे दूर होते हैं, तो समूह स्पष्ट रूप से अलग दिखते हैं।
भाग 5: विषमता (Skewness) — जब डेटा सममित न हो
सभी डेटा पूर्ण घंटी-आकार का नहीं होता। कभी-कभी डेटा एक तरफ विषम (skew) होता है, एक लंबी पूंछ एक दिशा में खिंचती है। दाएं-विषम (right-skewed) वितरण में दाईं ओर लंबी पूंछ होती है।
स्लाइडर से अधिक विषमता जोड़ें। देखें कैसे पूंछ दाईं ओर खिंचती है जबकि शिखर बाईं ओर सरकता है — यही दाईं विषमता है। माध्य पूंछ की ओर खिंचता है जबकि अधिकांश डेटा शिखर के पास रहता है।
वास्तविक विषम डेटा के उदाहरण:
- दाएं-विषम (right-skewed): आय वितरण (अधिकांश लोग मध्यम कमाते हैं, कुछ बहुत अधिक)
- बाएं-विषम (left-skewed): सेवानिवृत्ति की आयु (अधिकांश 65 के आसपास सेवानिवृत्त होते हैं, कुछ बहुत जल्दी)
जब डेटा विषम होता है, तो माध्य (mean) पूंछ की ओर खिंच जाता है, जबकि माध्यिका (median) डेटा के बड़े हिस्से के केंद्र में रहती है। इसलिए माध्यिका आय अक्सर माध्य आय से अधिक सार्थक होती है!
सारांश
आपने यह जाना:
| अवधारणा | यह क्या बताती है |
|---|---|
| माध्य (mu) | वितरण का केंद्र — डेटा कहां इकट्ठा होता है |
| मानक विचलन (sigma) | माध्य के आसपास डेटा कितना फैला हुआ है |
| 68-95-99.7 नियम | 1, 2, या 3 मानक विचलन के भीतर डेटा का प्रतिशत |
| संकरा बनाम चौड़ा | कम sigma = सुसंगत डेटा; अधिक sigma = परिवर्तनशील डेटा |
| विषमता (Skewness) | जब डेटा सममित होने के बजाय एक तरफ इकट्ठा हो |
चुनौती: एक फैक्ट्री विजेट बनाती है जिनका माध्य वज़न 100g और मानक विचलन 2g है। कोई विजेट अस्वीकृत होता है अगर वह माध्य से 2 मानक विचलन से अधिक दूर हो।
- स्वीकार्य वज़न सीमा क्या है?
- लगभग कितने प्रतिशत विजेट अस्वीकृत होते हैं?
- अगर फैक्ट्री अपनी मशीनों को सुधारती है और sigma 1g हो जाता है, तो स्वीकार्य सीमा कैसे बदलती है?
अपने उत्तरों को देखने के लिए ऊपर के स्लाइडर्स का उपयोग करें!
दो संख्याएं — माध्य और मानक विचलन — किसी डेटा वितरण का सार पकड़ लेती हैं। इन्हें अच्छे से समझ लें, और आप हज़ारों डेटा बिंदुओं को एक वाक्य में सारांशित कर सकते हैं।