सांख्यिकी

माध्य, माध्यिका और डेटा का आकार

जब आप “औसत” (average) सुनते हैं, तो ज़्यादातर लोग एक ही संख्या सोचते हैं। लेकिन सांख्यिकीविदों के पास डेटासेट के बीच का वर्णन करने के कई तरीके होते हैं — और वे हमेशा एक जैसे नहीं होते। आइए देखें कि यह क्यों मायने रखता है।

भाग 1: माध्य (Mean) — जोड़ो और भाग दो

माध्य (अंकगणितीय औसत) शायद वह है जो आपने सबसे पहले सीखा:

Mean=sum of all valuesnumber of values\text{Mean} = \frac{\text{sum of all values}}{\text{number of values}}

इसे डेटा का संतुलन बिंदु (balance point) समझें। अगर आप हर डेटा बिंदु को एक संख्या रेखा पर एक वज़न की तरह रखें, तो माध्य वह जगह है जहाँ रेखा संतुलित होगी।

नीचे स्लाइडर्स खिसकाकर पाँच डेटा बिंदु रखें और देखें माध्य कैसे हिलता है:

बिंदु 13
020
बिंदु 25
020
बिंदु 37
020
बिंदु 48
020
बिंदु 59
020
Mean=3+5+7+8+95\text{Mean} = \frac{ 3 + 5 + 7 + 8 + 9 }{5}
246810121416182022बिंदु 1बिंदु 2बिंदु 3बिंदु 4बिंदु 5माध्य

हर उभार एक डेटा बिंदु है। गुलाबी शिखर माध्य को दर्शाता है। स्लाइडर्स खिसकाएँ और देखें कि बिंदु और माध्य संख्या रेखा पर साथ-साथ कैसे हिलते हैं।

यह आज़माएं

यह करके देखें: चार बिंदुओं को 5 के पास रखें, फिर Point 5 को खींचकर 20 तक ले जाएँ। देखें माध्य कितना खिसकता है! एक चरम मान (extreme value) माध्य को वहाँ से बहुत दूर खींच सकता है जहाँ अधिकांश डेटा है। इसीलिए माध्य को बाह्य मानों के प्रति संवेदनशील (sensitive to outliers) कहा जाता है।


भाग 2: माध्यिका (Median) — बीच वाला मान

माध्यिका वह मान है जो डेटा को छोटे से बड़े क्रम में लगाने पर ठीक बीच में आता है। आधा डेटा इससे नीचे होता है, आधा ऊपर।

पाँच बिंदुओं के लिए, माध्यिका बस क्रम से लगाने के बाद तीसरा मान है।

जोड़

माध्य बनाम माध्यिका: जब डेटा सममित (symmetric) होता है (बराबर फैला हुआ), तो माध्य और माध्यिका करीब होते हैं। जब डेटा विषम (skewed) होता है (चरम मानों की वजह से एक तरफ़ खिंचा हुआ), तो ये अलग हो जाते हैं। माध्यिका बाह्य मानों (outliers) से प्रभावित नहीं होती — एक चरम मान होने पर भी यह अपनी जगह पर रहती है। इसीलिए घरेलू आय (household income) जैसी चीज़ों को अक्सर माध्य की बजाय माध्यिका से बताया जाता है।


भाग 3: सममित बनाम विषम वितरण (Symmetric vs. Skewed Distributions)

सभी डेटासेट एक जैसे आकार के नहीं होते। डेटा का आकार एक कहानी बताता है।

सामान्य (सममित) वितरण — Normal (Symmetric) Distribution

घंटी वक्र (bell curve) क्लासिक सममित आकार है। माध्य और माध्यिका दोनों बीच में साथ-साथ होते हैं:

केंद्र (माध्य)0
-55
विस्तार (मानक विचलन)1.5
0.54
-10-8-6-4-2246810

केंद्र स्लाइडर खिसकाकर पूरी घंटी को बाएँ-दाएँ ले जाएँ। फैलाव स्लाइडर से इसे चौड़ा (ज़्यादा फैला हुआ) या संकरा (ज़्यादा केंद्रित) बनाएँ।

दाईं ओर विषम वितरण (Right-Skewed Distribution)

दाईं ओर विषम वितरण में एक लंबी पूँछ दाईं तरफ़ फैलती है। ऐसा तब होता है जब कुछ बहुत बड़े मान डेटा को बाहर खींचते हैं:

24681012

आय (income) के बारे में सोचिए: ज़्यादातर लोग सामान्य रकम कमाते हैं, लेकिन कुछ अरबपति पूँछ को दाईं ओर बहुत दूर तक खींच लेते हैं। दाईं ओर विषम डेटा में, माध्य, माध्यिका से बड़ा होता है क्योंकि माध्य पूँछ की तरफ़ खिंच जाता है।

बाईं ओर विषम वितरण (Left-Skewed Distribution)

बाईं ओर विषम वितरण में लंबी पूँछ बाईं तरफ़ होती है:

-2246810

परीक्षा के अंकों के बारे में सोचिए जहाँ अधिकांश छात्र अच्छा करते हैं लेकिन कुछ को बहुत कम अंक मिलते हैं। यहाँ माध्य, माध्यिका से छोटा होता है

यह आज़माएं

याद रखने का नियम:

  • सममित: माध्य लगभग माध्यिका के बराबर
  • दाईं ओर विषम: माध्य > माध्यिका (पूँछ माध्य को दाएँ खींचती है)
  • बाईं ओर विषम: माध्य < माध्यिका (पूँछ माध्य को बाएँ खींचती है)

भाग 4: फैलाव — डेटा कितना दूर-दूर फैला है?

दो डेटासेट का माध्य एक जैसा हो सकता है लेकिन उनका फैलाव बहुत अलग। इन दो घंटी वक्रों की तुलना करें:

वक्र A का विस्तार0.8
0.33
वक्र B का विस्तार2
0.33
-8-6-4-22468वक्र Aवक्र B

दोनों वक्र शून्य पर केंद्रित हैं, लेकिन चौड़ा वक्र ज़्यादा परिवर्तनशीलता वाले डेटा को दर्शाता है। मानक विचलन (standard deviation) इस फैलाव को मापता है — बड़ा मानक विचलन मतलब डेटा माध्य से ज़्यादा फैला हुआ है।

चुनौती

चुनौती: कल्पना करें कि दो कक्षाओं ने एक परीक्षा में 75 का माध्य प्राप्त किया। कक्षा A का मानक विचलन 5 है, और कक्षा B का मानक विचलन 15 है। किस कक्षा के अंक ज़्यादा एकसमान (consistent) थे? (ऊपर के स्लाइडर्स का उपयोग करके उत्तर को देखें!)


सारांश

अवधारणायह क्या बताती है
माध्य (Mean)संतुलन बिंदु — बाह्य मानों के प्रति संवेदनशील
माध्यिका (Median)बीच का मान — बाह्य मानों से अप्रभावित
सममित (Symmetric)माध्य और माध्यिका करीब होते हैं
विषम (Skewed)माध्य पूँछ की तरफ़ खिंच जाता है
मानक विचलन (Standard deviation)डेटा कितना फैला हुआ है

इन विचारों को समझना सांख्यिकी की नींव है। जब भी आप कोई डेटासेट देखें, तो खुद से पूछें: केंद्र कहाँ है? कितना फैला हुआ है? सममित है या विषम? ये तीन सवाल आपको ज़्यादातर कहानी बता देंगे।

परीक्षा दें