सांख्यिकी

माध्य, माध्यिका और डेटा का आकार

जब आप “औसत” (average) सुनते हैं, तो ज़्यादातर लोग एक ही संख्या सोचते हैं। लेकिन सांख्यिकीविदों के पास डेटासेट के बीच का वर्णन करने के कई तरीके होते हैं — और वे हमेशा एक जैसे नहीं होते। आइए देखें कि यह क्यों मायने रखता है।

भाग 1: माध्य (Mean) — जोड़ो और भाग दो

माध्य (अंकगणितीय औसत) शायद वह है जो आपने सबसे पहले सीखा:

\text{Mean} = \frac{\text{sum of all values}}{\text{number of values}}

इसे डेटा का संतुलन बिंदु (balance point) समझें। अगर आप हर डेटा बिंदु को एक संख्या रेखा पर एक वज़न की तरह रखें, तो माध्य वह जगह है जहाँ रेखा संतुलित होगी।

नीचे स्लाइडर्स खिसकाकर पाँच डेटा बिंदु रखें और देखें माध्य कैसे हिलता है:

बिंदु 13

020

बिंदु 25

020

बिंदु 37

020

बिंदु 48

020

बिंदु 59

020

\text{Mean} = \frac{ 3 + 5 + 7 + 8 + 9 }{5}

हर उभार एक डेटा बिंदु है। गुलाबी शिखर माध्य को दर्शाता है। स्लाइडर्स खिसकाएँ और देखें कि बिंदु और माध्य संख्या रेखा पर साथ-साथ कैसे हिलते हैं।

यह आज़माएं

यह करके देखें: चार बिंदुओं को 5 के पास रखें, फिर Point 5 को खींचकर 20 तक ले जाएँ। देखें माध्य कितना खिसकता है! एक चरम मान (extreme value) माध्य को वहाँ से बहुत दूर खींच सकता है जहाँ अधिकांश डेटा है। इसीलिए माध्य को बाह्य मानों के प्रति संवेदनशील (sensitive to outliers) कहा जाता है।

भाग 2: माध्यिका (Median) — बीच वाला मान

माध्यिका वह मान है जो डेटा को छोटे से बड़े क्रम में लगाने पर ठीक बीच में आता है। आधा डेटा इससे नीचे होता है, आधा ऊपर।

पाँच बिंदुओं के लिए, माध्यिका बस क्रम से लगाने के बाद तीसरा मान है।

जोड़

माध्य बनाम माध्यिका: जब डेटा सममित (symmetric) होता है (बराबर फैला हुआ), तो माध्य और माध्यिका करीब होते हैं। जब डेटा विषम (skewed) होता है (चरम मानों की वजह से एक तरफ़ खिंचा हुआ), तो ये अलग हो जाते हैं। माध्यिका बाह्य मानों (outliers) से प्रभावित नहीं होती — एक चरम मान होने पर भी यह अपनी जगह पर रहती है। इसीलिए घरेलू आय (household income) जैसी चीज़ों को अक्सर माध्य की बजाय माध्यिका से बताया जाता है।

भाग 3: सममित बनाम विषम वितरण (Symmetric vs. Skewed Distributions)

सभी डेटासेट एक जैसे आकार के नहीं होते। डेटा का आकार एक कहानी बताता है।

सामान्य (सममित) वितरण — Normal (Symmetric) Distribution

घंटी वक्र (bell curve) क्लासिक सममित आकार है। माध्य और माध्यिका दोनों बीच में साथ-साथ होते हैं:

केंद्र (माध्य)0

-55

विस्तार (मानक विचलन)1.5

0.54

केंद्र स्लाइडर खिसकाकर पूरी घंटी को बाएँ-दाएँ ले जाएँ। फैलाव स्लाइडर से इसे चौड़ा (ज़्यादा फैला हुआ) या संकरा (ज़्यादा केंद्रित) बनाएँ।

दाईं ओर विषम वितरण (Right-Skewed Distribution)

दाईं ओर विषम वितरण में एक लंबी पूँछ दाईं तरफ़ फैलती है। ऐसा तब होता है जब कुछ बहुत बड़े मान डेटा को बाहर खींचते हैं:

आय (income) के बारे में सोचिए: ज़्यादातर लोग सामान्य रकम कमाते हैं, लेकिन कुछ अरबपति पूँछ को दाईं ओर बहुत दूर तक खींच लेते हैं। दाईं ओर विषम डेटा में, माध्य, माध्यिका से बड़ा होता है क्योंकि माध्य पूँछ की तरफ़ खिंच जाता है।

बाईं ओर विषम वितरण (Left-Skewed Distribution)

बाईं ओर विषम वितरण में लंबी पूँछ बाईं तरफ़ होती है:

परीक्षा के अंकों के बारे में सोचिए जहाँ अधिकांश छात्र अच्छा करते हैं लेकिन कुछ को बहुत कम अंक मिलते हैं। यहाँ माध्य, माध्यिका से छोटा होता है।

यह आज़माएं

याद रखने का नियम:

सममित: माध्य लगभग माध्यिका के बराबर
दाईं ओर विषम: माध्य > माध्यिका (पूँछ माध्य को दाएँ खींचती है)
बाईं ओर विषम: माध्य < माध्यिका (पूँछ माध्य को बाएँ खींचती है)

भाग 4: फैलाव — डेटा कितना दूर-दूर फैला है?

दो डेटासेट का माध्य एक जैसा हो सकता है लेकिन उनका फैलाव बहुत अलग। इन दो घंटी वक्रों की तुलना करें:

वक्र A का विस्तार0.8

0.33

वक्र B का विस्तार2

0.33

दोनों वक्र शून्य पर केंद्रित हैं, लेकिन चौड़ा वक्र ज़्यादा परिवर्तनशीलता वाले डेटा को दर्शाता है। मानक विचलन (standard deviation) इस फैलाव को मापता है — बड़ा मानक विचलन मतलब डेटा माध्य से ज़्यादा फैला हुआ है।

चुनौती

चुनौती: कल्पना करें कि दो कक्षाओं ने एक परीक्षा में 75 का माध्य प्राप्त किया। कक्षा A का मानक विचलन 5 है, और कक्षा B का मानक विचलन 15 है। किस कक्षा के अंक ज़्यादा एकसमान (consistent) थे? (ऊपर के स्लाइडर्स का उपयोग करके उत्तर को देखें!)

सारांश

अवधारणा	यह क्या बताती है
माध्य (Mean)	संतुलन बिंदु — बाह्य मानों के प्रति संवेदनशील
माध्यिका (Median)	बीच का मान — बाह्य मानों से अप्रभावित
सममित (Symmetric)	माध्य और माध्यिका करीब होते हैं
विषम (Skewed)	माध्य पूँछ की तरफ़ खिंच जाता है
मानक विचलन (Standard deviation)	डेटा कितना फैला हुआ है

इन विचारों को समझना सांख्यिकी की नींव है। जब भी आप कोई डेटासेट देखें, तो खुद से पूछें: केंद्र कहाँ है? कितना फैला हुआ है? सममित है या विषम? ये तीन सवाल आपको ज़्यादातर कहानी बता देंगे।

परीक्षा दें