प्रतिचयन, पूर्वाग्रह और अनुमान (Sampling, Bias & Inference)
हर व्यक्ति को माप पाना, हर उत्पाद की जाँच करना, या हर मतदाता का सर्वेक्षण करना सम्भव नहीं है। इसलिए हम एक प्रतिदर्श (sample) — यानी एक छोटा समूह — लेते हैं और उससे पूरी जनसंख्या (population) के बारे में निष्कर्ष निकालते हैं। लेकिन प्रतिदर्श कितना बड़ा होना चाहिए? और क्या गलत हो सकता है?
भाग 1: जनसंख्या वितरण (Population Distribution)
सोचें कि एक जनसंख्या का कोई औसत मान (जनसंख्या माध्य mu) और कुछ प्राकृतिक विचरण (जनसंख्या मानक विचलन sigma) है:
यह सच्चा वितरण है। असल ज़िन्दगी में, हम आमतौर पर इसका सटीक आकार नहीं जानते — प्रतिचयन का पूरा मक़सद यही है। हम प्रतिदर्श लेकर इस वक्र के बारे में जानने की कोशिश कर रहे हैं।
भाग 2: माध्य का प्रतिचयन वितरण (Sampling Distribution of the Mean)
जब आप n आकार का प्रतिदर्श लेकर उसका माध्य निकालते हैं, तो वह प्रतिदर्श माध्य स्वयं एक यादृच्छिक चर होता है। यदि आप प्रतिचयन बार-बार दोहराएँ, तो प्रतिदर्श माध्यों का अपना वितरण बनेगा — प्रतिचयन वितरण (sampling distribution)।
केन्द्रीय सीमा प्रमेय (Central Limit Theorem - CLT) हमें एक अद्भुत बात बताता है:
प्रतिदर्श माध्य जनसंख्या माध्य के आसपास केन्द्रित होते हैं, लेकिन प्रतिदर्श का आकार बढ़ने पर उनका फैलाव सिकुड़ता जाता है!
प्रतिदर्श आकार स्लाइडर खींचें और हरे वक्र को देखें:
- n = 1: प्रतिचयन वितरण जनसंख्या वितरण जैसा ही है — कोई सुधार नहीं
- n = 4: फैलाव आधा हो जाता है (sigma/sqrt(4) = sigma/2)
- n = 25: फैलाव मूल का 1/5 रह जाता है
- n = 100: फैलाव 1/10 — प्रतिदर्श माध्य mu के बहुत करीब आ जाते हैं
यही CLT का जादू है: बड़े प्रतिदर्श अधिक सटीक अनुमान देते हैं!
भाग 3: वर्गमूल नियम (The Square Root Law)
ध्यान दें कि n को 1 से 4 करने पर बहुत फ़ायदा होता है, लेकिन 25 से 100 करने पर उतना नाटकीय अन्तर नहीं दिखता? ऐसा इसलिए है क्योंकि फैलाव sqrt(n) के अनुसार सिकुड़ता है, n के अनुसार नहीं:
घटता हुआ लाभ: मानक त्रुटि (standard error) को आधा करने के लिए प्रतिदर्श का आकार चार गुना करना पड़ता है। n=100 से n=400 करने पर उतना ही सुधार होता है जितना n=1 से n=4 करने पर। इसीलिए सर्वेक्षण संस्थाएँ सिर्फ़ 1000 लोगों का सर्वेक्षण करके सटीक नतीजे पा सकती हैं — लेकिन 4000 लोगों का सर्वेक्षण करने से सटीकता 4 गुना नहीं, बल्कि सिर्फ़ 2 गुना बढ़ती है।
भाग 4: पूर्वाग्रह — जब प्रतिदर्श गुमराह करें (Bias)
बड़े प्रतिदर्श के साथ भी, यदि प्रतिदर्श पूर्वाग्रही (biased) है — यानी व्यवस्थित रूप से जनसंख्या का प्रतिनिधित्व नहीं करता — तो नतीजे ग़लत हो सकते हैं।
पूर्वाग्रही प्रतिदर्श का केन्द्र सच्चे जनसंख्या माध्य से हट जाता है:
जब पूर्वाग्रह 0 है, प्रतिदर्श सच्चे जनसंख्या माध्य पर केन्द्रित है — यह एक प्रतिनिधि (representative) प्रतिदर्श है। जैसे-जैसे आप पूर्वाग्रह बढ़ाते हैं, प्रतिदर्श का केन्द्र हटता जाता है।
प्रतिदर्श का आकार कितना भी बढ़ा लें, पूर्वाग्रह दूर नहीं होता! 10,000 का पूर्वाग्रही प्रतिदर्श भी ग़लत होता है। पूर्वाग्रह से बचने की कुंजी यादृच्छिक प्रतिचयन (random sampling) है।
भाग 5: विश्वास — सटीकता बनाम प्रतिदर्श आकार (Confidence)
जैसे-जैसे प्रतिदर्श का आकार बढ़ता है, हम जनसंख्या माध्य की स्थिति के बारे में अधिक आश्वस्त होते हैं। अधिक डेटा के साथ विश्वास अन्तराल (confidence interval) संकरा होता जाता है:
चुनौती: एक सर्वेक्षण कम्पनी मतदाता समर्थन का अनुमान 3 प्रतिशत अंकों की त्रुटि सीमा (margin of error) के साथ लगाना चाहती है (sigma ~ 50 प्रतिशतों के लिए)।
त्रुटि सीमा लगभग 1.96 * sigma / sqrt(n) है। समीकरण बनाएँ: 3 = 1.96 * 50 / sqrt(n)। n का मान निकालें।
उन्हें कितने मतदाताओं का सर्वेक्षण करना होगा?
सारांश
| अवधारणा | मुख्य बात |
|---|---|
| प्रतिचयन वितरण | बार-बार प्रतिचयन से प्राप्त प्रतिदर्श माध्यों का वितरण |
| केन्द्रीय सीमा प्रमेय | प्रतिदर्श माध्य सामान्य वितरण का पालन करते हैं, sigma/sqrt(n) के साथ |
| मानक त्रुटि | sigma/sqrt(n) — प्रतिदर्श आकार बढ़ने पर घटती है |
| पूर्वाग्रह | व्यवस्थित त्रुटि जो प्रतिदर्श आकार बढ़ाने से कम नहीं होती |
| विश्वास अन्तराल | वह सीमा जिसमें सच्चा जनसंख्या माध्य होने की सम्भावना है |
केन्द्रीय सीमा प्रमेय सांख्यिकी के सबसे शक्तिशाली विचारों में से एक है। यह बताता है कि जनसंख्या चाहे कैसी भी दिखे, प्रतिदर्श माध्य लगभग सामान्य वितरण का पालन करेंगे — और सटीकता प्रतिदर्श आकार के साथ अनुमानित रूप से बेहतर होती जाती है।