सांख्यिकी

प्रतिचयन, पूर्वाग्रह और अनुमान (Sampling, Bias & Inference)

हर व्यक्ति को माप पाना, हर उत्पाद की जाँच करना, या हर मतदाता का सर्वेक्षण करना सम्भव नहीं है। इसलिए हम एक प्रतिदर्श (sample) — यानी एक छोटा समूह — लेते हैं और उससे पूरी जनसंख्या (population) के बारे में निष्कर्ष निकालते हैं। लेकिन प्रतिदर्श कितना बड़ा होना चाहिए? और क्या गलत हो सकता है?


भाग 1: जनसंख्या वितरण (Population Distribution)

सोचें कि एक जनसंख्या का कोई औसत मान (जनसंख्या माध्य mu) और कुछ प्राकृतिक विचरण (जनसंख्या मानक विचलन sigma) है:

जनसंख्या माध्य (mu)0
-33
जनसंख्या sigma2
0.53
-10-8-6-4-2246810

यह सच्चा वितरण है। असल ज़िन्दगी में, हम आमतौर पर इसका सटीक आकार नहीं जानते — प्रतिचयन का पूरा मक़सद यही है। हम प्रतिदर्श लेकर इस वक्र के बारे में जानने की कोशिश कर रहे हैं।


भाग 2: माध्य का प्रतिचयन वितरण (Sampling Distribution of the Mean)

जब आप n आकार का प्रतिदर्श लेकर उसका माध्य निकालते हैं, तो वह प्रतिदर्श माध्य स्वयं एक यादृच्छिक चर होता है। यदि आप प्रतिचयन बार-बार दोहराएँ, तो प्रतिदर्श माध्यों का अपना वितरण बनेगा — प्रतिचयन वितरण (sampling distribution)।

केन्द्रीय सीमा प्रमेय (Central Limit Theorem - CLT) हमें एक अद्भुत बात बताता है:

Sampling distribution of xˉ:μxˉ=μ,σxˉ=σn\text{Sampling distribution of } \bar{x}: \quad \mu_{\bar{x}} = \mu, \quad \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}

प्रतिदर्श माध्य जनसंख्या माध्य के आसपास केन्द्रित होते हैं, लेकिन प्रतिदर्श का आकार बढ़ने पर उनका फैलाव सिकुड़ता जाता है!

प्रतिदर्श आकार (n)4
1100
σxˉ=24\sigma_{\bar{x}} = \frac{2}{\sqrt{4}}
-8-6-4-224682जनसंख्या (sigma=2)प्रतिदर्शन वितरण (n)
यह आज़माएं

प्रतिदर्श आकार स्लाइडर खींचें और हरे वक्र को देखें:

  • n = 1: प्रतिचयन वितरण जनसंख्या वितरण जैसा ही है — कोई सुधार नहीं
  • n = 4: फैलाव आधा हो जाता है (sigma/sqrt(4) = sigma/2)
  • n = 25: फैलाव मूल का 1/5 रह जाता है
  • n = 100: फैलाव 1/10 — प्रतिदर्श माध्य mu के बहुत करीब आ जाते हैं

यही CLT का जादू है: बड़े प्रतिदर्श अधिक सटीक अनुमान देते हैं!


भाग 3: वर्गमूल नियम (The Square Root Law)

ध्यान दें कि n को 1 से 4 करने पर बहुत फ़ायदा होता है, लेकिन 25 से 100 करने पर उतना नाटकीय अन्तर नहीं दिखता? ऐसा इसलिए है क्योंकि फैलाव sqrt(n) के अनुसार सिकुड़ता है, n के अनुसार नहीं:

प्रतिदर्श आकार (n)10
1200
Standard error=210\text{Standard error} = \frac{2}{\sqrt{10}}
20406080100120140160180200
-6-5-4-3-2-1123456123जनसंख्याप्रतिदर्श माध्य
जोड़

घटता हुआ लाभ: मानक त्रुटि (standard error) को आधा करने के लिए प्रतिदर्श का आकार चार गुना करना पड़ता है। n=100 से n=400 करने पर उतना ही सुधार होता है जितना n=1 से n=4 करने पर। इसीलिए सर्वेक्षण संस्थाएँ सिर्फ़ 1000 लोगों का सर्वेक्षण करके सटीक नतीजे पा सकती हैं — लेकिन 4000 लोगों का सर्वेक्षण करने से सटीकता 4 गुना नहीं, बल्कि सिर्फ़ 2 गुना बढ़ती है।


भाग 4: पूर्वाग्रह — जब प्रतिदर्श गुमराह करें (Bias)

बड़े प्रतिदर्श के साथ भी, यदि प्रतिदर्श पूर्वाग्रही (biased) है — यानी व्यवस्थित रूप से जनसंख्या का प्रतिनिधित्व नहीं करता — तो नतीजे ग़लत हो सकते हैं।

पूर्वाग्रही प्रतिदर्श का केन्द्र सच्चे जनसंख्या माध्य से हट जाता है:

प्रतिदर्श पूर्वाग्रह0
-33
-8-6-4-22468वास्तविक जनसंख्यापूर्वाग्रही प्रतिदर्श (n=10)
Bias=xˉsampleμpopulation=0\text{Bias} = \bar{x}_{sample} - \mu_{population} = 0
यह आज़माएं

जब पूर्वाग्रह 0 है, प्रतिदर्श सच्चे जनसंख्या माध्य पर केन्द्रित है — यह एक प्रतिनिधि (representative) प्रतिदर्श है। जैसे-जैसे आप पूर्वाग्रह बढ़ाते हैं, प्रतिदर्श का केन्द्र हटता जाता है।

प्रतिदर्श का आकार कितना भी बढ़ा लें, पूर्वाग्रह दूर नहीं होता! 10,000 का पूर्वाग्रही प्रतिदर्श भी ग़लत होता है। पूर्वाग्रह से बचने की कुंजी यादृच्छिक प्रतिचयन (random sampling) है।


भाग 5: विश्वास — सटीकता बनाम प्रतिदर्श आकार (Confidence)

जैसे-जैसे प्रतिदर्श का आकार बढ़ता है, हम जनसंख्या माध्य की स्थिति के बारे में अधिक आश्वस्त होते हैं। अधिक डेटा के साथ विश्वास अन्तराल (confidence interval) संकरा होता जाता है:

प्रतिदर्श आकार (n)10
2100
95% CI width2×1.96×210\text{95\% CI width} \approx 2 \times 1.96 \times \frac{2}{\sqrt{10}}
-5-4-3-2-112345123प्रतिदर्शन वितरण95% विश्वास क्षेत्र
चुनौती

चुनौती: एक सर्वेक्षण कम्पनी मतदाता समर्थन का अनुमान 3 प्रतिशत अंकों की त्रुटि सीमा (margin of error) के साथ लगाना चाहती है (sigma ~ 50 प्रतिशतों के लिए)।

त्रुटि सीमा लगभग 1.96 * sigma / sqrt(n) है। समीकरण बनाएँ: 3 = 1.96 * 50 / sqrt(n)। n का मान निकालें।

उन्हें कितने मतदाताओं का सर्वेक्षण करना होगा?


सारांश

अवधारणामुख्य बात
प्रतिचयन वितरणबार-बार प्रतिचयन से प्राप्त प्रतिदर्श माध्यों का वितरण
केन्द्रीय सीमा प्रमेयप्रतिदर्श माध्य सामान्य वितरण का पालन करते हैं, sigma/sqrt(n) के साथ
मानक त्रुटिsigma/sqrt(n) — प्रतिदर्श आकार बढ़ने पर घटती है
पूर्वाग्रहव्यवस्थित त्रुटि जो प्रतिदर्श आकार बढ़ाने से कम नहीं होती
विश्वास अन्तरालवह सीमा जिसमें सच्चा जनसंख्या माध्य होने की सम्भावना है

केन्द्रीय सीमा प्रमेय सांख्यिकी के सबसे शक्तिशाली विचारों में से एक है। यह बताता है कि जनसंख्या चाहे कैसी भी दिखे, प्रतिदर्श माध्य लगभग सामान्य वितरण का पालन करेंगे — और सटीकता प्रतिदर्श आकार के साथ अनुमानित रूप से बेहतर होती जाती है।

परीक्षा दें