सांख्यिकी

प्रतिचयन, पूर्वाग्रह और अनुमान (Sampling, Bias & Inference)

हर व्यक्ति को माप पाना, हर उत्पाद की जाँच करना, या हर मतदाता का सर्वेक्षण करना सम्भव नहीं है। इसलिए हम एक प्रतिदर्श (sample) — यानी एक छोटा समूह — लेते हैं और उससे पूरी जनसंख्या (population) के बारे में निष्कर्ष निकालते हैं। लेकिन प्रतिदर्श कितना बड़ा होना चाहिए? और क्या गलत हो सकता है?

भाग 1: जनसंख्या वितरण (Population Distribution)

सोचें कि एक जनसंख्या का कोई औसत मान (जनसंख्या माध्य mu) और कुछ प्राकृतिक विचरण (जनसंख्या मानक विचलन sigma) है:

जनसंख्या माध्य (mu)0

-33

जनसंख्या sigma2

0.53

यह सच्चा वितरण है। असल ज़िन्दगी में, हम आमतौर पर इसका सटीक आकार नहीं जानते — प्रतिचयन का पूरा मक़सद यही है। हम प्रतिदर्श लेकर इस वक्र के बारे में जानने की कोशिश कर रहे हैं।

भाग 2: माध्य का प्रतिचयन वितरण (Sampling Distribution of the Mean)

जब आप n आकार का प्रतिदर्श लेकर उसका माध्य निकालते हैं, तो वह प्रतिदर्श माध्य स्वयं एक यादृच्छिक चर होता है। यदि आप प्रतिचयन बार-बार दोहराएँ, तो प्रतिदर्श माध्यों का अपना वितरण बनेगा — प्रतिचयन वितरण (sampling distribution)।

केन्द्रीय सीमा प्रमेय (Central Limit Theorem - CLT) हमें एक अद्भुत बात बताता है:

\text{Sampling distribution of } \bar{x}: \quad \mu_{\bar{x}} = \mu, \quad \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}

प्रतिदर्श माध्य जनसंख्या माध्य के आसपास केन्द्रित होते हैं, लेकिन प्रतिदर्श का आकार बढ़ने पर उनका फैलाव सिकुड़ता जाता है!

प्रतिदर्श आकार (n)4

1100

\sigma_{\bar{x}} = \frac{2}{\sqrt{4}}

यह आज़माएं

प्रतिदर्श आकार स्लाइडर खींचें और हरे वक्र को देखें:

n = 1: प्रतिचयन वितरण जनसंख्या वितरण जैसा ही है — कोई सुधार नहीं
n = 4: फैलाव आधा हो जाता है (sigma/sqrt(4) = sigma/2)
n = 25: फैलाव मूल का 1/5 रह जाता है
n = 100: फैलाव 1/10 — प्रतिदर्श माध्य mu के बहुत करीब आ जाते हैं

यही CLT का जादू है: बड़े प्रतिदर्श अधिक सटीक अनुमान देते हैं!

भाग 3: वर्गमूल नियम (The Square Root Law)

ध्यान दें कि n को 1 से 4 करने पर बहुत फ़ायदा होता है, लेकिन 25 से 100 करने पर उतना नाटकीय अन्तर नहीं दिखता? ऐसा इसलिए है क्योंकि फैलाव sqrt(n) के अनुसार सिकुड़ता है, n के अनुसार नहीं:

प्रतिदर्श आकार (n)10

1200

\text{Standard error} = \frac{2}{\sqrt{10}}

जोड़

घटता हुआ लाभ: मानक त्रुटि (standard error) को आधा करने के लिए प्रतिदर्श का आकार चार गुना करना पड़ता है। n=100 से n=400 करने पर उतना ही सुधार होता है जितना n=1 से n=4 करने पर। इसीलिए सर्वेक्षण संस्थाएँ सिर्फ़ 1000 लोगों का सर्वेक्षण करके सटीक नतीजे पा सकती हैं — लेकिन 4000 लोगों का सर्वेक्षण करने से सटीकता 4 गुना नहीं, बल्कि सिर्फ़ 2 गुना बढ़ती है।

भाग 4: पूर्वाग्रह — जब प्रतिदर्श गुमराह करें (Bias)

बड़े प्रतिदर्श के साथ भी, यदि प्रतिदर्श पूर्वाग्रही (biased) है — यानी व्यवस्थित रूप से जनसंख्या का प्रतिनिधित्व नहीं करता — तो नतीजे ग़लत हो सकते हैं।

पूर्वाग्रही प्रतिदर्श का केन्द्र सच्चे जनसंख्या माध्य से हट जाता है:

प्रतिदर्श पूर्वाग्रह0

-33

\text{Bias} = \bar{x}_{sample} - \mu_{population} = 0

यह आज़माएं

जब पूर्वाग्रह 0 है, प्रतिदर्श सच्चे जनसंख्या माध्य पर केन्द्रित है — यह एक प्रतिनिधि (representative) प्रतिदर्श है। जैसे-जैसे आप पूर्वाग्रह बढ़ाते हैं, प्रतिदर्श का केन्द्र हटता जाता है।

प्रतिदर्श का आकार कितना भी बढ़ा लें, पूर्वाग्रह दूर नहीं होता! 10,000 का पूर्वाग्रही प्रतिदर्श भी ग़लत होता है। पूर्वाग्रह से बचने की कुंजी यादृच्छिक प्रतिचयन (random sampling) है।

भाग 5: विश्वास — सटीकता बनाम प्रतिदर्श आकार (Confidence)

जैसे-जैसे प्रतिदर्श का आकार बढ़ता है, हम जनसंख्या माध्य की स्थिति के बारे में अधिक आश्वस्त होते हैं। अधिक डेटा के साथ विश्वास अन्तराल (confidence interval) संकरा होता जाता है:

प्रतिदर्श आकार (n)10

2100

\text{95\% CI width} \approx 2 \times 1.96 \times \frac{2}{\sqrt{10}}

चुनौती

चुनौती: एक सर्वेक्षण कम्पनी मतदाता समर्थन का अनुमान 3 प्रतिशत अंकों की त्रुटि सीमा (margin of error) के साथ लगाना चाहती है (sigma ~ 50 प्रतिशतों के लिए)।

त्रुटि सीमा लगभग 1.96 * sigma / sqrt(n) है। समीकरण बनाएँ: 3 = 1.96 * 50 / sqrt(n)। n का मान निकालें।

उन्हें कितने मतदाताओं का सर्वेक्षण करना होगा?

सारांश

अवधारणा	मुख्य बात
प्रतिचयन वितरण	बार-बार प्रतिचयन से प्राप्त प्रतिदर्श माध्यों का वितरण
केन्द्रीय सीमा प्रमेय	प्रतिदर्श माध्य सामान्य वितरण का पालन करते हैं, sigma/sqrt(n) के साथ
मानक त्रुटि	sigma/sqrt(n) — प्रतिदर्श आकार बढ़ने पर घटती है
पूर्वाग्रह	व्यवस्थित त्रुटि जो प्रतिदर्श आकार बढ़ाने से कम नहीं होती
विश्वास अन्तराल	वह सीमा जिसमें सच्चा जनसंख्या माध्य होने की सम्भावना है

केन्द्रीय सीमा प्रमेय सांख्यिकी के सबसे शक्तिशाली विचारों में से एक है। यह बताता है कि जनसंख्या चाहे कैसी भी दिखे, प्रतिदर्श माध्य लगभग सामान्य वितरण का पालन करेंगे — और सटीकता प्रतिदर्श आकार के साथ अनुमानित रूप से बेहतर होती जाती है।

परीक्षा दें