डेटा और प्रायिकता

प्रायिकता का परिचय

क्या संभावना है? यह सवाल हर जगह आता है — मौसम की भविष्यवाणी से लेकर खेल जीतने की संभावना तक। प्रायिकता (probability) हमें यह मापने का तरीका देती है कि कोई चीज़ कितनी संभव है, और जब हम इसे ग्राफ पर दिखाते हैं, तो सुंदर आकार बनते हैं। आइए दो सबसे महत्वपूर्ण आकार देखें।

क्षेत्रफल के रूप में प्रायिकता

यहाँ एक मुख्य विचार है जो प्रायिकता को ग्राफ से जोड़ता है: किसी परिणाम की प्रायिकता वक्र के नीचे का क्षेत्रफल है। किसी भी प्रायिकता वितरण के नीचे का कुल क्षेत्रफल हमेशा 1 होता है (यानी 100% संभावना कि कुछ न कुछ तो होगा)।

जोड़

इसे ऐसे समझें: अगर आप एक गेंद को वितरण वक्र पर गिराएं, तो किसी भी हिस्से के नीचे का क्षेत्रफल बताता है कि गेंद के उस क्षेत्र में गिरने की कितनी संभावना है। ज़्यादा क्षेत्रफल = ज़्यादा संभावना।

सामान्य वितरण (Normal Distribution) — घंटी वक्र (Bell Curve)

सामान्य वितरण सांख्यिकी (statistics) का सबसे प्रसिद्ध आकार है। यह हर जगह दिखता है — परीक्षा के अंक, लोगों की लंबाई, माप की त्रुटियाँ, और बहुत कुछ।

इसे दो संख्याओं से परिभाषित किया जाता है:

PDF=1σ2πe(xμ)22σ2\text{PDF} = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x - \mu)^2}{2\sigma^2}}

स्लाइडर का उपयोग करके घंटी वक्र का आकार बदलें:

माध्य (mu)0
-55
मानक विचलन (sigma)1
0.33
μ=0,σ=1\mu = 0, \quad \sigma = 1
-10-9-8-7-6-5-4-3-2-1123456789101
यह आज़माएं

इन्हें आज़माएं:

  • mu को बाएं और दाएं खिसकाएं — पूरी घंटी साथ में खिसकती है। माध्य ही केंद्र है!
  • sigma बढ़ाएं — घंटी चौड़ी और छोटी हो जाती है। डेटा ज़्यादा “फैला” हुआ है।
  • sigma को 0.3 की ओर घटाएं — घंटी लंबी और संकरी हो जाती है। डेटा माध्य के चारों ओर कसकर जमा होता है।
  • ध्यान दें: आप कुछ भी करें, वक्र के नीचे का कुल क्षेत्रफल हमेशा 1 रहता है।

68-95-99.7 नियम

किसी भी सामान्य वितरण के लिए:

इसीलिए घंटी वक्र इतना उपयोगी है — एक बार माध्य और मानक विचलन पता हो, तो आप अनुमान लगा सकते हैं कि लगभग सारा डेटा कहाँ होगा।

घंटी वक्रों की तुलना

यहाँ तीन सामान्य वितरण हैं जिनके मानक विचलन अलग-अलग हैं, सभी शून्य पर केंद्रित हैं। देखें sigma आकार को कैसे नियंत्रित करता है:

-6-5-4-3-2-1123456sigma = 0.5sigma = 1.0sigma = 2.0

मानक विचलन जितना छोटा, चोटी उतनी लंबी और संकरी। छोटा sigma मतलब डेटा बहुत एकसमान है। बड़ा sigma मतलब बहुत भिन्नता है।

जोड़

सोचिए तीन कक्षाओं ने एक ही परीक्षा दी। sigma = 0.5 वाली कक्षा में सबके अंक लगभग बराबर थे (सबने लगभग बराबर पढ़ाई की)। sigma = 2.0 वाली कक्षा में अंक बहुत बिखरे हुए थे — किसी ने बहुत अच्छा किया, किसी ने नहीं। औसत एक ही था, फैलाव बहुत अलग।

द्विपद वितरण (Binomial Distribution)

द्विपद वितरण एक अलग सवाल का जवाब देता है: अगर आप एक प्रयोग n बार दोहराएं, और हर बार सफलता की प्रायिकता p हो, तो ठीक k सफलताएं मिलने की क्या संभावना है?

सोचिए एक सिक्का n बार उछालना — कितने चित आएंगे?

P(k)=(n)3pk(1p)nkP(k) = \binom{n}-3 \, p^k \, (1-p)^{n-k}

हम द्विपद वितरण को एक चिकने वक्र से अनुमानित कर सकते हैं। प्रयोगों की संख्या (n) और सफलता की प्रायिकता (p) बदलें:

प्रयोग (n)10
140
प्रायिकता (p)0.5
0.010.99
n=10,p=0.5,mean=np=100.5n = 10, \quad p = 0.5, \quad \text{mean} = np = 10 \cdot 0.5
510152025303540
यह आज़माएं

इन्हें आज़माएं:

  • p = 0.5 (उचित सिक्का) रखें और n बढ़ाएं — वक्र चौड़ा और ज़्यादा सममित होता जाता है। ज़्यादा उछाल = परिणामों में ज़्यादा फैलाव।
  • n = 20 रखें और p को 0.1 से 0.9 तक खिसकाएं — देखें चोटी कैसे खिसकती है! जब p छोटा होता है, ज़्यादातर परिणाम शून्य के पास जमा होते हैं। जब p बड़ा होता है, वे n के पास जमा होते हैं।
  • p = 0.5 और n = 1 रखें — वक्र बहुत चौड़ा है। सिर्फ एक प्रयोग में कुछ भी हो सकता है। अब n को 40 तक बढ़ाएं — पूर्वानुमान बेहतर होता है!

द्विपद कब सामान्य जैसा दिखता है?

जैसे-जैसे n बड़ा होता है, द्विपद वितरण सामान्य वितरण जैसा दिखने लगता है! इसे केंद्रीय सीमा प्रमेय (Central Limit Theorem) कहते हैं — सांख्यिकी के सबसे शक्तिशाली विचारों में से एक।

यह अनुमान सबसे अच्छा काम करता है जब np और n(1-p) दोनों कम से कम 5 हों।

जोड़

वास्तव में हमने ऊपर यही दिखाया — द्विपद वितरण का सामान्य अनुमान, जिसका माध्य = np और मानक विचलन = sqrt(np(1-p)) है। वापस जाएं और n = 30, p = 0.5 रखें — यह लगभग पूरी तरह घंटी के आकार का दिखता है!

एक साथ देखें: माध्य खिसकाना बनाम फैलाव बदलना

आइए सब कुछ एक साथ देखें। यहाँ दो सामान्य वक्र हैं — एक का माध्य आप नियंत्रित करते हैं, और दूसरे का फैलाव:

नीला माध्य-2
-44
लाल मानक विचलन0.8
0.33
-8-7-6-5-4-3-2-1123456781नीला: बदलने योग्य माध्यलाल: बदलने योग्य फैलाव
चुनौती

चुनौती: क्या आप दोनों वक्रों को पूरी तरह एक दूसरे पर रख सकते हैं? सोचिए नीले माध्य और लाल मानक विचलन के कौन से मान उन्हें एकसमान बनाएंगे। संकेत: लाल वक्र x = 2 पर केंद्रित है और नीले का sigma = 1 है।

मुख्य बातें

परीक्षा दें