सांख्यिकी

सबसे अच्छी रेखा (Line of Best Fit)

आपके पास ग्राफ़ पर बिखरे हुए बहुत सारे डेटा बिंदु हैं। वे लगभग एक प्रवृत्ति (trend) दिखाते हैं, लेकिन बिल्कुल सीधी रेखा में नहीं हैं। उनके बीच सबसे अच्छी रेखा कैसे खींचें? यही रैखिक प्रतिगमन (linear regression) है।

भाग 1: नज़र से अनुमान लगाना

कल्पना करें कि आपने छात्रों के पढ़ाई के घंटे और परीक्षा में उनके अंकों का डेटा इकट्ठा किया। डेटा एक ढीले ऊपर जाते बादल जैसा दिख सकता है। आपकी सहज भावना उस बादल के बीच से एक रेखा खींचने की होती है — और यह सहज भावना बिल्कुल सही है।

यहां कुछ बिंदु हैं। ढाल और अंतःखंड स्लाइडरों का उपयोग करके इनमें से एक रेखा फ़िट करने की कोशिश करें:

ढाल (m)3

-510

अंतःखंड (b)40

-1030

y = 3x + 40

यह आज़माएं

इन डेटा बिंदुओं को नज़र से फ़िट करने की कोशिश करें:

(1, 45), (2, 50), (3, 55), (4, 58), (5, 65)
(6, 68), (7, 72), (8, 78), (9, 82), (10, 90)

ढाल लगभग 4-5 और अंतःखंड लगभग 40-42 सेट करें। “सबसे अच्छी फ़िट” रेखा सभी बिंदुओं से रेखा तक की कुल दूरी को कम से कम करती है।

भाग 2: रेखा को “सबसे अच्छी” क्या बनाता है?

आधिकारिक तरीके को न्यूनतम वर्ग प्रतिगमन (least squares regression) कहते हैं। हर डेटा बिंदु के लिए, आप बिंदु से रेखा तक की लंबवत दूरी मापते हैं — इसे अवशेष (residual) या त्रुटि कहते हैं। फिर हर अवशेष को वर्ग करके जोड़ते हैं। “सबसे अच्छी” रेखा वह है जो इस कुल को सबसे छोटा बनाती है।

\text{Total Error} = \sum (y_i - \hat{y}_i)^2

अवशेषों को वर्ग क्यों करते हैं? क्योंकि कुछ बिंदु रेखा के ऊपर (धनात्मक त्रुटि) और कुछ नीचे (ऋणात्मक त्रुटि) होते हैं। वर्ग करने से सभी धनात्मक हो जाते हैं ताकि वे एक-दूसरे को काट न दें।

जोड़

इसे ऐसे सोचें: अगर हर डेटा बिंदु से रेखा तक एक रबर बैंड जुड़ा हो, तो न्यूनतम वर्ग रेखा वह है जो सभी रबर बैंडों के कुल खिंचाव (वास्तव में खिंचाव का वर्ग) को कम से कम करती है।

भाग 3: ढाल और अंतःखंड — इनका क्या मतलब है

प्रतिगमन समीकरण y = mx + b में:

m (ढाल): x में हर 1 इकाई की वृद्धि पर, अनुमानित y में m का बदलाव होता है। अगर पढ़ाई-के-घंटे बनाम अंक के उदाहरण में m = 4.5 है, तो हर अतिरिक्त घंटे की पढ़ाई से परीक्षा में लगभग 4.5 अंक ज़्यादा का अनुमान लगाया जाता है।
b (अंतःखंड): जब x = 0 हो तब अनुमानित y। हमारे उदाहरण में, b = 42 का मतलब है कि 0 घंटे पढ़ने वाले छात्र का अनुमानित अंक 42 है। (यह हमेशा व्यावहारिक रूप से सही नहीं होता — विवेक से काम लें!)

ढाल (परिवर्तन की दर)4.5

अंतःखंड (प्रारंभिक मान)42

2060

\hat{y} = 4.5x + 42

यह आज़माएं

अनुमान लगाएं: अगर कोई छात्र 7 घंटे पढ़ता है, तो रेखा कितने अंकों का अनुमान देती है? ग्राफ़ पर x = 7 पर y का मान पढ़ें, या गणना करें: y = 4.5(7) + 42 = 73.5। ढाल बदलकर देखें कि अनुमान कैसे बदलता है!

भाग 4: सहसंबंध — प्रवृत्ति कितनी मज़बूत है?

सभी प्रकीर्ण आलेखों (scatter plots) में स्पष्ट रैखिक प्रवृत्ति नहीं होती। सहसंबंध (correlation) (जिसे r लिखते हैं) मापता है कि बिंदु एक रेखा के कितने करीब हैं:

r = 1: एकदम सही धनात्मक रैखिक संबंध (सभी बिंदु चढ़ती रेखा पर)
r = -1: एकदम सही ऋणात्मक रैखिक संबंध (सभी बिंदु उतरती रेखा पर)
r = 0: कोई रैखिक संबंध नहीं

शोर स्तर (कम = मजबूत सहसंबंध)0.5

जब शोर (noise) कम होता है, तो दोनों वक्र लगभग मिल जाते हैं — यह उच्च सहसंबंध (r करीब 1) है। शोर बढ़ाएं और लाल रेखा लहरा जाती है — सहसंबंध गिरता है।

जोड़

सहसंबंध का मतलब कारण नहीं है! सिर्फ़ इसलिए कि दो चीज़ें सहसंबद्ध हैं (गर्मियों में आइसक्रीम की बिक्री और डूबने की घटनाएं दोनों बढ़ती हैं) इसका मतलब यह नहीं कि एक दूसरे का कारण है। कोई छिपा हुआ कारक (गर्म मौसम) दोनों को बढ़ा सकता है। हमेशा सोचें कि सहसंबंध क्यों मौजूद है।

भाग 5: धनात्मक, ऋणात्मक और शून्य सहसंबंध

धनात्मक सहसंबंध: x बढ़ने पर y बढ़ता है (ज़्यादा पढ़ो, ज़्यादा अंक पाओ)
ऋणात्मक सहसंबंध: x बढ़ने पर y घटता है (ज़्यादा कक्षा छोड़ो, कम अंक पाओ)
शून्य सहसंबंध: x और y में कोई रैखिक संबंध नहीं (जूते का नंबर बनाम परीक्षा अंक)

सारांश

अवधारणा	इसका मतलब
सबसे अच्छी रेखा	वह रेखा जो कुल वर्ग त्रुटि को कम से कम करती है
ढाल (m)	x की प्रति इकाई y में कितना बदलाव होता है
अंतःखंड (b)	x = 0 पर अनुमानित y
सहसंबंध (r)	रैखिक संबंध की ताकत और दिशा (-1 से 1)
r^2	y के बदलाव का कितना हिस्सा x से समझाया जा सकता है

चुनौती

चुनौती: एक डेटासेट की सबसे अच्छी रेखा y = -2x + 100 है और r = -0.9 है।

क्या संबंध धनात्मक है या ऋणात्मक?
क्या सहसंबंध मज़बूत है या कमज़ोर?
x = 30 पर y का अनुमान लगाएं।
क्या x = 500 पर भविष्यवाणी पर भरोसा करना चाहिए? क्यों या क्यों नहीं?

रैखिक प्रतिगमन सांख्यिकी में सबसे ज़्यादा इस्तेमाल होने वाले उपकरणों में से एक है। घरों की कीमत का अनुमान लगाने से लेकर वैज्ञानिक प्रयोगों के विश्लेषण तक, विनम्र “सबसे अच्छी रेखा” हर जगह है।

परीक्षा दें