सांख्यिकी

सबसे अच्छी रेखा (Line of Best Fit)

आपके पास ग्राफ़ पर बिखरे हुए बहुत सारे डेटा बिंदु हैं। वे लगभग एक प्रवृत्ति (trend) दिखाते हैं, लेकिन बिल्कुल सीधी रेखा में नहीं हैं। उनके बीच सबसे अच्छी रेखा कैसे खींचें? यही रैखिक प्रतिगमन (linear regression) है।

भाग 1: नज़र से अनुमान लगाना

कल्पना करें कि आपने छात्रों के पढ़ाई के घंटे और परीक्षा में उनके अंकों का डेटा इकट्ठा किया। डेटा एक ढीले ऊपर जाते बादल जैसा दिख सकता है। आपकी सहज भावना उस बादल के बीच से एक रेखा खींचने की होती है — और यह सहज भावना बिल्कुल सही है।

यहां कुछ बिंदु हैं। ढाल और अंतःखंड स्लाइडरों का उपयोग करके इनमें से एक रेखा फ़िट करने की कोशिश करें:

ढाल (m)3
-510
अंतःखंड (b)40
-1030
y=3x+40y = 3x + 40
102030405060708090100
यह आज़माएं

इन डेटा बिंदुओं को नज़र से फ़िट करने की कोशिश करें:

  • (1, 45), (2, 50), (3, 55), (4, 58), (5, 65)
  • (6, 68), (7, 72), (8, 78), (9, 82), (10, 90)

ढाल लगभग 4-5 और अंतःखंड लगभग 40-42 सेट करें। “सबसे अच्छी फ़िट” रेखा सभी बिंदुओं से रेखा तक की कुल दूरी को कम से कम करती है।


भाग 2: रेखा को “सबसे अच्छी” क्या बनाता है?

आधिकारिक तरीके को न्यूनतम वर्ग प्रतिगमन (least squares regression) कहते हैं। हर डेटा बिंदु के लिए, आप बिंदु से रेखा तक की लंबवत दूरी मापते हैं — इसे अवशेष (residual) या त्रुटि कहते हैं। फिर हर अवशेष को वर्ग करके जोड़ते हैं। “सबसे अच्छी” रेखा वह है जो इस कुल को सबसे छोटा बनाती है।

Total Error=(yiy^i)2\text{Total Error} = \sum (y_i - \hat{y}_i)^2

अवशेषों को वर्ग क्यों करते हैं? क्योंकि कुछ बिंदु रेखा के ऊपर (धनात्मक त्रुटि) और कुछ नीचे (ऋणात्मक त्रुटि) होते हैं। वर्ग करने से सभी धनात्मक हो जाते हैं ताकि वे एक-दूसरे को काट न दें।

जोड़

इसे ऐसे सोचें: अगर हर डेटा बिंदु से रेखा तक एक रबर बैंड जुड़ा हो, तो न्यूनतम वर्ग रेखा वह है जो सभी रबर बैंडों के कुल खिंचाव (वास्तव में खिंचाव का वर्ग) को कम से कम करती है।


भाग 3: ढाल और अंतःखंड — इनका क्या मतलब है

प्रतिगमन समीकरण y = mx + b में:

ढाल (परिवर्तन की दर)4.5
08
अंतःखंड (प्रारंभिक मान)42
2060
y^=4.5x+42\hat{y} = 4.5x + 42
102030405060708090100110
यह आज़माएं

अनुमान लगाएं: अगर कोई छात्र 7 घंटे पढ़ता है, तो रेखा कितने अंकों का अनुमान देती है? ग्राफ़ पर x = 7 पर y का मान पढ़ें, या गणना करें: y = 4.5(7) + 42 = 73.5। ढाल बदलकर देखें कि अनुमान कैसे बदलता है!


भाग 4: सहसंबंध — प्रवृत्ति कितनी मज़बूत है?

सभी प्रकीर्ण आलेखों (scatter plots) में स्पष्ट रैखिक प्रवृत्ति नहीं होती। सहसंबंध (correlation) (जिसे r लिखते हैं) मापता है कि बिंदु एक रेखा के कितने करीब हैं:

शोर स्तर (कम = मजबूत सहसंबंध)0.5
05
2468-224681012141618202224वास्तविक प्रवृत्तिशोर के साथ

जब शोर (noise) कम होता है, तो दोनों वक्र लगभग मिल जाते हैं — यह उच्च सहसंबंध (r करीब 1) है। शोर बढ़ाएं और लाल रेखा लहरा जाती है — सहसंबंध गिरता है।

जोड़

सहसंबंध का मतलब कारण नहीं है! सिर्फ़ इसलिए कि दो चीज़ें सहसंबद्ध हैं (गर्मियों में आइसक्रीम की बिक्री और डूबने की घटनाएं दोनों बढ़ती हैं) इसका मतलब यह नहीं कि एक दूसरे का कारण है। कोई छिपा हुआ कारक (गर्म मौसम) दोनों को बढ़ा सकता है। हमेशा सोचें कि सहसंबंध क्यों मौजूद है।


भाग 5: धनात्मक, ऋणात्मक और शून्य सहसंबंध

-16-14-12-10-8-6-4-224681012141618202224-4-22468101214161820धनात्मक (r > 0)ऋणात्मक (r < 0)कोई नहीं (r = 0)

सारांश

अवधारणाइसका मतलब
सबसे अच्छी रेखावह रेखा जो कुल वर्ग त्रुटि को कम से कम करती है
ढाल (m)x की प्रति इकाई y में कितना बदलाव होता है
अंतःखंड (b)x = 0 पर अनुमानित y
सहसंबंध (r)रैखिक संबंध की ताकत और दिशा (-1 से 1)
r^2y के बदलाव का कितना हिस्सा x से समझाया जा सकता है
चुनौती

चुनौती: एक डेटासेट की सबसे अच्छी रेखा y = -2x + 100 है और r = -0.9 है।

  1. क्या संबंध धनात्मक है या ऋणात्मक?
  2. क्या सहसंबंध मज़बूत है या कमज़ोर?
  3. x = 30 पर y का अनुमान लगाएं।
  4. क्या x = 500 पर भविष्यवाणी पर भरोसा करना चाहिए? क्यों या क्यों नहीं?

रैखिक प्रतिगमन सांख्यिकी में सबसे ज़्यादा इस्तेमाल होने वाले उपकरणों में से एक है। घरों की कीमत का अनुमान लगाने से लेकर वैज्ञानिक प्रयोगों के विश्लेषण तक, विनम्र “सबसे अच्छी रेखा” हर जगह है।

परीक्षा दें