आर प्रोग्रामिंग में टी-टेस्ट: एक नमूना और युग्मित टी-टेस्ट [उदाहरण]
सांख्यिकीय अनुमान क्या है?
सांख्यिकीय अनुमान डेटा के वितरण के बारे में निष्कर्ष निकालने की कला है। एक डेटा वैज्ञानिक अक्सर ऐसे सवालों से रूबरू होता है जिनका जवाब केवल वैज्ञानिक रूप से ही दिया जा सकता है। इसलिए, सांख्यिकीय अनुमान यह जांचने की एक रणनीति है कि क्या कोई परिकल्पना सत्य है, यानी डेटा द्वारा मान्य है।
परिकल्पना का आकलन करने के लिए एक आम रणनीति टी-टेस्ट का संचालन करना है। टी-टेस्ट यह बता सकता है कि दो समूहों का माध्य समान है या नहीं। टी-टेस्ट को भी कहा जाता है छात्र परीक्षणटी-परीक्षण का अनुमान लगाया जा सकता है:
- एकल सदिश (अर्थात, एक-नमूना टी-परीक्षण)
- एक ही नमूना समूह से दो सदिश (अर्थात, युग्मित टी-परीक्षण)।
आप यह मान लें कि दोनों सदिश यादृच्छिक रूप से नमूनाकृत हैं, स्वतंत्र हैं तथा अज्ञात किन्तु समान प्रसरणों वाली सामान्य रूप से वितरित जनसंख्या से आते हैं।
आर प्रोग्रामिंग में टी-टेस्ट क्या है?
टी-टेस्ट के पीछे मूल विचार दो विपरीत परिकल्पनाओं का मूल्यांकन करने के लिए सांख्यिकी का उपयोग करना है:
- H0: शून्य परिकल्पना: औसत उपयोग किए गए नमूने के समान है
- H3: सत्य परिकल्पना: औसत उपयोग किए गए नमूने से भिन्न है
टी-टेस्ट का इस्तेमाल आम तौर पर छोटे सैंपल साइज़ के साथ किया जाता है। टी-टेस्ट करने के लिए, आपको डेटा की सामान्यता माननी होगी।
आर में टी-टेस्ट सिंटैक्स
R में t.test() का मूल सिंटैक्स है:
t.test(x, y = NULL,
mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
आर में एक नमूना टी-टेस्ट
वन सैंपल टी-टेस्ट, या छात्र परीक्षण, एक सदिश के माध्य की तुलना एक सैद्धांतिक माध्य से करता है, टी-परीक्षण की गणना के लिए प्रयुक्त सूत्र है:
यहाँ,
मतलब को संदर्भित करता है
सैद्धांतिक माध्य तक
- s मानक विचलन है
- n अवलोकनों की संख्या.
टी-परीक्षण के सांख्यिकीय महत्व का मूल्यांकन करने के लिए, आपको गणना करने की आवश्यकता है पी - मूल्य। पी - मूल्य 0 से 1 तक होता है, और इसकी व्याख्या इस प्रकार की जाती है:
- 0.05 से कम p-मान का अर्थ है कि आप शून्य परिकल्पना को अस्वीकार करने के प्रति पूरी तरह आश्वस्त हैं, अतः H3 स्वीकार किया जाता है।
- 0.05 से अधिक p-मान यह दर्शाता है कि आपके पास शून्य परिकल्पना को अस्वीकार करने के लिए पर्याप्त साक्ष्य नहीं हैं।
आप स्टूडेंट वितरण में टी-परीक्षण के संगत निरपेक्ष मान को देखकर पी-मान का निर्माण कर सकते हैं, जिसमें स्वतंत्रता की डिग्री बराबर होती है
उदाहरण के लिए, यदि आपके पास 5 अवलोकन हैं, तो आपको हमारे t-मान की तुलना 4 डिग्री स्वतंत्रता और 95 प्रतिशत विश्वास अंतराल के साथ स्टूडेंट वितरण में t-मान से करनी होगी। शून्य परिकल्पना को अस्वीकार करने के लिए, t-मान 2.77 से अधिक होना चाहिए।
नीचे दी गई तालिका देखें:
आर में एक नमूना टी-टेस्ट उदाहरण
मान लीजिए कि आप कुकीज़ बनाने वाली कंपनी हैं। प्रत्येक कुकी में 10 ग्राम चीनी होनी चाहिए। कुकीज़ एक मशीन द्वारा बनाई जाती हैं जो सब कुछ मिलाने से पहले एक कटोरे में चीनी डालती है। आपको लगता है कि मशीन प्रत्येक कुकी के लिए 10 ग्राम चीनी नहीं डालती है। यदि आपकी धारणा सही है, तो मशीन को ठीक करने की आवश्यकता है। आपने तीस कुकीज़ की चीनी का स्तर संग्रहीत किया।
नोट: आप rnorm() फ़ंक्शन के साथ एक यादृच्छिक वेक्टर बना सकते हैं। यह फ़ंक्शन सामान्य रूप से वितरित मान उत्पन्न करता है। मूल सिंटैक्स है:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
आप 30 प्रेक्षणों वाला एक वितरण बना सकते हैं जिसका माध्य 9.99 और मानक विचलन 0.04 हो।
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
आउटपुट:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
आप एक-नमूना टी-परीक्षण का उपयोग करके जाँच कर सकते हैं कि चीनी का स्तर नुस्खा से अलग है या नहीं। आप एक परिकल्पना परीक्षण कर सकते हैं:
- H0: शर्करा का औसत स्तर 10 के बराबर है
- H3: शुगर का औसत स्तर 10 से अलग है
आप 0.05 का महत्व स्तर उपयोग करते हैं।
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
यहाँ उत्पादन है:
एक सैंपल टी-टेस्ट का पी-वैल्यू 0.1079 और 0.05 से ऊपर है। आप 95% तक आश्वस्त हो सकते हैं कि मशीन द्वारा डाली गई चीनी की मात्रा 9.973 और 10.002 ग्राम के बीच है। आप शून्य (H0) परिकल्पना को अस्वीकार नहीं कर सकते। इस बात के पर्याप्त सबूत नहीं हैं कि मशीन द्वारा डाली गई चीनी की मात्रा नुस्खा के अनुसार नहीं है।
आर में युग्मित टी-परीक्षण
युग्मित टी-परीक्षण, या आश्रित नमूना टी-परीक्षण, का उपयोग तब किया जाता है जब उपचारित समूह का माध्य दो बार परिकलित किया जाता है। युग्मित टी-परीक्षण का मूल अनुप्रयोग है:
- ए / बी परीक्षण: दो वेरिएंट की तुलना करें
- केस नियंत्रण अध्ययन: उपचार से पहले/बाद में
आर में युग्मित टी-टेस्ट उदाहरण
एक पेय पदार्थ कंपनी बिक्री पर छूट कार्यक्रम के प्रदर्शन को जानने में रुचि रखती है। कंपनी ने अपनी एक दुकान की दैनिक बिक्री का अनुसरण करने का निर्णय लिया, जहाँ कार्यक्रम का प्रचार किया जा रहा है। कार्यक्रम के अंत में, कंपनी यह जानना चाहती है कि कार्यक्रम से पहले और बाद में दुकान की औसत बिक्री के बीच कोई सांख्यिकीय अंतर है या नहीं।
- कंपनी tracकार्यक्रम शुरू होने से पहले हमने प्रतिदिन बिक्री का आकलन किया। यह हमारा पहला कदम है।
- इस कार्यक्रम का प्रचार एक सप्ताह तक किया जाता है और बिक्री हर दिन दर्ज की जाती है। यह हमारा दूसरा वेक्टर है।
- आप कार्यक्रम की प्रभावशीलता का आकलन करने के लिए टी-टेस्ट करेंगे। इसे युग्मित टी-टेस्ट कहा जाता है क्योंकि दोनों वैक्टर के मान एक ही वितरण (यानी, एक ही दुकान) से आते हैं।
परिकल्पना परीक्षण इस प्रकार है:
- H0: माध्य में कोई अंतर नहीं
- H3: दोनों साधन अलग-अलग हैं
याद रखें, टी-टेस्ट में एक धारणा अज्ञात लेकिन समान विचरण है। वास्तव में, डेटा का माध्य बराबर नहीं होता है, और यह टी-टेस्ट के लिए गलत परिणाम देता है।
समान विचरण धारणा को शिथिल करने का एक समाधान वेल्च परीक्षण का उपयोग करना है। R मानता है कि दो विचरण डिफ़ॉल्ट रूप से समान नहीं हैं। आपके डेटासेट में, दोनों सदिशों का विचरण समान है, आप var.equal= TRUE सेट कर सकते हैं।
आप कार्यक्रम के बाद बिक्री के लिए उच्च माध्य वाले गाऊसी वितरण से दो यादृच्छिक सदिश बनाते हैं।
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
आपको 0.04606 का p-value मिला, जो 0.05 की सीमा से कम है। आप निष्कर्ष निकालते हैं कि दोनों समूहों के औसत में काफी अंतर है। कार्यक्रम दुकानों की बिक्री में सुधार करता है।
सारांश
- सांख्यिकीय अनुमान डेटा के वितरण के बारे में निष्कर्ष निकालने की कला है।
- टी-टेस्ट अनुमानात्मक सांख्यिकी के परिवार से संबंधित है। इसका उपयोग आमतौर पर यह पता लगाने के लिए किया जाता है कि दो समूहों के माध्य के बीच कोई सांख्यिकीय अंतर है या नहीं।
- वन सैंपल टी-टेस्ट, या छात्र परीक्षण, एक सदिश के माध्य की तुलना सैद्धांतिक माध्य से करता है।
- युग्मित टी-परीक्षण, या आश्रित नमूना टी-परीक्षण, का उपयोग तब किया जाता है जब उपचारित समूह का माध्य दो बार गणना किया जाता है।
हम नीचे दी गई तालिका में टी-परीक्षण को संक्षेप में प्रस्तुत कर सकते हैं:
| टेस्ट | परीक्षण हेतु परिकल्पना | पी - मूल्य | Code | वैकल्पिक तर्क |
|---|---|---|---|---|
| एक-नमूना टी-परीक्षण | एक सदिश का माध्य सैद्धांतिक माध्य से भिन्न होता है | 0.05 |
t.test(x, mu = mean) |
|
| युग्मित नमूना टी-परीक्षण | समान समूह के लिए माध्य A, माध्य B से भिन्न है | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
यदि हम मानते हैं कि प्रसरण बराबर हैं, तो हमें पैरामीटर var.equal= TRUE बदलने की आवश्यकता है।




