पर्यवेक्षित मशीन लर्निंग: क्या है, Algorithms उदाहरण के साथ

पर्यवेक्षित मशीन लर्निंग क्या है?

सुपरवाइज्ड मशीन लर्निंग एक एल्गोरिथ्म है जो लेबल किए गए प्रशिक्षण डेटा से सीखता है ताकि आपको अप्रत्याशित डेटा के लिए परिणामों की भविष्यवाणी करने में मदद मिल सके। पर्यवेक्षित शिक्षण में, आप मशीन को ऐसे डेटा का उपयोग करके प्रशिक्षित करते हैं जो अच्छी तरह से "लेबल" होता है। इसका मतलब है कि कुछ डेटा पहले से ही सही उत्तरों के साथ टैग किया गया है। इसकी तुलना पर्यवेक्षक या शिक्षक की उपस्थिति में सीखने से की जा सकती है।

सफलतापूर्वक निर्माण, स्केलिंग और तैनाती सही पर्यवेक्षित मशीन लर्निंग मॉडल को विकसित करने के लिए अत्यधिक कुशल डेटा वैज्ञानिकों की एक टीम से समय और तकनीकी विशेषज्ञता की आवश्यकता होती है। इसके अलावा, जानकारी वैज्ञानिक को पुनर्निर्माण करना होगा मॉडल यह सुनिश्चित करने के लिए कि दी गई जानकारी तब तक सत्य बनी रहे जब तक कि उसका डेटा परिवर्तित न हो जाए।

पर्यवेक्षित शिक्षण कैसे काम करता है

पर्यवेक्षित मशीन लर्निंग वांछित परिणाम प्राप्त करने के लिए प्रशिक्षण डेटा सेट का उपयोग करती है। इन डेटा सेट में इनपुट और सही आउटपुट होते हैं जो मॉडल को तेज़ी से सीखने में मदद करते हैं। उदाहरण के लिए, आप एक मशीन को प्रशिक्षित करना चाहते हैं जो आपको यह अनुमान लगाने में मदद करे कि आपको अपने कार्यस्थल से घर तक ड्राइव करने में कितना समय लगेगा।

यहाँ, आप लेबल किए गए डेटा का एक सेट बनाकर शुरू करते हैं। इस डेटा में शामिल हैं:

  • मौसम की स्थिति
  • दिन के समय
  • छुट्टियां

ये सभी विवरण इस सुपरवाइज्ड लर्निंग उदाहरण में आपके इनपुट हैं। आउटपुट वह समय है जो उस विशिष्ट दिन घर वापस आने में लगा।

पर्यवेक्षित मशीन लर्निंग कैसे काम करती है

आप सहज रूप से जानते हैं कि अगर बाहर बारिश हो रही है, तो आपको घर पहुंचने में ज़्यादा समय लगेगा। लेकिन मशीन को डेटा और सांख्यिकी की ज़रूरत होती है।

आइए कुछ सुपरवाइज्ड लर्निंग उदाहरण देखें कि आप इस उदाहरण का सुपरवाइज्ड लर्निंग मॉडल कैसे विकसित कर सकते हैं जो उपयोगकर्ता को यात्रा का समय निर्धारित करने में मदद करता है। पहली चीज़ जो आपको बनाने की ज़रूरत है वह है एक प्रशिक्षण सेट। इस प्रशिक्षण सेट में कुल यात्रा समय और मौसम, समय आदि जैसे संबंधित कारक शामिल होंगे। इस प्रशिक्षण सेट के आधार पर, आपकी मशीन देख सकती है कि बारिश की मात्रा और घर पहुँचने में लगने वाले समय के बीच सीधा संबंध है।

इसलिए, यह पता लगाता है कि जितनी ज़्यादा बारिश होगी, आपको अपने घर वापस जाने के लिए उतना ही ज़्यादा समय गाड़ी चलानी होगी। यह आपके काम से निकलने के समय और सड़क पर रहने के समय के बीच संबंध भी देख सकता है।

शाम के 6 बजे के जितना करीब आप होंगे, आपको घर पहुंचने में उतना ही अधिक समय लगेगा। आपकी मशीन आपके लेबल किए गए डेटा के साथ कुछ संबंध पा सकती है।

पर्यवेक्षित मशीन लर्निंग का कार्य
पर्यवेक्षित मशीन लर्निंग का कार्य

यह आपके डेटा मॉडल की शुरुआत है। यह इस बात पर असर डालना शुरू करता है कि बारिश लोगों के गाड़ी चलाने के तरीके को कैसे प्रभावित करती है। यह यह भी देखना शुरू करता है कि दिन के किसी खास समय में ज़्यादा लोग यात्रा करते हैं।

पर्यवेक्षित मशीन लर्निंग के प्रकार Algorithms

पर्यवेक्षित मशीन लर्निंग एल्गोरिदम के प्रकार निम्नलिखित हैं:

प्रतीपगमन

रिग्रेशन तकनीक प्रशिक्षण डेटा का उपयोग करके एकल आउटपुट मान की भविष्यवाणी करती है।

उदाहरण: आप प्रशिक्षण डेटा से घर की कीमत का अनुमान लगाने के लिए प्रतिगमन का उपयोग कर सकते हैं। इनपुट चर स्थानीयता, घर का आकार आदि होंगे।

ताकतआउटपुट की हमेशा एक संभाव्य व्याख्या होती है, और ओवरफिटिंग से बचने के लिए एल्गोरिथ्म को नियमित किया जा सकता है।

कमजोरियों: लॉजिस्टिक रिग्रेशन तब कमज़ोर हो सकता है जब कई या गैर-रैखिक निर्णय सीमाएँ हों। यह विधि लचीली नहीं है, इसलिए यह अधिक जटिल संबंधों को नहीं पकड़ पाती है।

संभार तन्त्र परावर्तन:

लॉजिस्टिक रिग्रेशन विधि का उपयोग स्वतंत्र चरों के दिए गए सेट के आधार पर असतत मूल्यों का अनुमान लगाने के लिए किया जाता है। यह आपको लॉगिट फ़ंक्शन में डेटा फ़िट करके किसी घटना के घटित होने की संभावना का अनुमान लगाने में मदद करता है। इसलिए, इसे लॉजिस्टिक रिग्रेशन के रूप में भी जाना जाता है। चूंकि यह संभावना का अनुमान लगाता है, इसलिए इसका आउटपुट मान 0 और 1 के बीच होता है।

यहाँ प्रतिगमन के कुछ प्रकार दिए गए हैं Algorithms

वर्गीकरण

वर्गीकरण का अर्थ है आउटपुट को एक वर्ग के अंदर समूहीकृत करना। यदि एल्गोरिथ्म इनपुट को दो अलग-अलग वर्गों में लेबल करने का प्रयास करता है, तो इसे बाइनरी वर्गीकरण कहा जाता है। दो से अधिक वर्गों के बीच चयन करना मल्टीक्लास वर्गीकरण कहलाता है।

उदाहरणयह निर्धारित करना कि कोई व्यक्ति ऋण का चूककर्ता होगा या नहीं।

ताकत: वर्गीकरण वृक्ष व्यवहार में बहुत अच्छा प्रदर्शन करता है

कमजोरियोंअप्रतिबंधित, व्यक्तिगत वृक्षों में ओवरफिटिंग की संभावना होती है।

यहाँ वर्गीकरण के कुछ प्रकार दिए गए हैं Algorithms

नैवे बेयस क्लासिफायर

नैवे बायेसियन मॉडल (NBN) बनाना आसान है और बड़े डेटासेट के लिए बहुत उपयोगी है। यह विधि एक पैरेंट और कई चाइल्ड वाले डायरेक्ट एसाइक्लिक ग्राफ़ से बनी है। यह अपने पैरेंट से अलग चाइल्ड नोड्स के बीच स्वतंत्रता मानता है।

निर्णय के पेड़

निर्णय वृक्ष उदाहरण को विशेषता मान के आधार पर छाँटकर वर्गीकृत करते हैं। इस विधि में, प्रत्येक मोड एक उदाहरण की विशेषता है। इसे वर्गीकृत किया जाना चाहिए, और प्रत्येक शाखा एक मान का प्रतिनिधित्व करती है जिसे नोड ग्रहण कर सकता है। यह वर्गीकरण के लिए व्यापक रूप से उपयोग की जाने वाली तकनीक है। इस विधि में, वर्गीकरण एक वृक्ष है जिसे निर्णय वृक्ष के रूप में जाना जाता है।

यह आपको वास्तविक मूल्यों (कार खरीदने की लागत, कॉलों की संख्या, कुल मासिक बिक्री, आदि) का अनुमान लगाने में मदद करता है।

समर्थन वेक्टर यंत्र

सपोर्ट वेक्टर मशीन (एसवीएम) 1990 में विकसित एक प्रकार का लर्निंग एल्गोरिदम है। यह विधि वैप निक द्वारा प्रस्तुत सांख्यिकीय शिक्षण सिद्धांत के परिणामों पर आधारित है।

SVM मशीनें कर्नेल फ़ंक्शन से भी निकटता से जुड़ी हुई हैं जो अधिकांश सीखने के कार्यों के लिए एक केंद्रीय अवधारणा है। कर्नेल फ्रेमवर्क और SVM का उपयोग विभिन्न क्षेत्रों में किया जाता है। इसमें मल्टीमीडिया सूचना पुनर्प्राप्ति, जैव सूचना विज्ञान और पैटर्न पहचान शामिल हैं।

पर्यवेक्षित बनाम अपर्यवेक्षित मशीन लर्निंग तकनीक

पर आधारित पर्यवेक्षित मशीन लर्निंग तकनीक अप्रशिक्षित मशीन लर्निंग तकनीक
इनपुट डेटा Algorithms लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है। Algorithms उन डेटा के विरुद्ध उपयोग किया जाता है जिन्हें लेबल नहीं किया गया है
अभिकलनात्मक जटिलता पर्यवेक्षित शिक्षण एक सरल विधि है। अपर्यवेक्षित शिक्षण कम्प्यूटेशनल रूप से जटिल है
शुद्धता अत्यंत सटीक एवं विश्वसनीय विधि. Less सटीक और विश्वसनीय विधि.

पर्यवेक्षित मशीन लर्निंग में चुनौतियाँ

पर्यवेक्षित मशीन लर्निंग में आने वाली चुनौतियाँ इस प्रकार हैं:

  • अप्रासंगिक इनपुट विशेषता मौजूद प्रशिक्षण डेटा गलत परिणाम दे सकता है
  • डेटा तैयार करना और पूर्व-प्रसंस्करण हमेशा एक चुनौती होती है।
  • जब असंभव, असंभाव्य और अपूर्ण मानों को प्रशिक्षण डेटा के रूप में इनपुट किया जाता है तो सटीकता प्रभावित होती है
  • यदि संबंधित विशेषज्ञ उपलब्ध नहीं है, तो दूसरा तरीका है "ब्रूट-फोर्स"। इसका मतलब है कि आपको मशीन को प्रशिक्षित करने के लिए सही विशेषताओं (इनपुट चर) के बारे में सोचना होगा। यह गलत हो सकता है।

पर्यवेक्षित शिक्षण के लाभ

पर्यवेक्षित मशीन लर्निंग के लाभ इस प्रकार हैं:

  • पर्यवेक्षित शिक्षण मशीन लर्निंग आपको पिछले अनुभव से डेटा एकत्र करने या डेटा आउटपुट तैयार करने की अनुमति देता है
  • अनुभव का उपयोग करके प्रदर्शन मानदंड को अनुकूलित करने में आपकी सहायता करता है
  • पर्यवेक्षित मशीन लर्निंग आपको विभिन्न प्रकार की वास्तविक दुनिया की संगणना समस्याओं को हल करने में मदद करती है।

पर्यवेक्षित शिक्षण के नुकसान

पर्यवेक्षित मशीन लर्निंग के नुकसान नीचे दिए गए हैं:

  • यदि आपके प्रशिक्षण सेट में ऐसे उदाहरण नहीं हैं जिन्हें आप कक्षा में रखना चाहते हैं तो निर्णय सीमा अधिक प्रशिक्षित हो सकती है
  • क्लासिफायर को प्रशिक्षित करते समय आपको प्रत्येक वर्ग से बहुत सारे अच्छे उदाहरणों का चयन करना होगा।
  • वर्गीकृत बड़ा डेटा एक वास्तविक चुनौती हो सकती है।
  • पर्यवेक्षित शिक्षण के लिए प्रशिक्षण में बहुत अधिक गणना समय की आवश्यकता होती है।

पर्यवेक्षित शिक्षण के लिए सर्वोत्तम अभ्यास

  • कुछ भी करने से पहले, आपको यह तय करना होगा कि प्रशिक्षण सेट के रूप में किस प्रकार के डेटा का उपयोग किया जाना है
  • आपको सीखे गए फ़ंक्शन और सीखने के एल्गोरिदम की संरचना तय करने की आवश्यकता है।
  • मानव विशेषज्ञों या मापों से संगत आउटपुट एकत्रित करें

सारांश

  • पर्यवेक्षित शिक्षण एल्गोरिदम में, आप मशीन को डेटा का उपयोग करके प्रशिक्षित करते हैं जो अच्छी तरह से "लेबल" किया गया है।
  • आप एक ऐसी मशीन को प्रशिक्षित करना चाहते हैं जो यह अनुमान लगाने में आपकी मदद करे कि आपको अपने कार्यस्थल से घर पहुंचने में कितना समय लगेगा, यह पर्यवेक्षित शिक्षण का एक उदाहरण है।
  • प्रतिगमन और वर्गीकरण पर्यवेक्षित मशीन लर्निंग एल्गोरिथम के दो आयाम हैं।
  • पर्यवेक्षित अध्ययन एक सरल विधि है, जबकि अपर्यवेक्षित शिक्षण एक जटिल विधि है।
  • पर्यवेक्षित शिक्षण में सबसे बड़ी चुनौती यह है कि प्रशिक्षण डेटा में अप्रासंगिक इनपुट विशेषता मौजूद होने से गलत परिणाम मिल सकते हैं।
  • पर्यवेक्षित शिक्षण का मुख्य लाभ यह है कि यह आपको डेटा एकत्र करने या पिछले अनुभव से डेटा आउटपुट तैयार करने की अनुमति देता है।
  • इस मॉडल का दोष यह है कि यदि आपके प्रशिक्षण सेट में वे उदाहरण नहीं हैं जिन्हें आप कक्षा में रखना चाहते हैं, तो निर्णय सीमा पर अत्यधिक दबाव पड़ सकता है।
  • पर्यवेक्षित शिक्षण के सर्वोत्तम अभ्यास के रूप में, आपको सबसे पहले यह तय करना होगा कि प्रशिक्षण सेट के रूप में किस प्रकार के डेटा का उपयोग किया जाना चाहिए।

इस पोस्ट को संक्षेप में इस प्रकार लिखें: