मशीन लर्निंग में भ्रम मैट्रिक्स उदाहरण के साथ
कन्फ्यूजन मैट्रिक्स क्या है?
कन्फ्यूजन मैट्रिक्स मशीन लर्निंग वर्गीकरण के लिए एक प्रदर्शन माप तकनीक है। यह एक प्रकार की तालिका है जो आपको परीक्षण डेटा के एक सेट पर वर्गीकरण मॉडल के प्रदर्शन को जानने में मदद करती है ताकि सही मान ज्ञात हो सकें। कन्फ्यूजन मैट्रिक्स शब्द अपने आप में बहुत सरल है, लेकिन इससे संबंधित शब्दावली थोड़ी भ्रामक हो सकती है। यहाँ, इस तकनीक के लिए कुछ सरल व्याख्या दी गई है।
भ्रम मैट्रिक्स के चार परिणाम
भ्रम मैट्रिक्स वास्तविक और अनुमानित वर्गों की तुलना करके क्लासिफायर की सटीकता को दर्शाता है। बाइनरी भ्रम मैट्रिक्स वर्गों से बना है:

- टीपी: सत्य सकारात्मक: पूर्वानुमानित मान वास्तविक सकारात्मक के रूप में सही ढंग से पूर्वानुमानित
- एफपी: पूर्वानुमानित मूल्यों ने वास्तविक सकारात्मक की गलत भविष्यवाणी की। यानी, नकारात्मक मूल्यों को सकारात्मक के रूप में पूर्वानुमानित किया गया
- FN: गलत नकारात्मक: सकारात्मक मानों की नकारात्मक के रूप में भविष्यवाणी की गई
- टीएन: सत्य नकारात्मक: पूर्वानुमानित मान वास्तविक नकारात्मक के रूप में सही ढंग से पूर्वानुमानित
आप गणना कर सकते हैं सटीकता परीक्षण भ्रम मैट्रिक्स से:
भ्रम मैट्रिक्स का उदाहरण
कन्फ्यूजन मैट्रिक्स एक उपयोगी मशीन लर्निंग विधि है जो आपको रिकॉल, प्रेसिजन, एक्यूरेसी और AUC-ROC कर्व को मापने की अनुमति देती है। नीचे ट्रू पॉजिटिव, ट्रू नेगेटिव, फाल्स नेगेटिव और ट्रू नेगेटिव शब्दों को जानने के लिए एक उदाहरण दिया गया है।
सही सकारात्मक:
आपने सकारात्मक भविष्यवाणी की और वह सच साबित हुई। उदाहरण के लिए, आपने भविष्यवाणी की थी कि फ्रांस विश्व कप जीतेगा और वह जीत गया।
सच्चा नकारात्मक:
जब आपने नकारात्मक भविष्यवाणी की थी, और यह सच है। आपने भविष्यवाणी की थी कि इंग्लैंड नहीं जीतेगा और वह हार गया।
सकारात्मक झूठी:
आपकी भविष्यवाणी सकारात्मक है, और यह गलत भी है।
आपने भविष्यवाणी की थी कि इंग्लैंड जीतेगा, लेकिन वह हार गया।
मिथ्या नकारात्मक:
आपकी भविष्यवाणी नकारात्मक है और परिणाम यह भी गलत है।
आपने भविष्यवाणी की थी कि फ्रांस नहीं जीतेगा, लेकिन वह जीत गया।
आपको याद रखना चाहिए कि हम पूर्वानुमानित मानों को सत्य या असत्य या धनात्मक और ऋणात्मक के रूप में वर्णित करते हैं।
कन्फ्यूजन मैट्रिक्स की गणना कैसे करें
यहाँ, भ्रम मैट्रिक्स की गणना के लिए चरण दर चरण प्रक्रिया है आँकड़ा खनन
- चरण 1) सबसे पहले, आपको डेटासेट को उसके अपेक्षित परिणाम मानों के साथ परीक्षण करना होगा।
- चरण 2) परीक्षण डेटासेट में सभी पंक्तियों की भविष्यवाणी करें।
- चरण 3) अपेक्षित पूर्वानुमानों और परिणामों की गणना करें:
- प्रत्येक वर्ग की सही भविष्यवाणियों का योग।
- प्रत्येक वर्ग की गलत भविष्यवाणियों का योग।
इसके बाद, इन संख्याओं को नीचे दी गई विधियों से व्यवस्थित किया जाता है:
- मैट्रिक्स की प्रत्येक पंक्ति एक पूर्वानुमानित वर्ग से जुड़ती है।
- मैट्रिक्स का प्रत्येक कॉलम एक वास्तविक वर्ग से मेल खाता है।
- सही और गलत वर्गीकरण की कुल संख्या तालिका में दर्ज की गई है।
- किसी वर्ग के लिए सही भविष्यवाणियों का योग उस वर्ग मान के लिए पूर्वानुमानित स्तंभ और अपेक्षित पंक्ति में चला जाता है।
- किसी वर्ग के लिए गलत पूर्वानुमानों का योग उस वर्ग मान के लिए अपेक्षित पंक्ति में तथा उस विशिष्ट वर्ग मान के लिए पूर्वानुमानित स्तंभ में चला जाता है।
भ्रम मैट्रिक्स का उपयोग करते हुए अन्य महत्वपूर्ण शब्द
- सकारात्मक पूर्वानुमानात्मक मूल्य (पीवीवी): यह सटीकता के बहुत करीब है। दो-अवधि के बीच एक महत्वपूर्ण अंतर यह है कि PVV व्यापकता पर विचार करता है। ऐसी स्थिति में जहां कक्षाएं पूरी तरह से संतुलित हैं, सकारात्मक पूर्वानुमान मूल्य सटीकता के समान है।
- शून्य त्रुटि दर: इस शब्द का उपयोग यह परिभाषित करने के लिए किया जाता है कि यदि आप बहुसंख्यक वर्ग की भविष्यवाणी कर सकते हैं तो आपकी भविष्यवाणी कितनी बार गलत होगी। आप इसे अपने क्लासिफायर की तुलना करने के लिए एक बेसलाइन मीट्रिक के रूप में मान सकते हैं।
- एफ स्कोर: एफ1 स्कोर सच्चे सकारात्मक (रिकॉल) और परिशुद्धता का भारित औसत स्कोर है।
- रॉक वक्र: रॉक वक्र विभिन्न कट पॉइंट पर झूठी सकारात्मक दर के विरुद्ध सच्ची सकारात्मक दर दिखाता है। यह संवेदनशीलता (रिकॉल और विशिष्टता या सच्ची नकारात्मक दर) के बीच व्यापार-बंद को भी प्रदर्शित करता है।
- प्रेसिजन: परिशुद्धता मीट्रिक सकारात्मक वर्ग की सटीकता को दर्शाता है। यह मापता है कि सकारात्मक वर्ग की भविष्यवाणी कितनी सही है।
अधिकतम स्कोर 1 होता है जब क्लासिफायर सभी सकारात्मक मानों को पूरी तरह से वर्गीकृत करता है। अकेले परिशुद्धता बहुत मददगार नहीं है क्योंकि यह नकारात्मक वर्ग को अनदेखा करता है। मीट्रिक को आमतौर पर रिकॉल मीट्रिक के साथ जोड़ा जाता है। रिकॉल को संवेदनशीलता या सच्ची सकारात्मक दर भी कहा जाता है।
- संवेदनशीलतासंवेदनशीलता सही ढंग से पहचाने गए सकारात्मक वर्गों के अनुपात की गणना करती है। यह मीट्रिक बताता है कि मॉडल सकारात्मक वर्ग को पहचानने में कितना अच्छा है।
आपको कन्फ्यूजन मैट्रिक्स की आवश्यकता क्यों है?
यहां भ्रम मैट्रिक्स का उपयोग करने के पक्ष/लाभ दिए गए हैं।
- यह दर्शाता है कि कोई भी वर्गीकरण मॉडल भविष्यवाणियां करते समय किस प्रकार भ्रमित हो जाता है।
- भ्रम मैट्रिक्स न केवल आपको आपके क्लासिफायर द्वारा की जा रही त्रुटियों के बारे में जानकारी देता है, बल्कि यह भी बताता है कि किस प्रकार की त्रुटियां की जा रही हैं।
- यह विश्लेषण आपको अकेले वर्गीकरण सटीकता का उपयोग करने की सीमा पर काबू पाने में मदद करता है।
- भ्रम मैट्रिक्स का प्रत्येक स्तंभ उस पूर्वानुमानित वर्ग के उदाहरणों का प्रतिनिधित्व करता है।
- भ्रम मैट्रिक्स की प्रत्येक पंक्ति वास्तविक वर्ग के उदाहरणों का प्रतिनिधित्व करती है।
- यह न केवल वर्गीकारक द्वारा की गई त्रुटियों की जानकारी प्रदान करता है, बल्कि की जा रही त्रुटियों की भी जानकारी प्रदान करता है।


