शीर्ष 50 डेटा विज्ञान साक्षात्कार प्रश्न और उत्तर (पीडीएफ)

यहां नए और अनुभवी उम्मीदवारों के लिए डेटा साइंस साक्षात्कार प्रश्न और उत्तर दिए गए हैं ताकि वे अपने सपनों की नौकरी पा सकें।

फ्रेशर्स के लिए डेटा साइंस साक्षात्कार प्रश्न

1. डेटा साइंस क्या है?

डेटा साइंस अध्ययन का वह क्षेत्र है जिसमें पूर्व-प्राप्य सामग्री शामिल होती है।tracडेटा साइंस विभिन्न वैज्ञानिक विधियों, एल्गोरिदम और प्रक्रियाओं का उपयोग करके विशाल मात्रा में डेटा से अंतर्दृष्टि प्राप्त करता है। यह आपको कच्चे डेटा से छिपे हुए पैटर्न को खोजने में मदद करता है। गणितीय सांख्यिकी, डेटा विश्लेषण और बिग डेटा के विकास के कारण डेटा साइंस शब्द का उदय हुआ है।

2. डेटा साइंस और मशीन लर्निंग में क्या अंतर है?

डाटा विज्ञान एल्गोरिदम, उपकरण और मशीन लर्निंग तकनीक का एक संयोजन है जो आपको दिए गए कच्चे डेटा से सामान्य छिपे हुए पैटर्न को खोजने में मदद करता है। जबकि मशीन लर्निंग कंप्यूटर विज्ञान की एक शाखा है, जो अनुभव के साथ स्वचालित रूप से सीखने और सुधारने के लिए सिस्टम प्रोग्रामिंग से संबंधित है।

डाटा विज्ञान

3. नमूनाकरण के दौरान होने वाले तीन प्रकार के पूर्वाग्रहों के नाम बताइए

नमूनाकरण प्रक्रिया में तीन प्रकार के पूर्वाग्रह होते हैं:

चयन पक्षपात
कवरेज के अंतर्गत पूर्वाग्रह
सर्वाइवरशिप के पक्ष में

4. निर्णय वृक्ष एल्गोरिथ्म पर चर्चा करें

निर्णय वृक्ष एक लोकप्रिय पर्यवेक्षित मशीन लर्निंग एल्गोरिदम है। इसका उपयोग मुख्य रूप से प्रतिगमन और वर्गीकरण के लिए किया जाता है। यह डेटासेट को छोटे उपसमूहों में विभाजित करने की अनुमति देता है। निर्णय वृक्ष श्रेणीबद्ध और संख्यात्मक दोनों डेटा को संभालने में सक्षम है।

5. पूर्व संभाव्यता और संभावना क्या है?

पूर्व संभाव्यता डेटा सेट में आश्रित चर का अनुपात है जबकि संभावना किसी अन्य चर की उपस्थिति में किसी दिए गए पर्यवेक्षक को वर्गीकृत करने की संभावना है।

6. अनुशंसा प्रणाली की व्याख्या करें?

यह सूचना फ़िल्टरिंग तकनीकों का एक उपवर्ग है। यह आपको उन वरीयताओं या रेटिंग का अनुमान लगाने में मदद करता है जो उपयोगकर्ता किसी उत्पाद को देने की संभावना रखते हैं।

7. रैखिक मॉडल का उपयोग करने के तीन नुकसान बताइए

रेखीय मॉडल के तीन नुकसान हैं:

त्रुटियों की रैखिकता की धारणा.
आप इस मॉडल का उपयोग बाइनरी या गणना परिणामों के लिए नहीं कर सकते
बहुत सी ओवरफिटिंग समस्याएं हैं जिन्हें यह हल नहीं कर सकता

8. आपको पुनः नमूनाकरण की आवश्यकता क्यों है?

पुनः नमूनाकरण नीचे दिए गए मामलों में किया जाता है:

डेटा बिंदु के एक सेट से प्रतिस्थापन के साथ यादृच्छिक रूप से ड्राइंग करके या सुलभ डेटा के उपसमूह के रूप में उपयोग करके नमूना सांख्यिकी की सटीकता का अनुमान लगाना
आवश्यक परीक्षण करते समय डेटा बिंदुओं पर लेबल प्रतिस्थापित करना
यादृच्छिक उपसमूहों का उपयोग करके मॉडल को मान्य करना

9. पुस्तकालयों की सूची बनाएं Python डेटा विश्लेषण और वैज्ञानिक संगणना के लिए उपयोग किया जाता है।

SciPy
पांडा
matplotlib
Numpy
साइकिट
समुद्र में रहनेवाला

10. पावर विश्लेषण क्या है?

शक्ति विश्लेषण प्रयोगात्मक डिजाइन का एक अभिन्न अंग है। यह आपको एक विशिष्ट स्तर के आश्वासन के साथ किसी कारण से दिए गए आकार के प्रभाव का पता लगाने के लिए आवश्यक नमूना आकार निर्धारित करने में मदद करता है। यह आपको नमूना आकार की बाधा में एक विशेष संभावना को तैनात करने की भी अनुमति देता है।

11. सहयोगात्मक फ़िल्टरिंग की व्याख्या करें

सहयोगात्मक फ़िल्टरिंग का उपयोग सहयोगात्मक दृष्टिकोण, एकाधिक डेटा स्रोतों और विभिन्न एजेंटों द्वारा सही पैटर्न की खोज के लिए किया जाता है।

12. पूर्वाग्रह क्या है?

पूर्वाग्रह एक त्रुटि है जो मशीन लर्निंग एल्गोरिदम के अति सरलीकरण के कारण आपके मॉडल में आ जाती है।" इससे अंडरफिटिंग हो सकती है।

13. नैवे बेयस एल्गोरिथम में 'नैवे' पर चर्चा करें?

नैवे बेयस एल्गोरिथम मॉडल बेयस प्रमेय पर आधारित है। यह किसी घटना की संभावना का वर्णन करता है। यह उन स्थितियों के पूर्व ज्ञान पर आधारित है जो उस विशिष्ट घटना से संबंधित हो सकती हैं।

14. रैखिक प्रतिगमन क्या है?

रैखिक प्रतिगमन एक सांख्यिकीय प्रोग्रामिंग विधि है, जिसमें एक चर 'A' के स्कोर का पूर्वानुमान दूसरे चर 'B' के स्कोर से लगाया जाता है। B को भविष्यवक्ता चर और A को मानदंड चर कहा जाता है।

15. अपेक्षित मूल्य और औसत मूल्य के बीच अंतर बताएं

इनमें बहुत ज़्यादा अंतर नहीं है, लेकिन इन दोनों शब्दों का इस्तेमाल अलग-अलग संदर्भों में किया जाता है। माध्य मान का इस्तेमाल आम तौर पर तब किया जाता है जब आप संभाव्यता वितरण पर चर्चा कर रहे होते हैं जबकि अपेक्षित मान का इस्तेमाल यादृच्छिक चर के संदर्भ में किया जाता है।

16. ए/बी परीक्षण आयोजित करने का उद्देश्य क्या है?

एबी परीक्षण का उपयोग दो चर, ए और बी के साथ यादृच्छिक प्रयोग करने के लिए किया जाता है। इस परीक्षण पद्धति का लक्ष्य किसी रणनीति के परिणाम को अधिकतम या बढ़ाने के लिए वेब पेज में परिवर्तन का पता लगाना है।

17. एनसेम्बल लर्निंग क्या है?

एनसेंबल सीखने की एक विधि है जिसमें मॉडल की स्थिरता और पूर्वानुमान क्षमता में सुधार करने के लिए विभिन्न प्रकार के शिक्षार्थियों को एक साथ जोड़ा जाता है। एनसेंबल सीखने की दो विधियाँ हैं:

ऊलजलूल का कपड़ा

बैगिंग विधि आपको छोटे नमूना आबादी पर समान शिक्षार्थियों को लागू करने में मदद करती है। यह आपको निकट भविष्यवाणियां करने में मदद करती है।

बढ़ाने

बूस्टिंग एक पुनरावृत्त विधि है जो आपको अंतिम वर्गीकरण के आधार पर किसी अवलोकन के भार को समायोजित करने की अनुमति देती है। बूस्टिंग पूर्वाग्रह त्रुटि को कम करता है और आपको मजबूत भविष्य कहनेवाला मॉडल बनाने में मदद करता है।

18. आइजेनवैल्यू और आइजेनवेक्टर की व्याख्या करें

आइगेनवेक्टर रैखिक रूपांतरणों को समझने के लिए उपयोगी होते हैं। डेटा वैज्ञानिकों को सहप्रसरण मैट्रिक्स या सहसंबंध मैट्रिक्स के लिए आइगेनवेक्टर की गणना करने की आवश्यकता होती है। आइगेनवैल्यू विशिष्ट रैखिक रूपांतरण क्रियाओं द्वारा संपीड़न, पलटने आदि के माध्यम से दिशाएँ दर्शाते हैं।ping, या स्ट्रेचिंग।

19. क्रॉस-वैलिडेशन शब्द को परिभाषित करें

क्रॉस-वैलिडेशन एक वैलिडेशन तकनीक है जो यह मूल्यांकन करती है कि सांख्यिकीय विश्लेषण के परिणाम स्वतंत्र डेटासेट के लिए कैसे सामान्यीकृत होंगे। इस पद्धति का उपयोग उन पृष्ठभूमियों में किया जाता है जहाँ उद्देश्य पूर्वानुमान होता है, और किसी को यह अनुमान लगाने की आवश्यकता होती है कि मॉडल कितनी सटीकता से पूरा होगा।

20. डेटा एनालिटिक्स प्रोजेक्ट के चरणों की व्याख्या करें

एनालिटिक्स परियोजना में निम्नलिखित महत्वपूर्ण चरण शामिल हैं:

व्यावसायिक समस्या को समझें
डेटा का अन्वेषण करें और उसका ध्यानपूर्वक अध्ययन करें।
लुप्त मानों को ढूंढकर और चरों को रूपांतरित करके मॉडलिंग के लिए डेटा तैयार करें।
मॉडल चलाना शुरू करें और बिग डेटा परिणाम का विश्लेषण करें।
नये डेटा सेट के साथ मॉडल को मान्य करें.
मॉडल को लागू करें और tracकिसी विशिष्ट अवधि के लिए मॉडल के प्रदर्शन का विश्लेषण करने के लिए परिणाम का उपयोग करें।

21. कृत्रिम तंत्रिका नेटवर्क पर चर्चा करें

कृत्रिम तंत्रिका नेटवर्क (एएनएन) एल्गोरिदम का एक विशेष समूह है जिसमें revolutआयोनाइज्ड मशीन लर्निंग। यह आपको बदलते इनपुट के अनुसार अनुकूलित होने में मदद करता है। इस प्रकार नेटवर्क आउटपुट मानदंडों को पुनः डिज़ाइन किए बिना सर्वोत्तम संभव परिणाम उत्पन्न करता है।

22. बैक प्रोपेगेशन क्या है?

बैक-प्रोपेगेशन न्यूरल नेट ट्रेनिंग का सार है। यह न्यूरल नेट के भार को ट्यून करने की विधि है जो पिछले युग में प्राप्त त्रुटि दर पर निर्भर करता है। उचित ट्यूनिंग आपको त्रुटि दरों को कम करने और इसके सामान्यीकरण को बढ़ाकर मॉडल को विश्वसनीय बनाने में मदद करती है।

23. रैंडम फ़ॉरेस्ट क्या है?

रैंडम फ़ॉरेस्ट एक मशीन लर्निंग विधि है जो आपको सभी प्रकार के प्रतिगमन और वर्गीकरण कार्यों को करने में मदद करती है। इसका उपयोग लापता मूल्यों और आउटलायर मूल्यों के उपचार के लिए भी किया जाता है।

24. चयन पूर्वाग्रह का क्या महत्व है?

चयन पूर्वाग्रह तब होता है जब विश्लेषण के लिए व्यक्तियों या समूहों या डेटा को चुनते समय कोई विशिष्ट यादृच्छिकरण प्राप्त नहीं होता है। यह सुझाव देता है कि दिया गया नमूना उस जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है जिसका विश्लेषण किया जाना था।

25. K-मीन्स क्लस्टरिंग विधि क्या है?

के-मीन्स क्लस्टरिंग एक महत्वपूर्ण अनसुपरवाइज्ड लर्निंग विधि है। यह डेटा को वर्गीकृत करने की एक तकनीक है जिसमें कुछ निश्चित क्लस्टरों का उपयोग किया जाता है, जिन्हें के क्लस्टर कहा जाता है। इसका उपयोग समूहों के लिए किया जाता है।ping आंकड़ों में समानता का पता लगाने के लिए।

अनुभवी लोगों के लिए डेटा साइंटिस्ट साक्षात्कार प्रश्न

26. डेटा साइंस और डेटा एनालिटिक्स के बीच अंतर बताएं

डेटा वैज्ञानिकों को डेटा को अलग-अलग भागों में बांटने की आवश्यकता होती है ताकि वे निष्कर्ष निकाल सकें।tracडेटा विश्लेषक ऐसे बहुमूल्य निष्कर्ष निकाल सकते हैं जिन्हें वे वास्तविक व्यावसायिक परिदृश्यों में लागू कर सकते हैं। इन दोनों में मुख्य अंतर यह है कि डेटा वैज्ञानिकों के पास व्यावसायिक विश्लेषक की तुलना में अधिक तकनीकी ज्ञान होता है। इसके अलावा, उन्हें डेटा विज़ुअलाइज़ेशन के लिए आवश्यक व्यवसाय की समझ की आवश्यकता नहीं होती है।

27. p-मान की व्याख्या करें?

जब आप सांख्यिकी में परिकल्पना परीक्षण करते हैं, तो p-value आपको अपने परिणामों की ताकत निर्धारित करने की अनुमति देता है। यह 0 और 1 के बीच की एक संख्यात्मक संख्या है। मान के आधार पर यह आपको विशिष्ट परिणाम की ताकत को दर्शाने में मदद करेगा।

28. डीप लर्निंग शब्द को परिभाषित करें

डीप लर्निंग मशीन लर्निंग का एक उपप्रकार है। यह कृत्रिम तंत्रिका नेटवर्क (ANN) नामक संरचना से प्रेरित एल्गोरिदम से संबंधित है।

29. मौसम की स्थिति का पूर्वानुमान लगाने के लिए सोशल मीडिया का उपयोग करने हेतु डेटा एकत्र करने और उसका विश्लेषण करने की विधि बताएं।

आप फेसबुक, ट्विटर, इंस्टाग्राम के एपीआई का उपयोग करके सोशल मीडिया डेटा एकत्र कर सकते हैं। उदाहरण के लिए, ट्वीटर के लिए, हम प्रत्येक ट्वीट से एक फीचर बना सकते हैं जैसे ट्वीट की तारीख, रीट्वीट, फॉलोअर की सूची, आदि। फिर आप मौसम की स्थिति का अनुमान लगाने के लिए मल्टीवेरिएट टाइम सीरीज़ मॉडल का उपयोग कर सकते हैं।

30. डेटा विज्ञान में आपको एल्गोरिदम को कब अपडेट करने की आवश्यकता होती है?

आपको निम्नलिखित स्थिति में एल्गोरिथ्म को अपडेट करने की आवश्यकता है:

आप चाहते हैं कि आपका डेटा मॉडल बुनियादी ढांचे का उपयोग करके डेटा स्ट्रीम के रूप में विकसित हो
अंतर्निहित डेटा स्रोत बदल रहा हैयदि यह गैर-स्थिरता है

31. सामान्य वितरण क्या है

सामान्य वितरण एक सतत चर का एक सेट है जो एक सामान्य वक्र या घंटी वक्र के आकार में फैला होता है। आप इसे एक सतत संभाव्यता वितरण के रूप में मान सकते हैं जो सांख्यिकी में उपयोगी है। जब हम सामान्य वितरण वक्र का उपयोग कर रहे होते हैं तो चर और उनके संबंधों का विश्लेषण करना उपयोगी होता है।

32. टेक्स्ट एनालिटिक्स के लिए कौन सी भाषा सबसे अच्छी है? Python?

Python यह टेक्स्ट एनालिटिक्स के लिए अधिक उपयुक्त होगा क्योंकि इसमें पांडा नामक एक समृद्ध लाइब्रेरी शामिल है। यह आपको उच्च-स्तरीय उपयोग करने की अनुमति देता है डेटा विश्लेषण उपकरण और डेटा संरचनाएं, जबकि आर यह सुविधा प्रदान नहीं करता है।

33. डेटा वैज्ञानिकों द्वारा सांख्यिकी के उपयोग के लाभों की व्याख्या करें

सांख्यिकी डेटा वैज्ञानिक को ग्राहक की अपेक्षाओं का बेहतर अंदाजा लगाने में मदद करती है। सांख्यिकी पद्धति का उपयोग करके डेटा वैज्ञानिक उपभोक्ता की रुचि, व्यवहार, जुड़ाव, प्रतिधारण आदि के बारे में जानकारी प्राप्त कर सकते हैं। यह आपको कुछ अनुमानों और भविष्यवाणियों को मान्य करने के लिए शक्तिशाली डेटा मॉडल बनाने में भी मदद करता है।

34. डीप लर्निंग फ्रेमवर्क के विभिन्न प्रकारों के नाम बताइए

पाइटरॉच
Microsoft संज्ञानात्मक टूलकिट
TensorFlow
Caffe
चैनेर
Keras

35.ऑटो-एनकोडर की व्याख्या करें

ऑटोएनकोडर लर्निंग नेटवर्क हैं। यह आपको इनपुट को कम त्रुटियों के साथ आउटपुट में बदलने में मदद करता है। इसका मतलब है कि आप आउटपुट को इनपुट के जितना संभव हो उतना करीब ला पाएंगे।

36. बोल्ट्ज़मैन मशीन को परिभाषित करें

बोल्ट्ज़मैन मशीन एक सरल लर्निंग एल्गोरिदम है। यह आपको उन विशेषताओं को खोजने में मदद करता है जो प्रशिक्षण डेटा में जटिल नियमितताओं का प्रतिनिधित्व करते हैं। यह एल्गोरिदम आपको दी गई समस्या के लिए भार और मात्रा को अनुकूलित करने की अनुमति देता है।

37. बताएं कि डेटा क्लीन्ज़िंग क्यों ज़रूरी है और डेटा को साफ़ रखने के लिए आप कौन सी विधि अपनाते हैं

गंदे डेटा से अक्सर गलत जानकारी सामने आती है, जो किसी भी संगठन की संभावनाओं को नुकसान पहुंचा सकती है। उदाहरण के लिए, यदि आप एक लक्षित विपणन अभियान चलाना चाहते हैं। हालाँकि, हमारा डेटा आपको गलत तरीके से बताता है कि एक विशिष्ट उत्पाद आपके लक्षित दर्शकों के बीच मांग में होगा; अभियान विफल हो जाएगा।

38. विषम वितरण और समान वितरण क्या है?

विषम वितरण तब होता है जब डेटा प्लॉट के किसी एक तरफ वितरित होता है, जबकि समान वितरण तब पहचाना जाता है जब डेटा का फैलाव सीमा में समान होता है।

39. स्थैतिक मॉडल में अंडरफिटिंग कब होती है?

अंडरफिटिंग तब होती है जब एक सांख्यिकीय मॉडल या मशीन लर्निंग एल्गोरिदम डेटा की अंतर्निहित प्रवृत्ति को पकड़ने में सक्षम नहीं होता है।

40. सुदृढीकरण सीखना क्या है?

सुदृढीकरण सीखना एक सीखने की प्रणाली है कि परिस्थितियों को क्रियाओं से कैसे जोड़ा जाए। अंतिम परिणाम आपको बाइनरी रिवॉर्ड सिग्नल को बढ़ाने में मदद करनी चाहिए। इस विधि में, एक शिक्षार्थी को यह नहीं बताया जाता है कि उसे कौन सी कार्रवाई करनी है, बल्कि उसे यह पता लगाना चाहिए कि कौन सी कार्रवाई अधिकतम इनाम प्रदान करती है। चूंकि यह विधि इनाम/दंड तंत्र पर आधारित है।

41. सामान्यतः प्रयुक्त एल्गोरिदम के नाम बताइए।

डेटा वैज्ञानिकों द्वारा सबसे अधिक उपयोग किए जाने वाले चार एल्गोरिदम हैं:

रेखीय प्रतिगमन
रसद प्रतिगमन
बेतरतीब जंगल
KNN

42. परिशुद्धता क्या है?

परिशुद्धता n वर्गीकरण तंत्र में सबसे अधिक इस्तेमाल की जाने वाली त्रुटि मीट्रिक है। इसकी सीमा 0 से 1 तक है, जहाँ 1 100% को दर्शाता है

43. एकात्मक विश्लेषण क्या है?

वह विश्लेषण जो एक समय में किसी भी विशेषता पर लागू नहीं होता, एकचर विश्लेषण कहलाता है। Boxप्लॉट व्यापक रूप से इस्तेमाल किया जाता है, एकतरफा मॉडल।

44. आप अपने निष्कर्षों की चुनौतियों पर कैसे काबू पाते हैं?

मेरी खोज की चुनौतियों पर काबू पाने के लिए चर्चा को प्रोत्साहित करने, नेतृत्व का प्रदर्शन करने और विभिन्न विकल्पों का सम्मान करने की आवश्यकता है।

45. डेटा विज्ञान में क्लस्टर सैंपलिंग तकनीक की व्याख्या करें

समूह प्रतिचयन विधि का प्रयोग तब किया जाता है जब लक्ष्य जनसंख्या का अध्ययन करना चुनौतीपूर्ण होता है, तथा सरल यादृच्छिक प्रतिचयन लागू नहीं किया जा सकता।

46. सत्यापन सेट और परीक्षण सेट के बीच अंतर बताएं

सत्यापन सेट को अधिकतर प्रशिक्षण सेट का एक भाग माना जाता है क्योंकि इसका उपयोग पैरामीटर चयन के लिए किया जाता है जो निर्मित किये जा रहे मॉडल के ओवरफिटिंग से बचने में आपकी मदद करता है।

जबकि टेस्ट सेट का उपयोग प्रशिक्षित मशीन लर्निंग मॉडल के प्रदर्शन का परीक्षण या मूल्यांकन करने के लिए किया जाता है।

47. द्विपद प्रायिकता सूत्र शब्द की व्याख्या करें?

"द्विपद वितरण में स्वतंत्र घटनाओं के लिए N परीक्षणों पर प्रत्येक संभावित सफलता की संभावनाएं शामिल होती हैं, जिनके घटित होने की संभावना π होती है।"

48. रिकॉल क्या है?

रिकॉल वास्तविक सकारात्मक दर के विरुद्ध सच्ची सकारात्मक दर का अनुपात है। यह 0 से 1 तक होता है।

49. सामान्य वितरण पर चर्चा करें

सामान्य वितरण समान रूप से वितरित होता है, जैसे कि माध्य, माध्यिका और बहुलक बराबर होते हैं।

50. डेटा सेट पर काम करते समय, आप महत्वपूर्ण चरों का चयन कैसे कर सकते हैं? समझाइए

चर चयन के लिए आप निम्नलिखित विधियों का उपयोग कर सकते हैं:

महत्वपूर्ण चरों का चयन करने से पहले सहसंबद्ध चरों को हटा दें
रैखिक प्रतिगमन का उपयोग करें और उन चरों का चयन करें जो p मानों पर निर्भर करते हैं।
पिछड़ा, आगे का चयन और चरणबद्ध चयन का उपयोग करें
Xgboost, रैंडम फ़ॉरेस्ट का उपयोग करें, और चर महत्व चार्ट प्लॉट करें।
दिए गए फीचर्स के सेट के लिए सूचना लाभ को मापें और तदनुसार शीर्ष n फीचर्स का चयन करें।

51. क्या सतत और श्रेणीबद्ध चर के बीच सहसंबंध को पकड़ना संभव है?

हां, हम सतत और श्रेणीबद्ध चरों के बीच संबंध को जानने के लिए सहप्रसरण तकनीक के विश्लेषण का उपयोग कर सकते हैं।

52. एक श्रेणीबद्ध चर को एक सतत चर के रूप में मानने से बेहतर भविष्यसूचक मॉडल प्राप्त होगा?

हां, श्रेणीबद्ध मान को केवल तभी सतत चर के रूप में माना जाना चाहिए जब चर क्रमिक प्रकृति का हो। इसलिए यह एक बेहतर पूर्वानुमान मॉडल है।

ये साक्षात्कार प्रश्न आपके मौखिक (मौखिक) में भी मदद करेंगे