ट्रेन टेस्ट स्प्लिट के साथ डेटासेट को ट्रेन और टेस्ट में विभाजित करें

परिचय
अपने डेटासेट को प्रशिक्षण और परीक्षण डेटासेट में विभाजित करने के लिए ट्रेन टेस्ट स्प्लिट का उपयोग करना सरल है। सबसे पहले, वह फ़ाइल चुनें जिसे आप विभाजित करना चाहते हैं। इसके बाद ट्रांसफॉर्म बटन पर क्लिक करें। उसके बाद, कुछ सेकंड प्रतीक्षा करें और आपके डेटासेट स्वचालित रूप से जेनरेट हो जाएंगे और डाउनलोड करने के लिए तैयार हो जाएंगे।
ट्रेन टेस्ट स्प्लिट के साथ डेटासेट को ट्रेन और टेस्ट में कैसे विभाजित करें
परिचय
ट्रेन-टेस्ट स्प्लिट डेटासेट को दो समूहों में विभाजित करने के लिए एक लोकप्रिय रणनीति है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। इस तकनीक का व्यापक रूप से मशीन लर्निंग और डेटा माइनिंग अनुप्रयोगों में उपयोग किया जाता है। इस लेख में, हम चर्चा करेंगे कि डेटासेट को दो समूहों में विभाजित करने के लिए ट्रेन-टेस्ट स्प्लिट का उपयोग कैसे करें।
डेटासेट को ट्रेन में विभाजित करने और ट्रेन टेस्ट स्प्लिट के साथ परीक्षण करने के लिए चरण-दर-चरण मार्गदर्शिका
डेटासेट चुनें
मॉडल बनाने में पहला कदम डेटासेट चुनना है। डेटासेट में प्रासंगिक डेटा होना चाहिए जो मॉडल बनाने के लिए आवश्यक हो। डेटासेट चुनते समय डेटासेट के आकार को भी ध्यान में रखा जाना चाहिए।
डेटासेट को दो भागों में विभाजित करें: प्रशिक्षण सेट और परीक्षण सेट
एक बार डेटासेट चुने जाने के बाद, इसे दो भागों में विभाजित किया जाना चाहिए: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। प्रशिक्षण सेट और परीक्षण सेट का आकार डेटासेट के आकार के आधार पर निर्धारित किया जाना चाहिए। उदाहरण के लिए, यदि डेटासेट बड़ा है, तो प्रशिक्षण सेट परीक्षण सेट से बड़ा होना चाहिए। दूसरी ओर, यदि डेटासेट छोटा है, तो परीक्षण सेट प्रशिक्षण सेट से बड़ा हो सकता है।
मॉडल बनाएं और सटीकता का मूल्यांकन करें
डेटासेट को दो भागों में विभाजित करने के बाद, प्रशिक्षण सेट का उपयोग करके मॉडल बनाया जा सकता है। मॉडल को विभिन्न मशीन लर्निंग एल्गोरिदम जैसे कि लीनियर रिग्रेशन, लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीन या न्यूरल नेटवर्क का उपयोग करके बनाया जा सकता है। एक बार मॉडल बन जाने के बाद, परीक्षण सेट का उपयोग करके इसका मूल्यांकन किया जा सकता है। परीक्षण सेट में वास्तविक मानों के साथ अनुमानित मानों की तुलना करके मॉडल की सटीकता का मूल्यांकन किया जा सकता है। मॉडल की सटीकता का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि मॉडल कार्य के लिए उपयुक्त है या नहीं।
डेटासेट को ट्रेन में विभाजित करने और ट्रेन टेस्ट स्प्लिट के साथ परीक्षण करने के वैकल्पिक तरीके
क्रॉस-वैलिडेशन
क्रॉस-वैलिडेशन एक डेटासेट को दो भागों में विभाजित करने की एक विधि है: एक प्रशिक्षण सेट और एक सत्यापन सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि सत्यापन सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। यह ध्यान रखना महत्वपूर्ण है कि प्रशिक्षण सेट का आकार और सत्यापन सेट डेटासेट के आकार के आधार पर भिन्न हो सकते हैं। क्रॉस-वैलिडेशन का उपयोग करने का लाभ यह है कि यह मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है।
के-फोल्ड क्रॉस-वैलिडेशन
के-फोल्ड क्रॉस-वैलिडेशन एक डेटासेट को k अलग-अलग सेटों में विभाजित करने की एक विधि है, जहां प्रत्येक सेट का उपयोग मॉडल बनाने और मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। यह विधि बड़ी संख्या में डेटा बिंदुओं वाले डेटासेट के लिए उपयोगी है, क्योंकि यह मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है। के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करने का लाभ यह है कि यह मूल्यांकन में उपयोग किए गए कई सेटों के कारण मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है।
बूटस्ट्रैपिंग
बूटस्ट्रैपिंग एक डेटासेट को दो भागों में विभाजित करने की एक विधि है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। बूटस्ट्रैपिंग का उपयोग करने का लाभ यह है कि यह मूल्यांकन में उपयोग किए गए डेटा बिंदुओं की यादृच्छिकता के कारण मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि बूटस्ट्रैपिंग अन्य तरीकों की तुलना में अधिक कम्प्यूटेशनल रूप से महंगी है।
निष्कर्ष
ट्रेन-टेस्ट स्प्लिट डेटासेट को दो भागों में विभाजित करने की एक लोकप्रिय तकनीक है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। डेटासेट को दो भागों में विभाजित करने के लिए कई वैकल्पिक तरीके हैं, जैसे क्रॉस-वैलिडेशन, के-फोल्ड क्रॉस-वैलिडेशन और बूटस्ट्रैपिंग। प्रत्येक विधि के अपने फायदे और नुकसान हैं। सर्वोत्तम परिणाम प्राप्त करने के लिए डेटासेट के लिए सही विधि चुनना महत्वपूर्ण है।