ट्रेन टेस्ट स्प्लिट के साथ डेटासेट को ट्रेन और टेस्ट में विभाजित करें

अपने डेटासेट को ट्रेन में कुशलतापूर्वक विभाजित करें और ट्रेन टेस्ट स्प्लिट के साथ परीक्षण करें

परिचय

अपने डेटासेट को प्रशिक्षण और परीक्षण डेटासेट में विभाजित करने के लिए ट्रेन टेस्ट स्प्लिट का उपयोग करना सरल है। सबसे पहले, वह फ़ाइल चुनें जिसे आप विभाजित करना चाहते हैं। इसके बाद ट्रांसफॉर्म बटन पर क्लिक करें। उसके बाद, कुछ सेकंड प्रतीक्षा करें और आपके डेटासेट स्वचालित रूप से जेनरेट हो जाएंगे और डाउनलोड करने के लिए तैयार हो जाएंगे।

ट्रेन टेस्ट स्प्लिट के साथ डेटासेट को ट्रेन और टेस्ट में कैसे विभाजित करें

परिचय

ट्रेन-टेस्ट स्प्लिट डेटासेट को दो समूहों में विभाजित करने के लिए एक लोकप्रिय रणनीति है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। इस तकनीक का व्यापक रूप से मशीन लर्निंग और डेटा माइनिंग अनुप्रयोगों में उपयोग किया जाता है। इस लेख में, हम चर्चा करेंगे कि डेटासेट को दो समूहों में विभाजित करने के लिए ट्रेन-टेस्ट स्प्लिट का उपयोग कैसे करें।

डेटासेट को ट्रेन में विभाजित करने और ट्रेन टेस्ट स्प्लिट के साथ परीक्षण करने के लिए चरण-दर-चरण मार्गदर्शिका

डेटासेट चुनें

मॉडल बनाने में पहला कदम डेटासेट चुनना है। डेटासेट में प्रासंगिक डेटा होना चाहिए जो मॉडल बनाने के लिए आवश्यक हो। डेटासेट चुनते समय डेटासेट के आकार को भी ध्यान में रखा जाना चाहिए।

डेटासेट को दो भागों में विभाजित करें: प्रशिक्षण सेट और परीक्षण सेट

एक बार डेटासेट चुने जाने के बाद, इसे दो भागों में विभाजित किया जाना चाहिए: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। प्रशिक्षण सेट और परीक्षण सेट का आकार डेटासेट के आकार के आधार पर निर्धारित किया जाना चाहिए। उदाहरण के लिए, यदि डेटासेट बड़ा है, तो प्रशिक्षण सेट परीक्षण सेट से बड़ा होना चाहिए। दूसरी ओर, यदि डेटासेट छोटा है, तो परीक्षण सेट प्रशिक्षण सेट से बड़ा हो सकता है।

मॉडल बनाएं और सटीकता का मूल्यांकन करें

डेटासेट को दो भागों में विभाजित करने के बाद, प्रशिक्षण सेट का उपयोग करके मॉडल बनाया जा सकता है। मॉडल को विभिन्न मशीन लर्निंग एल्गोरिदम जैसे कि लीनियर रिग्रेशन, लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीन या न्यूरल नेटवर्क का उपयोग करके बनाया जा सकता है। एक बार मॉडल बन जाने के बाद, परीक्षण सेट का उपयोग करके इसका मूल्यांकन किया जा सकता है। परीक्षण सेट में वास्तविक मानों के साथ अनुमानित मानों की तुलना करके मॉडल की सटीकता का मूल्यांकन किया जा सकता है। मॉडल की सटीकता का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि मॉडल कार्य के लिए उपयुक्त है या नहीं।

डेटासेट को ट्रेन में विभाजित करने और ट्रेन टेस्ट स्प्लिट के साथ परीक्षण करने के वैकल्पिक तरीके

क्रॉस-वैलिडेशन

क्रॉस-वैलिडेशन एक डेटासेट को दो भागों में विभाजित करने की एक विधि है: एक प्रशिक्षण सेट और एक सत्यापन सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि सत्यापन सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। यह ध्यान रखना महत्वपूर्ण है कि प्रशिक्षण सेट का आकार और सत्यापन सेट डेटासेट के आकार के आधार पर भिन्न हो सकते हैं। क्रॉस-वैलिडेशन का उपयोग करने का लाभ यह है कि यह मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है।

के-फोल्ड क्रॉस-वैलिडेशन

के-फोल्ड क्रॉस-वैलिडेशन एक डेटासेट को k अलग-अलग सेटों में विभाजित करने की एक विधि है, जहां प्रत्येक सेट का उपयोग मॉडल बनाने और मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। यह विधि बड़ी संख्या में डेटा बिंदुओं वाले डेटासेट के लिए उपयोगी है, क्योंकि यह मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है। के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करने का लाभ यह है कि यह मूल्यांकन में उपयोग किए गए कई सेटों के कारण मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है।

बूटस्ट्रैपिंग

बूटस्ट्रैपिंग एक डेटासेट को दो भागों में विभाजित करने की एक विधि है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। बूटस्ट्रैपिंग का उपयोग करने का लाभ यह है कि यह मूल्यांकन में उपयोग किए गए डेटा बिंदुओं की यादृच्छिकता के कारण मॉडल के प्रदर्शन का अधिक सटीक मूल्यांकन करने की अनुमति देता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि बूटस्ट्रैपिंग अन्य तरीकों की तुलना में अधिक कम्प्यूटेशनल रूप से महंगी है।

निष्कर्ष

ट्रेन-टेस्ट स्प्लिट डेटासेट को दो भागों में विभाजित करने की एक लोकप्रिय तकनीक है: एक प्रशिक्षण सेट और एक परीक्षण सेट। प्रशिक्षण सेट का उपयोग मॉडल बनाने के लिए किया जाता है, जबकि परीक्षण सेट का उपयोग मॉडल की सटीकता का मूल्यांकन करने के लिए किया जाता है। डेटासेट को दो भागों में विभाजित करने के लिए कई वैकल्पिक तरीके हैं, जैसे क्रॉस-वैलिडेशन, के-फोल्ड क्रॉस-वैलिडेशन और बूटस्ट्रैपिंग। प्रत्येक विधि के अपने फायदे और नुकसान हैं। सर्वोत्तम परिणाम प्राप्त करने के लिए डेटासेट के लिए सही विधि चुनना महत्वपूर्ण है।

हमारे और ट्रांसफ़ॉर्मेशन टूल से मिलें
डेटा ट्रांसफ़ॉर्म करें: टेक्स्ट, डेट/टाइम, लोकेशन, जेसन, आदि।