قم بتقسيم مجموعة البيانات إلى قطار واختبرها باستخدام Train Test Split
مقدمة
يعد استخدام تقسيم اختبار القطار لتقسيم مجموعة البيانات الخاصة بك إلى مجموعات بيانات التدريب والاختبار أمرًا بسيطًا. أولاً، اختر الملف الذي تريد تقسيمه. ثم انقر فوق زر التحويل. بعد ذلك، انتظر بضع ثوانٍ وسيتم إنشاء مجموعات البيانات تلقائيًا وجاهزة للتنزيل.
كيفية تقسيم مجموعة البيانات إلى قطار واختبارها باستخدام Train Test Split
مقدمة
يعد تقسيم اختبار القطار إستراتيجية شائعة لتقسيم مجموعة البيانات إلى مجموعتين: مجموعة تدريب ومجموعة اختبار. يتم استخدام مجموعة التدريب لبناء النموذج، بينما يتم استخدام مجموعة الاختبار لتقييم دقة النموذج. تستخدم هذه التقنية على نطاق واسع في تطبيقات التعلم الآلي واستخراج البيانات. في هذه المقالة، سنناقش كيفية استخدام تقسيم اختبار القطار لتقسيم مجموعة البيانات إلى مجموعتين.
دليل خطوة بخطوة لتقسيم مجموعة البيانات إلى قطار واختبارها باستخدام Train Test Split
اختر مجموعة بيانات
الخطوة الأولى في بناء نموذج هي اختيار مجموعة بيانات. يجب أن تحتوي مجموعة البيانات على البيانات ذات الصلة اللازمة لبناء النموذج. يجب أيضًا أخذ حجم مجموعة البيانات في الاعتبار عند اختيار مجموعة البيانات.
قسّم مجموعة البيانات إلى جزأين: مجموعة التدريب ومجموعة الاختبار
بمجرد اختيار مجموعة البيانات، يجب تقسيمها إلى قسمين: مجموعة تدريب ومجموعة اختبار. يتم استخدام مجموعة التدريب لبناء النموذج، بينما يتم استخدام مجموعة الاختبار لتقييم دقة النموذج. يجب تحديد حجم مجموعة التدريب ومجموعة الاختبار بناءً على حجم مجموعة البيانات. على سبيل المثال، إذا كانت مجموعة البيانات كبيرة، فيجب أن تكون مجموعة التدريب أكبر من مجموعة الاختبار. من ناحية أخرى، إذا كانت مجموعة البيانات صغيرة، يمكن أن تكون مجموعة الاختبار أكبر من مجموعة التدريب.
بناء النموذج وتقييم الدقة
بعد تقسيم مجموعة البيانات إلى جزأين، يمكن بناء النموذج باستخدام مجموعة التدريب. يمكن بناء النموذج باستخدام خوارزميات التعلم الآلي المختلفة مثل الانحدار الخطي أو الانحدار اللوجستي أو آلات ناقلات الدعم أو الشبكات العصبية. بمجرد إنشاء النموذج، يمكن تقييمه باستخدام مجموعة الاختبار. يمكن تقييم دقة النموذج من خلال مقارنة القيم المتوقعة بالقيم الحقيقية في مجموعة الاختبار. يمكن بعد ذلك استخدام دقة النموذج لتحديد ما إذا كان النموذج مناسبًا للمهمة.
طرق بديلة لتقسيم مجموعة البيانات إلى قطار واختبارها باستخدام Train Test Split
التحقق المتقاطع
التحقق المتقاطع هو طريقة لتقسيم مجموعة البيانات إلى جزأين: مجموعة التدريب ومجموعة التحقق. يتم استخدام مجموعة التدريب لبناء النموذج، بينما يتم استخدام مجموعة التحقق لتقييم دقة النموذج. من المهم ملاحظة أن حجم مجموعة التدريب ومجموعة التحقق يمكن أن تختلف اعتمادًا على حجم مجموعة البيانات. تتمثل ميزة استخدام التحقق المتقاطع في أنه يسمح بإجراء تقييم أكثر دقة لأداء النموذج.
التحقق المتقاطع من طراز K-Fold
التحقق المتقاطع K-fold هو طريقة لتقسيم مجموعة البيانات إلى k مجموعة مختلفة، حيث يتم استخدام كل مجموعة لبناء النموذج وتقييم دقة النموذج. هذه الطريقة مفيدة لمجموعات البيانات التي تحتوي على عدد كبير من نقاط البيانات، لأنها تسمح بإجراء تقييم أكثر دقة لأداء النموذج. تتمثل ميزة استخدام التحقق المتقاطع k-fold في أنه يسمح بإجراء تقييم أكثر دقة لأداء النموذج بسبب المجموعات المتعددة المستخدمة في التقييم.
بوت ستrapping
Bootstrapping هي طريقة لتقسيم مجموعة البيانات إلى جزأين: مجموعة تدريب ومجموعة اختبار. يتم استخدام مجموعة التدريب لبناء النموذج، بينما يتم استخدام مجموعة الاختبار لتقييم دقة النموذج. تتمثل ميزة استخدام bootstrapping في أنه يسمح بإجراء تقييم أكثر دقة لأداء النموذج بسبب عشوائية نقاط البيانات المستخدمة في التقييم. ومع ذلك، من المهم ملاحظة أن bootstrapping أكثر تكلفة من الناحية الحسابية من الطرق الأخرى.
الخاتمة
يعد تقسيم اختبار القطار أسلوبًا شائعًا لتقسيم مجموعة البيانات إلى جزأين: مجموعة تدريب ومجموعة اختبار. يتم استخدام مجموعة التدريب لبناء النموذج، بينما يتم استخدام مجموعة الاختبار لتقييم دقة النموذج. هناك العديد من الطرق البديلة لتقسيم مجموعة البيانات إلى جزأين، مثل التحقق المتقاطع، والتحقق المتقاطع k-fold، والتمهيد. كل طريقة لها مزاياها وعيوبها. من المهم اختيار الطريقة الصحيحة لمجموعة البيانات من أجل تحقيق أفضل النتائج.