تقسيم البيانات (Training vs Testing)
الطالب الذي يغش في الامتحان )بيانات
التدريب vs بيانات
الاختبار(
هل سبق لك أن قابلت طالباً يحفظ الكتاب المدرسي عن ظهر قلب،
لكنه يرسب إذا جاء السؤال بصيغة مختلفة قليلاً؟
في عالم الذكاء الاصطناعي، هذه المشكلة شائعة جداً، وتسمى "Overfitting" (الفرط
في التوافق). ولكي نتجنب بناء "موديل غبي" يقوم بالحفظ بدلاً من الفهم،
نستخدم حيلة ذكية جداً تسمى: تقسيم البيانات.
اليوم سنتعلم كيف نمتحن الذكاء الاصطناعي لنكشف: هل هو ذكي
فعلاً أم مجرد "ببغاء"؟
1. الفكرة
ببساطة: الكتاب والامتحان
تخيل أنك معلم، وتريد تعليم طالبك "الرياضيات". لديك
كتاب يحتوي على 1000 مسألة مع حلولها.
السيناريو الخاطئ (الكارثة): تعطي الطالب الـ 1000 مسألة
ليذاكرها. ثم في يوم الامتحان، تعطيه نفس المسائل التي ذاكرها بالضبط! النتيجة:
سيحصل الطالب على 100%، لكنك لن تعرف أبداً هل فهم الرياضيات أم حفظ الإجابات فقط.
السيناريو الصحيح (الذكاء الاصطناعي): تقوم بإخفاء 200 مسألة في
خزانتك (لا يراها الطالب أبداً). تعطيه 800 مسألة فقط ليذاكر منها (بيانات
التدريب). في يوم الامتحان، تختبره في الـ 200 مسألة المخبأة (بيانات الاختبار).
إذا نجح في حل المسائل التي لم يرها من قبل، فهو
"فهم" القاعدة. إذا رسب فيها (رغم أنه حل مسائل التدريب بامتياز)، فهو
مجرد "حافظ".
2. المصطلحات
التقنية: ماذا نفعل بالبيانات؟
عندما يكون لدينا جدول بيانات (مثلاً 1000 صف لبيانات أسعار
منازل)، لا نستخدمها كلها لتعليم الآلة. بل نقسمها دائماً إلى قسمين:
القسم الأول:
بيانات التدريب (Training Data) الحجم: عادة تمثل 70% إلى 80% من
البيانات. الوظيفة: هي "الكتاب المدرسي". نغذيها للخوارزمية لتبني
القواعد وتتعلم منها (مثلاً: كلما زادت المساحة زاد السعر).
القسم الثاني:
بيانات الاختبار
(Testing Data) الحجم: الباقي (20% إلى 30%). الوظيفة: هي
"الامتحان المفاجئ". نخبئها تماماً أثناء التدريب. وبعد أن ينتهي
النموذج من التعلم، نطلب منه أن يتوقع نتائج هذه البيانات، ونقارن توقعاته
بالإجابات الحقيقية التي نملكها.
لماذا هذا الأمر خطير ومهم؟
بدون بيانات اختبار، أنت تخدع نفسك. قد تبني نموذجاً وتظن أنه
عبقري ودقيق بنسبة 99%، ولكن بمجرد أن تطلقه في السوق ويواجه عملاء جدد (بيانات لم
يرها)، يفشل فشلاً ذريعاً.
بيانات الاختبار هي "صمام الأمان" الذي يخبرك
بالحقيقة المرة قبل أن تخسر أموالك. هي التي تقول لك: "نعم، نموذجك حفظ
التدريب جيداً، لكنه لا يستطيع التعميم على العالم الخارجي".
الخلاصة
الذكاء الحقيقي ليس في ما تعرفه مسبقاً، بل في كيفية تصرفك مع
ما تراه لأول مرة.
لذلك، القاعدة الذهبية لأي مشروع ذكاء اصطناعي: "لا تختبر
النموذج أبداً بنفس البيانات التي دربته عليها".
احتفظ دائماً بجزء من البيانات "في الخزانة" للامتحان
النهائي.
تعليقات
إرسال تعليق