دقة النموذج ليست كل شيء: كيف نقيّم الذكاء الاصطناعي؟

 

 


حين يبدأ أي نموذج تعلم آلة بالعمل، يكون أول سؤال يخطر في بالنا بسيطًا جدًا:

ما مدى دقته؟

 

تبدو الدقة للوهلة الأولى المقياس الأهم. فإذا أخبرنا أحدهم أن نموذجًا يحقق دقة 95%، فإننا غالبًا سنعتبره نموذجًا ممتازًا. لكن في عالم تعلم الآلة، قد تكون هذه النسبة مضللة أحيانًا. فالدقة وحدها لا تكفي للحكم على جودة النموذج أو قدرته الحقيقية على اتخاذ قرارات صحيحة.

 

تعلم الآلة لا يهتم فقط بعدد الإجابات الصحيحة، بل يهتم أيضًا بطبيعة الأخطاء التي يرتكبها النموذج، وتأثير هذه الأخطاء في الواقع.

 

لماذا قد تكون الدقة مضللة؟

 

لنتخيل نموذجًا طبيًا يكتشف مرضًا نادرًا يصيب شخصًا واحدًا فقط من كل مئة شخص. إذا قام النموذج بتوقع أن جميع الأشخاص أصحاء، فإنه سيحقق دقة تصل إلى 99%. لكن في الحقيقة، النموذج فشل في اكتشاف المرض تمامًا.

 

هذا المثال يوضح أن الدقة قد تخفي أخطاء خطيرة، خصوصًا عندما تكون البيانات غير متوازنة أو عندما يكون اكتشاف الحالات النادرة مهمًا للغاية.

 

لهذا السبب يستخدم علماء تعلم الآلة مقاييس تقييم إضافية تساعد على فهم أداء النموذج بصورة أعمق.

 

Precision  عندما نبحث عن مدى صحة التوقعات الإيجابية

 

Precision  الدقة النوعية

 

هي مقياس يوضح مدى صحة التوقعات الإيجابية التي أعطاها النموذج.

 

بمعنى: عندما يقول النموذج إن النتيجة صحيحة أو إيجابية، كم مرة يكون كلامه صحيحًا فعلًا؟

 

مثال بسيط: إذا قال النظام إن 10 رسائل بريد مزعجة، وكان 8 منها فعلاً مزعجة، فهذا يعني أن Precision مرتفع لأن معظم توقعاته الإيجابية كانت صحيحة.

 

يقيس هذا المقياس مدى صحة الحالات التي توقع النموذج أنها صحيحة. بمعنى آخر، عندما يقول النموذج إن النتيجة إيجابية، كم مرة يكون هذا القرار صحيحًا بالفعل؟

 

يصبح هذا المقياس مهمًا في الأنظمة التي قد تسبب فيها الإنذارات الخاطئة مشكلات كبيرة. فمثلًا، في أنظمة كشف البريد الإلكتروني المزعج، لا نريد أن يتم تصنيف الرسائل المهمة على أنها رسائل غير مرغوبة.

 

Recall  عندما نبحث عن قدرة النموذج على اكتشاف كل الحالات المهمة

 

 Recall الاسترجاع أو الحساسية

 

هو مقياس يوضح قدرة النموذج على اكتشاف جميع الحالات الإيجابية الموجودة فعليًا.

 

بمعنى: من بين كل الحالات الصحيحة الموجودة، كم حالة استطاع النموذج العثور عليها؟

 

مثال بسيط:

 

إذا كان هناك 10 رسائل مزعجة فعلًا، واكتشف النظام 7 منها فقط،

 

فهذا يعني أن Recall متوسط لأنه لم يكتشف جميع الحالات الصحيحة.

 

يركز هذا المقياس على عدد الحالات الصحيحة التي استطاع النموذج اكتشافها من بين جميع الحالات الموجودة فعليًا.

 

يكون هذا المقياس مهمًا جدًا في المجالات الطبية أو الأمنية، حيث قد يكون تجاهل حالة خطيرة أكثر ضررًا من إصدار إنذار خاطئ.

 

العلاقة بين Precision و Recall

 

·        Precision يهتم بجودة التوقعات الإيجابية

هل ما يقوله النموذج صحيح؟

 

·       Recall  يهتم بعدد الحالات التي استطاع النموذج اكتشافها

هل اكتشف كل الحالات المهمة؟

 

في كثير من الأحيان، يوجد توازن حساس بين هذين المقياسين. فعندما نحاول زيادة Precision، قد ينخفض Recall، والعكس صحيح. لذلك لا يسعى المهندسون إلى تعظيم أحدهما فقط، بل يحاولون تحقيق توازن يناسب طبيعة المشكلة.

 

ولحل هذه المعضلة، ظهر مقياس يسمى F1 Score، وهو يجمع بين Precision و Recall ليعطي صورة أكثر شمولية عن أداء النموذج.

 

تقييم النموذج في الواقع الحقيقي

 

تقييم النموذج لا يعتمد فقط على الأرقام، بل يتطلب فهم السياق الذي يعمل فيه النموذج. ففي بعض التطبيقات يكون الخطأ البسيط مقبولًا، بينما في تطبيقات أخرى قد يكون الخطأ كارثيًا.

 

لذلك، تقييم الذكاء الاصطناعي يشبه تقييم إنسان يؤدي مهمة معينة. فنجاحه لا يقاس فقط بعدد القرارات الصحيحة، بل بمدى تأثير قراراته، وطبيعة الأخطاء التي قد يرتكبها.

 

الخلاصة

 

الدقة قد تبدو مؤشرًا قويًا على نجاح النموذج، لكنها ليست الصورة الكاملة. فهم مقاييس مثل Precision و Recall يساعدنا على تقييم النماذج بشكل أكثر واقعية واحترافية.

 

في النهاية، الذكاء الحقيقي للنموذج لا يظهر فقط في عدد الإجابات الصحيحة، بل في قدرته على اتخاذ قرارات موثوقة ومتوازنة في المواقف المختلفة.

تعليقات

المشاركات الشائعة من هذه المدونة

بداية الحكاية

حين اخترت أن أسمو

عندما تُغاث الروح