كيف تقرأ الآلة؟ فن تحويل "الصور" و"الكلمات" إلى أرقام (Feature Engineering)

 

 


عندما تنظر إلى صورة "غروب الشمس"، عقلك البشري يعالج المعلومات فوراً: ترى ألواناً دافئة، تشعر بالهدوء، وتعرف أن اليوم قد انتهى. وعندما تقرأ كلمة "تفاحة"، تستحضر فوراً طعمها وشكلها.

 

لكن الكمبيوتر؟ هو "أعمى" و"أصم" بالمعنى الحرفي. لا يملك عيوناً ليرى الألوان، ولا عقلاً ليتذوق الكلمات. الكمبيوتر لا يفهم إلا لغة واحدة فقط: الأرقام.

هنا تبرز المشكلة الكبرى في عالم الذكاء الاصطناعي: كيف نترجم عالمنا البشري الغني والمعقد (صور، نصوص، أصوات) إلى لغة الرياضيات الجافة التي تفهمها الآلة؟ هذه العملية السحرية تسمى هندسة الميزات (Feature Engineering).

 

إنها عملية "الترجمة" التي تحول البيانات الخام إلى مصفوفات رقمية، وبدونها، يبقى الذكاء الاصطناعي مجرد كود عاجز.

 

كيف يرى الكمبيوتر "الصورة"؟ (مصفوفة الأرقام)

 

تخيل أنك قمت بتكبير صورة رقمية على شاشتك آلاف المرات. ماذا سترى؟ سترى مربعات صغيرة جداً ملونة تسمى "بكسلات" (Pixels).

بالنسبة للكمبيوتر، الصورة ليست مشهداً، بل هي جدول عملاق من الأرقام (Matrix).

 

  • الصور بالأبيض والأسود: كل بكسل هو رقم يتراوح عادة بين 0 (أسود حالك) و 255 (أبيض ناصع). الأرقام بينهما تمثل درجات الرمادي.

 

  • الصور الملونة: الأمر أكثر تعقيداً قليلاً. كل بكسل يتكون من ثلاثة أرقام (قنوات): رقم لدرجة الأحمر (Red)، ورقم لدرجة الأخضر (Green)، ورقم لدرجة الأزرق (Blue). هذا ما يعرف بـ نظام RGB.

لذا، عندما "يتعلم" الذكاء الاصطناعي التمييز بين القطة والكلب، هو في الحقيقة يقوم بعمليات حسابية معقدة على ملايين الأرقام في هذه الجداول ليكتشف أن "هذا النمط الرقمي" يشبه نمط القطة.

 

كيف يرى الكمبيوتر "الكلمات"؟ (سحر المتجهات)

 

التعامل مع الصور قد يبدو منطقياً (شدة إضاءة = رقم)، لكن ماذا عن اللغة؟ كيف نحول كلمة "حب" أو "سيارة" إلى رقم؟

 

في البدايات، حاول العلماء إعطاء كل كلمة رقماً عشوائياً (مثلاً: تفاحة = 1، برتقالة = 2). لكن هذه الطريقة فاشلة، لأن الكمبيوتر قد يظن أن (2) أكبر من (1)، وبالتالي البرتقالة "أفضل" أو "أقوى" من التفاحة! وهذا غير صحيح لغوياً.

 

الحل الثوري جاء فيما يسمى تضمين الكلمات (Word Embeddings) أو المتجهات. بدلاً من رقم واحد، نحول الكلمة إلى "قائمة من الأرقام" (إحداثيات). تخيل خريطة ضخمة متعددة الأبعاد:

 

  • كلمة "ملك" وكلمة "ملكة" تقعان في مكانين قريبين جداً من بعضهما على هذه الخريطة.

 

  • كلمة "تفاحة" تقع بعيداً عنهما، لكنها قريبة من "موزة".

 

بهذه الطريقة، ولأول مرة، أصبح الكمبيوتر يفهم المعنى من خلال الأرقام. يستطيع أن يحسب رياضياً أن: (ملك) - (رجل) + (امرأة) = (ملكة). هذه "هندسة ميزات" عبقرية حولت اللغة إلى معادلات رياضية.

 

الخلاصة

هندسة الميزات هي الجسر الذي نعبر به الفجوة بين إدراكنا البشري وقدرة الآلة الحسابية. كلما كنا بارعين في تصميم هذه الميزات (تحويل البيانات الصحيحة إلى أرقام دقيقة)، زاد ذكاء النموذج وقدرته على فهم عالمنا.

 

تعليقات

المشاركات الشائعة من هذه المدونة

بداية الحكاية

حين اخترت أن أسمو

عندما تُغاث الروح