فن تحويل البيانات.. كيف تصنع الذهب من التراب؟ (Feature Engineering)

 

 


في المقال السابق، قمنا بتنظيف البيانات (غسلنا الخضار). اليوم، سنقوم بتقطيعها وتتبيلها لتصبح جاهزة للطبخ. هذا الفن يسمى "هندسة الخصائص" (Feature Engineering)، وهو السر الذي يميز المحترفين عن الهواة.

 

هل تعلم أن أغلى ما يملكه عالم البيانات ليس "الخوارزمية المعقدة"، بل هو "الإبداع" في تجهيز البيانات؟

الخوارزميات (Algorithms) في النهاية هي معادلات رياضية صماء. هي لا تفهم معنى "يوم الجمعة" ولا تعرف أن "لون السيارة أحمر" يعني شيئاً مميزاً. هي تفهم الأرقام فقط.

 

هنا يأتي دورك لترجمة الواقع البشري إلى لغة الأرقام التي تعشقها الآلة. هذه العملية تسمى "هندسة الخصائص".

 

1.المشكلة: البيانات الخام لا تكفي

تخيل أن لديك جدولاً فيه "تاريخ ميلاد" العملاء (مثلاً: 1990/5/20). إذا أعطيت هذا التاريخ كما هو للآلة، لن تستفيد منه شيئاً. الآلة لا تعرف التقويم.

الحل (هندسة الخصائص): بذكائك البشري، تقوم بعملية حسابية بسيطة: (تاريخ اليوم - تاريخ الميلاد) = "العمر" (35 سنة).

الآن، تحول "تاريخ جامد" إلى "معلومة ذهبية" (العمر). فجأة، يستطيع النموذج أن يكتشف أن "الشباب" يشترون هواتف أكثر من "كبار السن". هذا الاكتشاف لم يكن ليحدث لولا تدخلك.

 

2. سحر التواريخ: أكثر من مجرد أرقام

التاريخ يحمل أسراراً كثيرة إذا فككته:

هل هذا التاريخ يوافق "يوم جمعة"؟ (إذن قد تزيد المبيعات لأنه عطلة). هل هذا التاريخ في "شهر رمضان"؟ (تتغير أنماط الشراء تماماً). هل هو "فصل الشتاء"؟ (يزيد الطلب على الملابس الثقيلة).

مجرد عمود واحد اسمه "التاريخ" يمكن أن تستخرج منه 5 أو 6 أعمدة جديدة (خصائص جديدة) تجعل نموذجك عبقرياً.

 

3. معضلة الألوان: كيف نحول الكلمات إلى أرقام؟

الكمبيوتر لا يقرأ الكلمات. إذا كان لديك عمود "لون السيارة" (أحمر، أزرق، أخضر)، كيف تفهمه الآلة؟

لا يمكننا أن نقول: أحمر = 1، أزرق = 2، أخضر = 3. لماذا؟ لأن الآلة ستظن أن "الأخضر (3)" أكبر وأفضل من "الأحمر (1)"! وهذا خطأ رياضي، فالألوان ليس لها ترتيب.

 

الحل الذكي (One-Hot Encoding): نحول كل لون إلى "عمود منفصل" فيه (1 أو 0). عمود "هل هو أحمر؟": (1 نعم / 0 لا). عمود "هل هو أزرق؟": (0 لا / 1 نعم).

 

هكذا تفهم الآلة الفئات دون أن تقع في فخ الترتيب الخاطئ.

 

الخلاصة

لا ترمِ البيانات الخام داخل النموذج وتنتظر المعجزة.

البيانات مثل "النفط الخام"، قيمتها منخفضة حتى يتم تكريرها.

هندسة الخصائص هي عملية التكرير هذه. هي تحويل "التاريخ" إلى "موسم"، وتحويل "النص" إلى "شعور"، وتحويل "العنوان" إلى "منطقة جغرافية".

 

تذكر القاعدة الذهبية:

خصائص قوية + خوارزمية بسيطة = نتائج ممتازة.

خصائص ضعيفة + خوارزمية معقدة = نتائج عشوائية.

تعليقات

المشاركات الشائعة من هذه المدونة

بداية الحكاية

حين اخترت أن أسمو

عندما تُغاث الروح