مطبخ علم البيانات.. لماذا "التنظيف" أهم من "الطبخ"؟

 


هل تعلم ما هي القاعدة رقم 1 في عالم البرمجة والبيانات؟ إنها قاعدة بسيطة جداً ومؤلمة جداً:

"Garbage In, Garbage Out" إذا أدخلت قمامة، ستخرج قمامة

كثير من المبتدئين يظنون أن الذكاء الاصطناعي هو "صندوق سحري" يمكنه التعامل مع أي شيء. الحقيقة هي أن الخوارزميات حساسة جداً. إذا أعطيتها بيانات مليئة بالأخطاء، الفجوات، أو التناقضات، ستعطيك نموذجاً غبياً، مهما كانت الخوارزمية متطورة.

اليوم سنتعلم كيف نكون "طهاة محترفين" لا يقبلون إلا أجود المكونات.

 

1.المشكلة الأولى: الثقوب السوداء (البيانات المفقودة)

تخيل أنك تملأ استبيانًا، وتركت خانة "العمر" فارغة. بالنسبة للكمبيوتر، هذه ليست مجرد مساحة فارغة، بل هي "NaN" (Not a Number)، وهي مشكلة رياضية. الكمبيوتر لا يستطيع ضرب أو جمع "لاشيء".

 

كيف نصلح هذا الثقب؟ لدينا حلان:

 

·       الحل الجذري (الحذف): إذا كان الصف مليئاً بالفجوات، نحذفه تماماً. (مثل رمي تفاحة فاسدة).

·       الحل الذكي (التعويض :(Imputation بدلاً من الحذف وخسارة البيانات، نملأ الفراغ بذكاء. مثلاً: إذا كان عمر شخص مفقوداً، يمكننا وضع "متوسط أعمار الناس" مكانه. هكذا نحافظ على الصف دون أن نشوه الحقيقة كثيراً.

 

2.المشكلة الثانية: التكرار والضجيج (Duplicates & Outliers)

أحياناً، يضغط الموظف زر "إدخال" مرتين، فتتكرر البيانات

النتيجة: النموذج سيظن أن هذا الحدث "مهم جداً" لأنه تكرر، بينما هو خطأ بسيط.

 الحل: حذف التكرار (De-duplication) فوراً.

 

وماذا عن "القيم الشاذة" (Outliers)؟ تخيل جدول رواتب الموظفين: 500، 600، 550، ... وفجأة: 1,000,000! هل هذا راتب حقيقي لمدير تنفيذي؟ أم خطأ مطبعي (أصفار زائدة)؟ إذا تركته، سيفسد "المتوسط" الحسابي للجميع. يجب عليك اكتشافه والتحقق منه: إما أنه حقيقة نادرة، أو خطأ يجب تصحيحه.

 

3. المشكلة الثالثة: فوضى النصوص

الكمبيوتر لا يفهم أن "KSA" هي نفسها "Saudi Arabia" هي نفسها "السعودية". بالنسبة له، هذه ثلاث دول مختلفة تماماً! وظيفتك هنا هي "التوحيد" (Standardization). يجب أن تجبر البيانات على التحدث بلغة واحدة قبل أن تدخلها في النموذج.

 

الخلاصة

قبل أن تفكر في "نوع الخوارزمية" أو "دقة النموذج"، انظر لبياناتك أولاً.

نظفها من الأوساخ، املأ الفراغات، ووحد المفاهيم. تذكر دائماً :نموذج بسيط مع بيانات نظيفة أفضل من نموذج عبقري مع بيانات قذرة.

البيانات النظيفة هي الوقود الحقيقي للذكاء الاصطناعي. بدونها، المحرك لن يعمل، أو سينفجر في وجهك.

 

تعليقات

المشاركات الشائعة من هذه المدونة

بداية الحكاية

حين اخترت أن أسمو

عندما تُغاث الروح