الدورات
المدونة
الشركات

مدونتنا

مشكلة فرط التجهيز في التعلم الآلي-كيفية تجنبها بأبسط الطرق|SHAI

مشكلة فرط التجهيز Overfitting تحدث عندما لا يكون النموذج قادرا على التنبؤ بالنتيجة الصحيحة في البيانات الجديدة, بسبب نقص بيانات التدريب أو تعقيد النموذج.

3/4/2025 - 9 دقائق

ما هي مشكلة فرط التجهيز Overfitiing في التعلم الآلي وكيف تقوم تتجنبها بأبسط الطرق ؟

الشبكات العصبية العميقة مهمة جدا لبناء وتطوير نماذج التعلم الآلي لأغراض مثل التعرف على الصور أو معالجة اللغة الطبيعية, وخاصة أنها تتعلم الأنماط المعقدة, لكن قبل البدء في العمل على مشروع تعلم آلي و خصوصا عند التعامل مع الشبكات العصبية العميقة, من المهم أن تكون على دراية بأهم المشاكل والتحديات التي قد تواجهك.

أحد أشيع التحديات التي يمكن أن تواجهك عند بناء وتدريب النماذج, هي مشكلة فرط التجهيز أو Overfitting, أما عن علاقة الشبكات العصبية العميقة بها أنها أحد الأسباب المؤدية لها, هل يعني هذا أن لا تستخدم الشبكات العصبية العميقة, بالطبع لا, لأن في هذا المقال سنوضح الأسباب الأخرى لمشكلة فرط التجهيز وكيف يمكنك تجنبها قبل حدوثها, لذا أطلب منك قراءة المقال حتى النهاية لمعرفة أسبابها و طرق تجنبها.

ما هي مشكلة فرط التجهيز Overfitting في التعلم الآلي؟

مشكلة الفرط في التجهيز Overfitting هي مشكلة شائعة في التعلم الآلي, وهي تطلق على النموذج عندما لا يكون قادرا على تقديم نتائج تنبؤ صحيحة للبيانات الجديدة, على عكس بيانات التدريب التي يتنبأ بنتائجها بشكل دقيق, وفي هذه الحالة فإن النموذج يظهر اختلافا كبيرا في الأداء بين بيانات التدريب والبيانات الجديدة. [1]

ما يحدث حقا هو أنه عندما يتم تدريب النموذج باستخدام كمية كبيرة من البيانات، يبدأ في تعلم الأنماط من الضوضاء والمدخلات غير الدقيقة الموجودة في مجموعة البيانات, هذا يعني أن النموذج يبدأ في حفظ التفاصيل العشوائية والخصائص غير العامة التي لا تعبر عن الأنماط الحقيقية في البيانات.

وعندما يتم اختبار النموذج ببيانات جديدة, تظهر نتائج ذات تباين عالي, أي أن الأداء يختلف بشكل كبير بين بيانات التدريب والبيانات الجديدة.

في هذه الحالة, النموذج لا يصنف البيانات بشكل صحيح لأنه يعتمد على تفاصيل زائدة وضوضاء بدلا من التعلم من الأنماط العامة, هذا يؤدي إلى ضعف دقة النموذج عند تطبيقه على بيانات جديدة وغير مألوفة, مما يقلل من قدرته على التعميم بشكل فعال.

كيف تحدد ما إذا كان النموذج يعاني من مشكلة فرط التجهيز؟

تقنية التحقق المتقاطع أو K-fold cross-validation هي إحدى التقنيات المستخدمة لتقييم أداء النموذج ومعرفة ما إذا كان يعاني من فرط التجهيز أم لا, كون المشكلة الأساسية هنا هي عدم إعطاء نتائج دقيقة للبيانات الجديدة, إذا لابد من التحقق من قدرة النموذج على التعميم والتنبؤ بشكل صحيح عندما يطبق على بيانات لم يسبق له رؤيتها من قبل. [2]

تقوم التقنية على تقسيم البيانات الى عدد من المجموعات بحيث تكون متساوية الحجم- يشير الحرف K الى عدد المجموعات- يمكن تسمية المجموعات بالطيات أو Folds, يتم استخدام هذه المجموعات كمجموعات تدريب للنموذج, عدا مجموعة واحدة تترك لتستخدم كمجموعة اختبار- تسمى أيضا مجموعة تحقق أو مجموعة التقييم - لاختبار أداء النموذج.

تكرر العملية حتى تلعب كل مجموعة دور مجموعة الاختبار أو مجموعة التحقق, عندما تكتمل جميع التكرارات بعد ذلك يتم احتساب متوسط درجات التقييم الناتجة عن كل تكرار لتقييم أداء النموذج.

أما الطريقة الثانية للتأكد من مشكلة الفرط في التجهيز هي برسم منحنيات التعلم, وهي طريقة لمراقبة أداء النموذج على مدى الزمن, تتمثل الفكرة في رسم منحنيات تظهر أداء النموذج على كل من مجموعة التدريب ومجموعة التحقق أثناء عملية التدريب, إذا كانت المنحنيات تتبع مسارا متشابها في البداية، فهذا يعني أن النموذج يتعلم بشكل جيد من البيانات.

ولكن إذا بدأت المنحنيات في التباعد، بحيث يظهر أداء النموذج على مجموعة التدريب أعلى بكثير من أداءه على مجموعة التحقق، فهذا يعد إشارة إلى أن النموذج قد يكون يعاني من هذه المشكلة.

ما الأسباب المحتملة وراء مشكلة فرط التجهيز؟

هناك ثلاثة أسباب أساسية لحدوث فرط التجهيز, وهي: [3]

بيانات عشوائية أو غير دقيقة

جودة البيانات أحد الأسباب الرئيسية لإعطاء نتائج دقيقة مهما كانت مهمة النموذج, والعكس صحيح, تدريب النموذج على بيانات غير دقيقة أو عشوائية أو البيانات التي تحتوي على كمية كبيرة من المعلومات التي لا قيمة لها, ستتسبب في نهاية المطاف في فرط التجهيز.

أثناء تدريب النموذج على هذه البيانات, سيتعامل مع التقلبات و الأخطاء على أنها أنماط حقيقية يجب التعلم منها, هذا يؤدي إلى تعلم النموذج لتفاصيل غير ذات صلة أو ضوضاء في البيانات بدلا من الأنماط الفعلية التي تمثل العلاقات الحقيقية في البيانات.

كنتيجة لذلك, يمكن أن يكون أداء النموذج جيدا على بيانات التدريب, ولكنه يفشل في التعميم بشكل جيد على البيانات الجديدة, مما يقلل من دقته ويزيد من تباينه عند التنبؤ ببيانات جديدة.

البيانات غير كافية

يتعلم النموذج الأنماط والعلاقات الموجودة في بيانات التدريب, وعندما تكون كمية البيانات غير كافية للنموذج, هذا يعني أن النموذج لن يتعلم جميع الأنماط والعلاقات التي يمكن أن توجد في البيانات.

نتيجة لذلك, قد يصبح النموذج متكيفا على البيانات المحدودة التي تم تدريبه عليها, ويعتمد بشدة على تلك الأنماط المحددة, وبالتالي عند تقديم بيانات جديدة، قد يواجه النموذج صعوبة في التعميم وتقديم تنبؤات دقيقة, لأن الأنماط التي تعلمها من البيانات المحدودة قد لا تكون ممثلة بشكل كاف للواقع أو للبيانات الجديدة.

تعقيد النموذج

استخدام نموذج معقد لمهمة تنبؤ بسيطة على سبيل المثال قد تتسبب أيضا بمشكلة فرط التجهيز, مثلا إذا كانت البيانات ذات طبيعة خطية ولكن تم استخدام نموذج انحدار متعدد الحدود بدرجة عالية لتحليلها, فإن النموذج سيحاول مطابقة جميع النقاط في البيانات بدقة شديدة, بما في ذلك الضوضاء العشوائية.

هذا يؤدي إلى تعلم النموذج لأنماط غير حقيقية لا تعبر عن العلاقات الفعلية في البيانات, في النهاية, يكون أداء النموذج جيدا على بيانات التدريب, ولكنه يفشل في التعميم بشكل جيد عند مواجهة بيانات جديدة, مما يؤدي إلى دقة منخفضة وتباين أعلى في النتائج.

هذا الكلام ينطبق على الشبكات العصبية العميقة فبفضل بنيتها المعقدة التي تحتوي على العديد من الطبقات والوحدات العصبية, تكون الشبكات العصبية العميقة قادرة على تعلم الأنماط المعقدة في البيانات, وفي نفس الوقت يمكن أن يؤدي الى تعلم النموذج للضوضاء والتفاصيل غير ذات الصلة الموجودة في بيانات التدريب, وبالتالي حدوث فرط التجهيز.

من الأمثلة الأخرى على الشبكات العصبية العميقة, الشبكة العصبية التكرارية, اقرأ عنها في المقال الآتي: الشبكة العصبية التكرارية: دليلك الشامل, مفهومها,هيكلها وتطبيقاتها

كيف تتجنب حدوث فرط التجهيز؟

لتجنب حدوث فرط التجهيز, يمكنك تطبيق التقنيات الآتي: [4]

التوقف المبكر

تقوم عملية تدريب النموذج على عملية تكرارية, عندما نبدأ التدريب يكون أداء النموذج عادة ضعيفا، ولكن مع كل جولة تدريب إضافية يتعلم النموذج أكثر من البيانات ويتحسن أداءه تدريجيا.

بعد عدد معين من التكرارات و حتى نقطة معينة, يبدأ أداء النموذج بالتراجع حيث تضعف قدرته على التعميم على البيانات الجديدة ويبدأ في الإفراط في التجهيز, لذا لتجنب المشكلة من المهم إيقاف عملية التدريب مبكرا قبل أن يصل لهذه النقطة.

زيادة كمية بيانات التدريب

ذكرنا أنه من أسباب فرط التجهيز قلة بيانات التدريب, إذا لتتجنب هذه المشكلة عليك زيادة كمية بيانات التدريب, حتى يتيح للنموذج تعلم المزيد من الأنماط والعلاقات بين البيانات مما يزيد من دقته, ولكن احرص على أن تكون البيانات المدخلة عالية الجودة وأن تكون ذات صلة, وإلا فستزيد من تعقيد النموذج و بالتالي حدوث فرط التجهيز.

اختيار السمات

من الخطوات المهمة قبل بناء النموذج هي تحديد المعاملات Parameters و عدد من السمات أو الخصائص Features لمساعدة النموذج على التنبؤ بالنتيجة المطلوبة, في بعض الأحيان قد يكون هناك سمات زائدة عن الحاجة, أي لا تضيف أي قيمة حقيقية للنموذج, أو قد لا تكون ذات صلة بالنتيجة التي نرغب بالتنبؤ بها.

لذلك من الأفضل القيام بعملية اختيار السمات Feature Selection لتحديد السمات الأكثر أهمية والأكثر تأثيرا على التنبؤ, وإزالة تلك التي لا تضيف أي قيمة للنموذج, هذا يجعل عملية التدريب أسرع وأكثر فعالية ويقلل من خطر فرط التجهيز.

التنظيم

تعقيبا على الطريقة السابقة وهي اختيار السمات, ماذا لو لم نعرف أي السمات نزيل؟ هنا يأتي دور عملية التنظيم كطريقة لجعل النموذج أبسط.

طريقة التنظيم تقتضي إضافة نوعا من العقوبة أو التقييد على المعاملات الأكبر لجعلها أصغر, ذلك لأن المعاملات الأكبر قد تشير إلى أن النموذج يعتمد بشدة على سمات معينة، مما قد يؤدي إلى الإفراط في التجهيز مع بيانات التدريب والتأثير سلبا على أداء النموذج عند التعامل مع بيانات جديدة.

بالتالي، تقليل حجم هذه المعاملات يساعد في تقليل التباين، مما يجعل النموذج أكثر ثباتا وقدرة على التعميم, من الطرق المستخدمة في التنظيم, استخدام تقنية Dropout في الشبكات العصبية, أو إضافة معامل عقوبة Penalty Parameter الى دالة التكلفة Cost Function أو تنظيم لاسو Lasso Regularization وغيرها من الطرق.

الخاتمة

تلخيصا لما جاء في المقال, بناء نماذج التعلم الآلي قد يكون محفوفا بالتحديات والمشاكل, و أبرز هذه التحديات هي مشكلة فرط التجهيز، والتي تحدث عندما يتفوق النموذج على بيانات التدريب لكنه يفشل في تعميم المعرفة على بيانات جديدة, يتسبب هذا في تباين كبير بين أداء النموذج على بيانات التدريب والبيانات الجديدة، مما يؤدي إلى ضعف الدقة في التنبؤ.

تناولنا في المقال الحديث عن أسباب فرط التجهيز، مثل البيانات غير الدقيقة، نقص البيانات، وتعقيد النموذج. بالإضافة إلى ذلك، تقنيات للتعامل مع هذه المشكلة، بما في ذلك التحقق المتقاطع، رسم منحنيات التعلم، وإجراءات مثل التوقف المبكر، زيادة كمية البيانات، اختيار السمات، والتنظيم.

من الضروري أن يكون لديك استراتيجيات فعالة لتجنب فرط التجهيز، لضمان أن يكون نموذج التعلم الآلي لديك قادر على تقديم نتائج دقيقة وموثوقة عند التعامل مع بيانات جديدة.

المصادر

لايوجد تعليقات بعد!

سجل الدخول ﻹضافة تعليق

العلامات

التعلم الالي

الدورات

المدونة

الشركات