مدونتنا

Blog Thumbnail
تعلم الآلة

ما هي خوارزمية الانحدار الخطي وما أهميتها في علم الالة | SHAI

تبين خوارزمية الانحدار الخطي Linear Regression العلاقة بين متغيرين للتنبؤ بقيمة أحدهما من خلال تمثيل العلاقة بينهما بشكل خطي وتعد من أهم وأسهل الخوارزميات

2/9/2025 - 7 دقائق


مقدمة الى خوارزمية الانحدار الخطي Linear Regression : مفهومها، أهميتها، أنواعها


في عصر البيانات الكبيرة وتزايد حجم المعلومات، تصبح القدرة على فهم وتحليل العلاقات بين المتغيرات أمرا حاسما في مختلف المجالات, لذلك تأتي خوارزمية الانحدار الخطي Linear Regression كأحد الأدوات الرئيسية في هذا السياق، حاملة معها أهمية كبيرة في علم البيانات وتحليل البيانات، والتي تستخدم في المجالات التي تتطلب إيجاد العلاقة بين متغيرين أو أكثر للتنبؤ بقيمة أو متغير ما, فبدلا من إجراء الحسابات يدويا والتي ستأخذ وقتا وجهدا كبيرين فإننا نستطيع الاعتماد على هذه الخوارزمية للقيام بها عنا. 

تأتي أهمية خوارزمية الانحدار الخطي من قدرتها على التكيف مع مجموعة متنوعة من المجالات. في مجال الاقتصاد، يمكن استخدامها لتحليل العوامل المؤثرة في النمو الاقتصادي. في مجال الطب، يُمكن استخدامها لتوقع استجابة المرضى للعلاج. في مجال التسويق، يمكن استخدامها لتحليل تأثير حملات الإعلان على المبيعات.

ولكن ما هو الأساس الذي تقوم عليه ولماذا سميت بـ الانحدار الخطي؟ كل ذلك وأكثر سنعرفه في هذا المقال الذي يتحدث عن هذه الخوارزمية وعن أبرز ما يتعلق فيها, تابع المقال للنهاية.


ما مفهوم خوارزمية الانحدار الخطي وما المبدأ الذي تقوم عليه؟

خوارزمية الانحدار الخطي هي نوع من الخوارزميات التي تخضع للتعلم المشرف Supervised Learning, وهي خوارزمية تقوم على التنبؤ بقيمة متغير اعتمادا على متغير آخر عن طريق توضيح العلاقة الخطية بينهما, يسمى المتغير الذي نريد التنبؤ بقيمته المتغير التابع Dependent Variable أما المتغير الذي يستخدم للتنبؤ بقيمة المتغير التابع يسمى المتغير المستقل Independent Variable, إذا فالمتغير المستقل هو المتغير الذي يستخدم لتفسير وتحليل التغيرات في المتغير التابع, أما المتغير التابع هو الذي يتأثر بالتغيرات في المتغير المستقل, أي بمعنى آخر يتحكم المتغير المستقل في المتغير التابع, مثلا, إذا أردنا دراسة كيفية تأثير عدد ساعات العمل الأسبوعية على الأداء في العمل, في هذا السيناريو: المتغير المستقل هو عدد ساعات العمل الأسبوعية, و المتغير التابع هو أداء العمل، لأنه المتغير الذي نحاول فهم كيف يتأثر بالمتغير المستقل (عدد ساعات العمل). [1]


أما عن تسميتها بالانحدار "الخطي" لأنها توضح العلاقة بين المتغيرين عن طريق تمثيلها بعلاقة خطية, من خلال إيجاد خط مستقيم يمكن وصفه بالخط الأمثل لأنه يصف العلاقة بين المتغيرات المستقلة والتابعة بتقليل الاختلافات بين القيم المتوقعة والقيم الفعلية, ولكن كيف؟ باستخدام طريقة "المربعات الصغرى", والتي تستخدم لتحديد الخط الأمثل الذي يقلل مجموع مربعات الفروق بين قيم الناتج المتوقعة من الخط والقيم الفعلية الملاحظة في البيانات, عن طريق تعديل معاملات الخط لتحقيق أقل قدر ممكن من الخطأ الإجمالي.


عندما يتم إيجاد الخط الأمثل، يمكن استخدامه لتقدير قيمة المتغير X (المتغير التابع) بناء على قيمة المتغير Y (المتغير المستقل), هذا يوفر وسيلة للتنبؤ بقيمة المتغير التابع بناء على العلاقة التي تمثلها البيانات.


 

ما أهمية خوارزمية الانحدار الخطي؟

ولكن لماذا الانحدار الخطي دونا عن الخوارزميات الأخرى, تكمن قوتها وأهميتها بسبب التمثيل الخطي للعلاقة بين المتغيرات والمعادلة الناتجة عنها, حيث توضح بالضبط من خلال المعاملات تأثير كل متغير مستقل على المتغير التابع, وبالتالي تعطي تفسيرا واضحا للنتائج, تمتاز كذلك سهولتها في التنفيذ مما يجعلها أساسية لفهم الأسس الأولية للخوارزميات الإحصائية الأكثر تعقيدا. [2]


بالإضافة الى ذلك تعتبر خوارزمية الانحدار الخطي حجر الأساس الذي تقوم عليه العديد من الخوارزميات مثل آليات المتجه الداعم Support Vector Machines وتقنية الضبط Regularization, مما يجعل استخدامها واسع في مجالات وتطبيقات واسعة مثل: مجال العلوم البيولوجية والأعمال ومجال العلوم الاجتماعية وغيرها.


تكون الخوارزمية ذات نفع أيضا في مجال الافتراضات حول البيانات والعلاقات بين المتغيرات, حيث يعتمد عليها علماء البيانات للتحقق من افتراضات مثل استمرارية العلاقة بين المتغيرات، وذلك من خلال تحليل البيانات والتأكد من تكافؤ العلاقة الخطية. بشكل عام، تقدم خوارزمية الانحدار الخطي إطارا تحليليا يساعد الباحثين في التأكد من مدى توافق البيانات مع الفروض الرئيسية التي تقوم عليها الدراسة أو الأبحاث. 


أنواع الانحدار الخطي

تصنف أنواع الانحدار الخطي بناء على عدد المتغيرات الى نوعين أساسين, وهما: 

  • الانحدار الخطي البسيط: في حالة استخدام متغير مستقل واحد للتنبؤ بقيمة المتغير التابع يكون النوع الانحدار الخطي البسيط، مثلا: لنفترض أننا نرغب في فهم كيف يتأثر استهلاك الوقود للسيارة بناء على سرعتها، في هذا المثال يمكن أن تكون سرعة السيارة هي المتغير المستقل واستهلاك الوقود هو المتغير التابع.

يمكن تمثيل العلاقة بمعادلة خطية بسيطة، مثل "استهلاك الوقود = (سرعة السيارة × معامل الانحدار) + ثابت". هنا، يُظهر معامل الانحدار كيف يتغير استهلاك الوقود بناءً على زيادة أو نقص في سرعة السيارة.


  • الانحدار الخطي المتعدد: اذا تم استخدام أكثر من متغير مستقل للتنبؤ بقيمة المتغير التابع, يطلق على الانحدار الخطي بالنوع المتعدد، على سبيئة المثال: مثلا في سوق العقارات، نريد تحديد كيف يتأثر سعر المنزل بعدة عوامل، مثل عدد الغرف، والمساحة، والموقع، في هذا السياق، يمكن للمتغير التابع الذي نحاول توقعه أن يكون سعر المنزل، والمتغيرات المستقلة تكون عدد الغرف والمساحة والموقع، وبناء على هذه المتغيرات يمكن دراسة كيف يؤثر كل متغير على سعر المنزل.


  • الانحدار اللوجستي: يطلق على نوع الانحدار باللوجستي عند وجود متغير تابع واحد وعدة متغيرات مستقلة ولكن الفرق الأساسي بينه وبين الانحدار المتعدد هو بتغير نوع المتغير التابع حيث يكون قيمة ثنائية مثلا : نعم أو لا أو قيمة ترتيبية, على سبيل المثال: لنفترض أن لدينا مجموعة من البيانات حول الإقراض البنكي، ونريد التنبؤ بما إذا كان العميل سيعيد القرض أم لا، في هذه الحالة، يمكن اعتبار العوامل التالية متغيرات مستقلة مثل دخل العميل، وتاريخ الائتمان، وعدد الالتزامات الحالية، يمكن للنموذج اللوجستي تقديم احتمالية للعميل في تسديد القرض أو عدم تسديده بناءً على هذه المتغيرات، مما يساعد البنك في اتخاذ قرارات تمويل أفضل.



أنواع خط الانحدار                

كما وضحنا سابقا ان خوارزمية الانحدار الخطي توضح العلاقة بين المتغيرين من خلال خط، هذا الخط يسمى خط الانحدار وبناء عليه تقسم العلاقة بينهما الى نوعين : [3]


  • علاقة خطية إيجابية : تكون العلاقة إيجابية عندما تزداد قيمة المتغير التابع على محور y بازدياد قيمة المتغير المستقل على محور x.


  • علاقة خطية سلبية: توصف العلاقة بأنها سلبية عندما تقل قيمة المتغير التابع على المحور y بازدياد قيمة المتغير المستقل على محور x.



افتراضات الانحدار الخطي 

أثناء إجراء الانحدار الخطي البسيط ، يجب أن يأخذ الشخص في اعتباره مجموعة من الافتراضات حول البيانات، وهي كالتالي: [4]


  1. التجانس: من الافتراضات المهمة هي أن يبقى معدل الخطأ الذي يحدث في التنبؤ ثابتا عبر مدى قيم المتغير المستقل، أي أن يكون انتشار الأخطاء متساويا بغض النظر عن قيم المتغير المستقل
  2. وجود تدفق طبيعي للبيانات: يعني ذلك أن القيم تتبع توزيعا قياسيا أو مألوفا، حيث تكون غالبية القيم متركزة حول قيمة متوسطة وتتباعد تدريجيا عن هذه القيمة المتوسطة
  3. استقلال الملاحظات: يعني أن كل ملاحظة أو قياس في الدراسة لا يتأثر بقيم الرؤى الأخرى ، حيث تكون العلاقات بين مختلف البيانات واضحة، وذلك يعني أنه لا يوجد تأثير مخفي أو تشويش ناتج عن التداخل بين الرؤى، يتحقق هذا عند استخدام طرق عينية صحيحة وفعالة أثناء جمع البيانات
  4. الخط دائما مستقيم: تعني أن نموذج الانحدار الخطي يفترض وجود علاقة خطية بين المتغيرين، وأن الرسم البياني لهم يظهر خطا مستقيما دائم، وإذا فشلت البيانات في تحقيق افتراضات مثل تجانس الانتشار أو التوزيع الطبيعي، قد يكون من الأفضل استخدام اختبار غير معلمي مثل اختبار رتبة سبيرمان 



الخاتمة 


في الختام، تبرز خوارزمية الانحدار الخطي كأداة قوية في فهم العلاقات بين المتغيرات، حيث تعتمد على تمثيل العلاقة بشكل خطي، مما يجعلها قابلة للفهم والتطبيق. يتميز الانحدار الخطي بالوضوح في تفسير العلاقات وسهولة تنفيذه، حيث يساهم في فهم تأثير كل متغير مستقل على المتغير التابع، مما يجعله أساسيا في تحليل البيانات واتخاذ القرارات. كما ان نوعه يعتمد على عدد المتغيرات إذا كانت المتغيرات واحد لواحد فهو انحدار خطي بسيط اما إذا كان متغير تابع و عدة متغيرات مستقلة يكون انحدار خطي متعدد.

 بالتالي، يظهر الانحدار الخطي كأداة فعالة وأساسية في فهم العلاقات وتحليل البيانات، مما يبرز دورها البارز في البحث العلمي واتخاذ القرارات القائمة على البيانات.




المصادر

  1. What Is Linear Regression? | IBM.
  2. Linear Regression in Machine learning - GeeksforGeeks
  3. Linear Regression in Machine learning - Javatpoint
  4. Simple Linear Regression: Applications, Limitations & Examples | Analytics Steps
لايوجد تعليقات بعد!

سجل الدخول ﻹضافة تعليق

العلامات
التعلم الالي