مدونتنا

Blog Thumbnail
الذكاء الاصطناعي

تقنية استخلاص السمات-تقنية لمعالجة البيانات والتعلم الآلي|SHAI

تقنية استخلاص السمات Feature Extraction هي تقنية تقليل عدد المتغيرات عن طريق إنشاء مجموعة جديدة من السمات، تعرف على فوائدها وطرق تحقيقها في هذا المقال.

3/4/2025 - 7 دقائق

ما هي تقنية استخلاص السمات Feature Extraction؟ 


من أبرز المشاكل التي قد تواجه عملية دراسة وتحليل البيانات الضخمة هي العدد الكبير من المتغيرات Variables والذي يجعل من الصعب تمثيلها ومعالجتها، بالإضافة إلى حاجتها إلى ذاكرة ضخمة وقوة حاسوبية هائلة، فجاء الحل لهذه المشكلة بخاصية تعرف باستخلاص السمات Feature Extraction, في هذا المقال نستعرض مفهوم هذه التقنية وأهميتها بالإضافة الى تطبيقاتها.


تعريف ومفهوم استخلاص السمات Feature Extraction 


يعد استخلاص السمات Feature Extraction مكون من مكونات تقليل الأبعاد Dimensional Reduction أي عملية تقليل عدد المتغيرات أو المدخلات لمجموعة بيانات من خلال تقليل عدد السمات Features عن طريق إنشاء مجموعة جديدة من السمات الحالية وتكون هذه المجموعة الجديدة من السمات قادرة على تلخيص معظم المعلومات الواردة في مجموعة السمات الأصلية وهكذا. [1]

و كمثال بسيط لتوضيح تقليل عدد المتغيرات مع المحافظة على محتوى البيانات إذا كانت:

‏ F= x+y+z


في مثل هذه الحالة ممكن وضع متغير خارجي يصف مجموعة من المتغيرات

D = x + y

وبالتالي

F = D + z

الأمر في الواقع أكثر تعقيدا ولكن كان هذا المثال لإيصال فكرة مفهوم استخلاص السمات Feature Extraction 


 لماذا نستخدم استخلاص السمات Feature Extraction؟


تستخدم تقنية استخلاص السمات Feature Extraction عندما نتعامل مع مجموعة كبيرة من البيانات وبالتالي نحتاج إلى تقليل عدد الموارد دون فقدان أية معلومات مهمة أو ذات صلة، ومن أبرز فوائد هذه التقنية: [2]

  •   تقليل كمية البيانات التكرارية في مجموعة البيانات: مما يتيح لبرامج التعليم الآلي التركيز على البيانات الأكثر صلة.
  • زيادة دقة النموذج: أكثر النماذج للتعلم الآلي دقة هي تلك التي تم تطويرها باستخدام البيانات اللازمة فقط لتدريب النموذج على استخدام الأعمال المخصصة له. فإن للبيانات الجانبية تأثيرًا سلبيًا على دقة النموذج.
  • زيادة سرعة التعلم: النماذج المدربة على بيانات ذات صلة عالية تتعلم بسرعة أكبر وتقدم توقعات أكثر دقة.


تطبيقات عملية على استخلاص السمات Feature Extraction 

لاستخلاص السمات Feature Extraction استخدامات متنوعة في ما يتعلق بالتعلم الآلي، هذه أبرز استخداماته: [3]


  •  Image Processing 

تستخدم هذه التقنية لاكتشاف السمات في الصور الرقمية مثل الحواف، والأشكال، أو الحركة. بمجرد تحديد هذه السمات، يمكن معالجة البيانات لأداء مهام متنوعة تتعلق بتحليل الصورة.


  •  Bag of Words 

تستخدم في معالجة اللغة الطبيعية، تقوم هذه العملية على استخراج الكلمات من مصادر نصية مثل صفحات الويب، والوثائق، ومشاركات وسائل التواصل الاجتماعي وتصنيفها حسب تكرار استخدامها. تقنية حقيبة الكلمات تدعم التكنولوجيا التي تمكن الحواسيب من فهم وتحليل وإنشاء اللغة البشرية.


  •  Auto Encoders

 Auto Encoders هي نوع من التعلم غير المشرف يصمم لتقليل التشويش أو التغير العشوائي في البيانات. في هذه العملية يتم ضغط البيانات الواردة وترميزها، ثم إعادة بنائها كإخراج. تستفيد هذه العملية من استخراج السمات لتقليل الأبعاد للبيانات، مما يجعل من السهل التركيز على أهم أجزاء الإدخال فقط.


  الطرق المستخدمة لاستخلاص السمات Feature Extraction

لتحقيق استخلاص السمات Feature Extraction والحصول على مجموعة سمات من البيانات الأصلية هناك عدة طرق يمكن استخدامها للحصول على مجموعة سمات، من أبرزها: [4]


  • تحليل المكونات الرئيسية Principal Component Analysis 

التحليل المكون الرئيسي هو أسلوب إحصائي يستخدم لتقليل الأبعاد وضغط البيانات. يتيح PCA تحويل البيانات من مساحة ذات أبعاد عالية إلى مساحة ذات أبعاد منخفضة، مع محاولة الاحتفاظ بأكبر قدر من التباين في البيانات الأصلية.


الخطوات الرئيسية لعملية PCA هي:

1. حساب المتوسط: يتم حساب المتوسط لكل سمة في البيانات الأصلية.

2. التموج: يقوم PCA بتموج البيانات من خلال خصم المتوسط من كل نقطة بيانات.

3. حساب مصفوفة التباين (Covariance Matrix): يتم حساب مصفوفة التباين لتحديد كيفية ترابط السمات في البيانات الأصلية.

4. حساب المتجهات الذاتية (Eigenvectors) والقيم الذاتية (Eigenvalues): يتم حساب المتجهات الذاتية و القيم الذاتية لمصفوفة التباين. المتجهات الذاتية هي الاتجاهات التي يتحرك فيها التباين بأقصى قدر، والقيم الذاتية تمثل كمية التباين في كل اتجاه.

5. اختيار المتجهات الذاتية الرئيسية: يتم اختيار مجموعة من المتجهات الذاتية الأولى التي تحمل معظم التباين.

6. إعادة بناء البيانات: يتم استخدام المتجهات الذاتية المختارة لإعادة بناء البيانات بأبعاد منخفضة.


باستخدام PCA، يمكن تقليل الأبعاد بفقدان أقل قدر ممكن من المعلومات. هذا يفيد في تبسيط التحليل وزيادة فهم البيانات. يستخدم PCA في مجموعة متنوعة من التطبيقات مثل تحليل الصور، وضغط البيانات، وتقليل الأبعاد في تعلم الآلة.


  • تخصيص ديريشليه الكامنة Latent Dirichlet Allocation

 هي تقنية تستخدم في تقليل الأبعاد واستخراج الأفكار أو المواضيع من مجموعات الوثائق والنصوص. هدفها هو فهم هياكل الأفكار الكامنة داخل مجموعة كبيرة من الوثائق.

كيف تعمل LDA:

1. تعامل الوثائق كمجموعات من الكلمات.

2. يتم تحديد عدد معين من الأفكار المفترضة مسبقا.

3. يعتبر كل وثيقة مجموعة من هذه الأفكار والمواضيع الكامنة بنسب معينة.

4. يتم استخدام نموذج احتمالي لتوزيع الكلمات على هذه المواضع .

5. تستخدم تقنيات الإحصاء لاستخراج المواضيع الفعلية من البيانات.


LDA تستخدم على نطاق واسع في تنقيب البيانات وتصنيف الوثائق. فهي تمكن من تجميع الوثائق بناءً على محتواها المشترك واستخراج المفاهيم و الأفكار الكامنة في هذه الوثائق بطريقة تساهم في تحسين فهم وتصنيف النصوص.



  • تحليل المكونات المستقلة Independent Component Analysis

 هو أسلوب لتقليل الأبعاد يعمل عن طريق تحديد مجموعة من المجموعات الإحصائية المستقلة من المتغيرات التي تساهم معا في التقاط أكبر قدر من التباين في البيانات.


تحليل المكونات المستقلة (ICA) هو أسلوب يستخدم لتحليل البيانات بحيث يتمثل الهدف في العثور على مكونات مستقلة داخل البيانات. في هذا السياق، المكونات تمثل عمليات إحصائية مستقلة تحدث في البيانات. بمعنى آخر، إذا كان لدينا مجموعة من المتغيرات، ICA تحاول تحديد مكونات صغيرة مستقلة يمكن تمثيل البيانات باستخدامها، حيث يعتبر كل مكون من هذه المكونات الصغيرة عملية إحصائية مستقلة.


في المقابل، بينما تقوم PCA بتحويل البيانات إلى مميزات جديدة تحاكي التباين في البيانات بشكل أفضل، ICA تركز على فصل البيانات إلى عمليات إحصائية مستقلة بدلا من تحويلها إلى مميزات جديدة. هذا يعني أن ICA تسعى إلى تحديد كيفية التفاعلات المستقلة التي تحدث داخل البيانات، دون إدخال أية تحويلات جديدة على البيانات نفسها.




الخاتمة 

وفي النهاية استخلاص السمات Feature Extraction هي عملية أساسية في التعلم الآلي ومعالجة البيانات وهي إحدى طرق تقليل الأبعاد التي تمكننا من التعامل مع البيانات الضخمة دون أن نفقد أي معلومات مهمة ، كما أنه يقلل من البيانات التكرارية مما يزيد التركيز على البيانات ذات الصلة فقط وبالتالي زيادة سرعة التعلم للنموذج. وعكس هذه التقنيات القدرة البشرية على فهم واستغلال البيانات بطرق مبتكرة وذكية. باستمرار التطور في هذا المجال، يمكننا توقع مزيد من التقنيات المبتكرة والتطبيقات المثيرة لاستخراج المميزات في المستقبل.



المصادر

  1. Feature Extraction Definition | DeepAI
  2. What is feature extraction?
  3. Feature Extraction Application and Tools | by Rachit Singh | Analytics Vidhya | Medium
  4. Best Feature Extraction Methods for ML and How They Work - TechieCub
لايوجد تعليقات بعد!

سجل الدخول ﻹضافة تعليق

العلامات
تقنيات حديثة