تقنية استخلاص السمات Feature Extraction هي تقنية تقليل عدد المتغيرات عن طريق إنشاء مجموعة جديدة من السمات، تعرف على فوائدها وطرق تحقيقها في هذا المقال.
من أبرز المشاكل التي قد تواجه عملية دراسة وتحليل البيانات الضخمة هي العدد الكبير من المتغيرات Variables والذي يجعل من الصعب تمثيلها ومعالجتها، بالإضافة إلى حاجتها إلى ذاكرة ضخمة وقوة حاسوبية هائلة، فجاء الحل لهذه المشكلة بخاصية تعرف باستخلاص السمات Feature Extraction, في هذا المقال نستعرض مفهوم هذه التقنية وأهميتها بالإضافة الى تطبيقاتها.
يعد استخلاص السمات Feature Extraction مكون من مكونات تقليل الأبعاد Dimensional Reduction أي عملية تقليل عدد المتغيرات أو المدخلات لمجموعة بيانات من خلال تقليل عدد السمات Features عن طريق إنشاء مجموعة جديدة من السمات الحالية وتكون هذه المجموعة الجديدة من السمات قادرة على تلخيص معظم المعلومات الواردة في مجموعة السمات الأصلية وهكذا. [1]
و كمثال بسيط لتوضيح تقليل عدد المتغيرات مع المحافظة على محتوى البيانات إذا كانت:
F= x+y+z
في مثل هذه الحالة ممكن وضع متغير خارجي يصف مجموعة من المتغيرات
D = x + y
وبالتالي
F = D + z
الأمر في الواقع أكثر تعقيدا ولكن كان هذا المثال لإيصال فكرة مفهوم استخلاص السمات Feature Extraction
تستخدم تقنية استخلاص السمات Feature Extraction عندما نتعامل مع مجموعة كبيرة من البيانات وبالتالي نحتاج إلى تقليل عدد الموارد دون فقدان أية معلومات مهمة أو ذات صلة، ومن أبرز فوائد هذه التقنية: [2]
لاستخلاص السمات Feature Extraction استخدامات متنوعة في ما يتعلق بالتعلم الآلي، هذه أبرز استخداماته: [3]
تستخدم هذه التقنية لاكتشاف السمات في الصور الرقمية مثل الحواف، والأشكال، أو الحركة. بمجرد تحديد هذه السمات، يمكن معالجة البيانات لأداء مهام متنوعة تتعلق بتحليل الصورة.
تستخدم في معالجة اللغة الطبيعية، تقوم هذه العملية على استخراج الكلمات من مصادر نصية مثل صفحات الويب، والوثائق، ومشاركات وسائل التواصل الاجتماعي وتصنيفها حسب تكرار استخدامها. تقنية حقيبة الكلمات تدعم التكنولوجيا التي تمكن الحواسيب من فهم وتحليل وإنشاء اللغة البشرية.
Auto Encoders هي نوع من التعلم غير المشرف يصمم لتقليل التشويش أو التغير العشوائي في البيانات. في هذه العملية يتم ضغط البيانات الواردة وترميزها، ثم إعادة بنائها كإخراج. تستفيد هذه العملية من استخراج السمات لتقليل الأبعاد للبيانات، مما يجعل من السهل التركيز على أهم أجزاء الإدخال فقط.
لتحقيق استخلاص السمات Feature Extraction والحصول على مجموعة سمات من البيانات الأصلية هناك عدة طرق يمكن استخدامها للحصول على مجموعة سمات، من أبرزها: [4]
التحليل المكون الرئيسي هو أسلوب إحصائي يستخدم لتقليل الأبعاد وضغط البيانات. يتيح PCA تحويل البيانات من مساحة ذات أبعاد عالية إلى مساحة ذات أبعاد منخفضة، مع محاولة الاحتفاظ بأكبر قدر من التباين في البيانات الأصلية.
الخطوات الرئيسية لعملية PCA هي:
1. حساب المتوسط: يتم حساب المتوسط لكل سمة في البيانات الأصلية.
2. التموج: يقوم PCA بتموج البيانات من خلال خصم المتوسط من كل نقطة بيانات.
3. حساب مصفوفة التباين (Covariance Matrix): يتم حساب مصفوفة التباين لتحديد كيفية ترابط السمات في البيانات الأصلية.
4. حساب المتجهات الذاتية (Eigenvectors) والقيم الذاتية (Eigenvalues): يتم حساب المتجهات الذاتية و القيم الذاتية لمصفوفة التباين. المتجهات الذاتية هي الاتجاهات التي يتحرك فيها التباين بأقصى قدر، والقيم الذاتية تمثل كمية التباين في كل اتجاه.
5. اختيار المتجهات الذاتية الرئيسية: يتم اختيار مجموعة من المتجهات الذاتية الأولى التي تحمل معظم التباين.
6. إعادة بناء البيانات: يتم استخدام المتجهات الذاتية المختارة لإعادة بناء البيانات بأبعاد منخفضة.
باستخدام PCA، يمكن تقليل الأبعاد بفقدان أقل قدر ممكن من المعلومات. هذا يفيد في تبسيط التحليل وزيادة فهم البيانات. يستخدم PCA في مجموعة متنوعة من التطبيقات مثل تحليل الصور، وضغط البيانات، وتقليل الأبعاد في تعلم الآلة.
هي تقنية تستخدم في تقليل الأبعاد واستخراج الأفكار أو المواضيع من مجموعات الوثائق والنصوص. هدفها هو فهم هياكل الأفكار الكامنة داخل مجموعة كبيرة من الوثائق.
كيف تعمل LDA:
1. تعامل الوثائق كمجموعات من الكلمات.
2. يتم تحديد عدد معين من الأفكار المفترضة مسبقا.
3. يعتبر كل وثيقة مجموعة من هذه الأفكار والمواضيع الكامنة بنسب معينة.
4. يتم استخدام نموذج احتمالي لتوزيع الكلمات على هذه المواضع .
5. تستخدم تقنيات الإحصاء لاستخراج المواضيع الفعلية من البيانات.
LDA تستخدم على نطاق واسع في تنقيب البيانات وتصنيف الوثائق. فهي تمكن من تجميع الوثائق بناءً على محتواها المشترك واستخراج المفاهيم و الأفكار الكامنة في هذه الوثائق بطريقة تساهم في تحسين فهم وتصنيف النصوص.
هو أسلوب لتقليل الأبعاد يعمل عن طريق تحديد مجموعة من المجموعات الإحصائية المستقلة من المتغيرات التي تساهم معا في التقاط أكبر قدر من التباين في البيانات.
تحليل المكونات المستقلة (ICA) هو أسلوب يستخدم لتحليل البيانات بحيث يتمثل الهدف في العثور على مكونات مستقلة داخل البيانات. في هذا السياق، المكونات تمثل عمليات إحصائية مستقلة تحدث في البيانات. بمعنى آخر، إذا كان لدينا مجموعة من المتغيرات، ICA تحاول تحديد مكونات صغيرة مستقلة يمكن تمثيل البيانات باستخدامها، حيث يعتبر كل مكون من هذه المكونات الصغيرة عملية إحصائية مستقلة.
في المقابل، بينما تقوم PCA بتحويل البيانات إلى مميزات جديدة تحاكي التباين في البيانات بشكل أفضل، ICA تركز على فصل البيانات إلى عمليات إحصائية مستقلة بدلا من تحويلها إلى مميزات جديدة. هذا يعني أن ICA تسعى إلى تحديد كيفية التفاعلات المستقلة التي تحدث داخل البيانات، دون إدخال أية تحويلات جديدة على البيانات نفسها.
الخاتمة
وفي النهاية استخلاص السمات Feature Extraction هي عملية أساسية في التعلم الآلي ومعالجة البيانات وهي إحدى طرق تقليل الأبعاد التي تمكننا من التعامل مع البيانات الضخمة دون أن نفقد أي معلومات مهمة ، كما أنه يقلل من البيانات التكرارية مما يزيد التركيز على البيانات ذات الصلة فقط وبالتالي زيادة سرعة التعلم للنموذج. وعكس هذه التقنيات القدرة البشرية على فهم واستغلال البيانات بطرق مبتكرة وذكية. باستمرار التطور في هذا المجال، يمكننا توقع مزيد من التقنيات المبتكرة والتطبيقات المثيرة لاستخراج المميزات في المستقبل.
المصادر