تقليل الأبعاد: تقنية للتعامل مع البيانات الضخمة
لعلك فكرت يوما كيف يمكن دراسة واستنباط معلومات من بيانات ذات أبعاد ضخمة مثل دراسة مدى ترابط الخلايا بناء على مدى تشابه الجينات في ما بينها والذي قد يصل الى الآلاف، وإجراء دراسة كهذه يتطلب مجهودا كبيرا بل يكاد يكون مستحيلا، حيث تتوافر العديد من المتغيرات العشوائية التي لا يمكن تمثيلها على أرض الواقع ولا يمكن تخيلها، لذلك تم ابتكار تقنية تجعل إجراء مثل هذه الدراسات أسهل وهي تقليل الأبعاد، لنتعرف عليها أكثر في هذا المقال.
ما هي تقنية تقليل الأبعاد؟
تقليل الأبعاد هي تقنية يتم فيها تحويل البيانات من مساحة ذات أبعاد عالية الى مساحة ذات أبعاد منخفضة عن طريق تقليل عدد المتغيرات العشوائية قيد الدراسة، من خلال الحصول على مجموعة من المتغيرات الرئيسية، حيث تحتفظ البيانات ذات التمثيل المنخفض الأبعاد ببعض الخصائص المعنوية للبيانات الأصلية. ولكن ما هو البعد؟ [1]
تعريف البعد
يعرف البعد بأنه الحد الأدنى للإحداثيات اللازمة لتحديد أي نقطة داخله، ومن أشهر الأبعاد البعد الثاني والذي يتكون من الطول والعرض 2D ( أي متغيرين)، والبعد الثالث أو ثلاثي الأبعاد 3D إذ يتكون من الطول والعرض والارتفاع ( أي ثلاثة متغيرات)، وبالتالي لا يمكننا تخيل جسم أو نقطة بأكثر من ثلاث متغيرات كأن يكون لديها عشرة متغيرات أو أكثر، ومن هنا تأتي أهمية هذه التقنية. [2]
تقليل الأبعاد: أهميته وفائدته
ذكرنا سابقا عدم قدرتنا على التعامل مع عدد كبير من المتغيرات، لأن ذلك يؤدي إلى ما يسمى بلعنة الأبعاد وهو الانتشار والتباعد بين النقاط مما يجعل البيانات تبدو عشوائية.
كما أن تقليل الأبعاد يؤدي إلى توفير الوقت والموارد الحسابية اللازمة للتعامل مع البيانات، بالإضافة إلى تسهيل تصور البيانات بتحويلها إلى أبعاد منخفضة .
كما تستخدم تقنية تقليل الأبعاد في معالجة الإشارات، واعتراف الصوت، والعلوم العصبية، وعلوم الحياة والمعلومات البيولوجية.
مكونات تقليل الأبعاد
لتقليل الأبعاد مكونين رئيسين وهما اختيار الخاصية واستخراج الخاصية: [3]
١. اختيار السمات Feature selection : هي عملية تقليل المدخلات عن طريق اختيار مجموعة فرعية للمتغيرات والتي تتميز بسمات ذات صلة لبناء النموذج، وتم بذلك باستخدام ثلاثة طرق: [4]
- الطريقة القائمة على التغليف Wrapper Method: هي إحدى الطرق المستخدمة في عملية اختيار أو السمات (Feature Selection) في تحليل البيانات وتطوير نماذج التنبؤ. تعتمد هذه الطريقة على تقييم الأداء الفعلي للنموذج التنبؤي مع مجموعات مختلفة من السمات المتاحة.
- تبدأ العملية بتقسيم مجموعة البيانات إلى مجموعتين: مجموعة للتدريب ومجموعة احتياطية (Validation set) للاختبار.
- ثم يتم إنشاء مجموعات فرعية من السمات من مجموعة السمات الكاملة واستخدامها لتدريب النموذج.
- بعد ذلك، يتم اختبار النموذج الذي تم تدريبه على المجموعة الاحتياطية لتقدير أدائه، ويتم حساب مقياس لأدائه.
- تستخدم المجموعة التي أدت إلى أداء أفضل للنموذج في بناء نموذج نهائي.
- يتم تكرار هذه العملية مع مجموعات سمات مختلفة، وتتطلب وقتًا وقوة حسابية كبيرة نسبيًا بسبب تدريب نموذج جديد لكل مجموعة.
- طريقة التصفية Filter Method: تستخدم مقياسا بديلا عن معدل الخطأ لتقييم مجموعة السمات المتاحة في تحليل البيانات. هذا المقياس يعتمد على سرعة الحساب ويساعد في تحديد السمات المفيدة من بين مجموعة السمات. غالبا ما يُستخدم هذا النوع من التقييم في مجالات تتطلب معالجة البيانات التي تحتوي على العديد من السمات ولديها قليل من البيانات المتاحة. رغم أن طرق التصفية تكون أقل تكلفة حسابيًا من الأساليب القائمة على التغليف التي تتطلب تدريب نماذج لكل مجموعة سمات، إلا أنها تنتج عادةً مجموعة من السمات أقل تخصيصًا لنموذج معين. وهذا يعني أنها قد تقلل من قدرة النموذج على التنبؤ بشكل دقيق في بعض الحالات.
- الطريقة المضمنة Embedded Method: هي مجموعة من التقنيات في تطوير النماذج الإحصائية والتعلم الآلي تستخدم لاختيار السمات المهمة أو الأكثر تأثيرا كجزء من عملية بناء النموذج. تستخدم هذه الطرق للحد من الأبعاد والمتغيرات غير الضرورية، وبالتالي تحسين أداء النموذج وتقليل التعقيد الحسابي. مثال على ذلك هو طريقة ( LASSO (Least Absolute Shrinkage and Selection Operator التي تستخدم في بناء نماذج خطية. تقوم LASSO بتقليل معاملات السمات الغير مهمة إلى الصفر، وبالتالي تختار فقط السمات ذات معامل الانحدار غير الصفري. هناك أيضا تحسينات أخرى لهذه الأساليب مثل Bolasso والاعتدال المرن للشبكة و FeaLect و AEFS. هذه التحسينات تهدف إلى تحسين عملية اختيار السمات والتعامل مع البيانات بشكل أفضل. بشكل عام، تعتبر الطرق المضمنة وسيلة بارزة لتحسين أداء النماذج وتقليل التعقيد الحسابي عند التعامل مع مجموعات بيانات كبيرة وعدد كبير من السمات.
٢. استخراج السمات Feature Extraction: يؤدي ذلك إلى تخفيض البيانات الموجودة في مساحة ذات أبعاد عالية إلى مساحة بعد أقل، أي مساحة بها عدد أقل من الأبعاد.
ما هي خوارزميات تقليل الأبعاد؟
ملخص لأبرز الخوارزميات المستخدمة لتقليل الأبعاد: [5]
- تحليل المكون الرئيسي PCA: هي تقنية تقليل أبعاد البيانات مع الحفاظ على التباين الرئيسي أي مقدار التغير والتفاوت بين العينات في مجموعة البيانات. يتم ذلك عبر تحويل البيانات إلى مساحة جديدة تحتوي على مكونات رئيسية تمثل اتجاهات التباين الأكبر في البيانات. هذا يسهم في تبسيط التحليل وتخزين البيانات دون فقدان معلومات مهمة.
- عامل المصفوفة غير السلبية NMF: هي تقنية تستخدم لتحليل مصفوفة تحتوي على قيم غير سلبية فقط (قيم أكبر أو تساوي صفر) وهي تقنية شائعة في مجالات مثل تحليل البيانات واستخراج المعلومات. الفكرة الرئيسية وراء NMF هي تقسيم مصفوفة البيانات إلى مجموعات من المصفوفات الأكثر بساطة والتي تمثل أجزاء من البيانات الأصلية.
- تحليل دوال النواة ( PCA (Kernel PCA: هي تقنية ممتدة من تحليل المكون الرئيسي (PCA) تستخدم لفهم وتحليل البيانات بشكل غير خطي. في PCA التقليدي، يتم التركيز على العلاقات الخطية بين المتغيرات، ولكن مع بعض أنواع البيانات التي تحتوي على هياكل غير خطية، يمكن أن يكون PCA غير فعال. تتيح هذه التقنية التعامل مع هذه الهياكل غير الخطية بفعالية. يعتمد على ما يسمى بـ "دوال النواة" (Kernel Functions)، وهي وظائف تقوم بتحويل البيانات إلى مساحة أخرى حيث يمكن تطبيق PCA بشكل فعال. هذا التحويل يسمح بكشف الهياكل والأنماط غير الخطية في البيانات. ببساطة، Kernel PCA يمكنه تحسين قدرة PCA على التعامل مع البيانات ذات الهياكل غير الخطية، مما يسهم في استخراج المكونات الرئيسية والأنماط بفعالية أكبر في مجموعات البيانات المعقدة.
- تقنيات تعلم الجيران المتشعبة (t-SNE و UMAP): تستخدم لتصوير مجموعات بيانات عالية الأبعاد بشكل مفصل. هذه التقنيات تهدف إلى تقليل أبعاد البيانات بحيث يمكن تصويرها بسهولة وفهم العلاقات والهياكل بين النقاط.
- Auto Encoders : هي تقنية تعتمد على الشبكات العصبية في مجال تعلم الآلة. وظيفتها الرئيسية هي تعلم ترميزات منخفضة الأبعاد للبيانات.
- تحليل التمييز الخطي (LDA): هي تقنية تستخدم لاستخراج مزيج خطي من الميزات لزيادة التمييز بين فئات مختلفة داخل مجموعة البيانات. هذه التقنية تُستخدم على نطاق واسع في مجالات مثل تصنيف الصور وتعلم الآلة ومعالجة اللغة الطبيعية.
هذه الخوارزميات تستخدم في تقليل الأبعاد واستخراج المعلومات الأساسية من مجموعات البيانات عالية الأبعاد.
الخاتمة
الآن لقد أصبح لديك تصور وفهم عن كيفية دراسة البيانات ذات الأبعاد الضخمة، إذ يتم تحويلها لأبعاد أصغر باستخدام تقنية تقليل الأبعاد، بحيث توفر الوقت والجهد وتسهل التعامل مع هذه البيانات. أتاحت هذه التقنية للعلماء المجال للمزيد من الاكتشافات والدراسات فلم يعد هناك شئ مستحيل.
المصادر
- Dimensionality reduction - Wikipedia
- Dimension - Wikipedia
- Difference Between Feature Selection and Feature Extraction - GeeksforGeeks
- Feature Selection In Machine Learning [2024 Edition] - Simplilearn.
- Dimensionality Reduction Techniques — PCA, LCA and SVD | by Indraneel Dutta Baruah | Nerd For Tech | Medium