الرؤية الحاسوبية هي تقنية تساعد الآلات الذكية في معالجة محتوى الصور والفيديوهات بدقة عالية باستخدام الشبكة العصبية الالتفافية, تعرف عليها في هذا المقال.
هل تعلم كيف تعمل المركبات ذاتية القيادة؟ كيف لمركبة أن تقود نفسها في وسط الزحام دون أن تصطدم وكيف لها أن تعرف إذا ما كان هناك إشارة ضوئية يجب أن تتوقف عندها, ماذا لو كانت تقود بالقرب من ممر مشاة كيف لها أن تتوقف إذا أراد شخص أن يمر منه, يعود الفضل لتقنية تعتبر من أهم تقنيات الذكاء الاصطناعي ألا وهي الرؤية الحاسوبية Computer Vision. بالطبع لا يقتصر استخدام الرؤية الحاسوبية على المركبات ذاتية القيادة بل تتوسع لتشمل مجالات كثيرة, لذلك سنتحدث في هذا المقال عن مفهومها وأهميتها في مجال الذكاء الاصطناعي وأهم التطبيقات المستخدمة فيها وغيرها من المعلومات القيمة. تابع معنا.
الرؤية الحاسوبية Computer Vision تعتبر فرع من فروع الذكاء الاصطناعي, تمكن الآلات من فهم محتوى الصور والفيديو واستخراج المعلومات منها لتحليلها لاتخاذ إجراء معين, باختلاف مصادر الصور سواء تم إنشاؤها من هواتف ذكية أو كاميرات مرور أو أجهزة أخرى. لتتمكن من تحليل بيانات الصور والفيديو ومعالجتها فإنها تستخدم خوارزميات الذكاء الاصطناعي وتعلم الآلة.[1]
تستخدم الرؤية الحاسوبية في المجالات التي تتطلب تحديد الأشياء مثل التعرف على الوجوه بالإضافة الى التصنيف والمراقبة, كما يمتد استخدامها لتشمل مجالات الطاقة والصناعة ويتوقع أن تتطور لمجالات أكثر.
بتعبير مجازي, تعتبر الرؤية الحاسوبية بمثابة عيون لآلات الذكاء الاصطناعي تستطيع من خلالها تحديد المسافات بين الأجسام المختلفة, كما يمكنها قياس كم يبعد الجسم عنها وهل هو يتحرك أم في حالة سكون.[2]
دور الرؤية الحاسوبية في تحقيق كل هذه الخصائص يكون عن طريق تدريب الآلات والأجهزة الذكية على ذلك من خلال استخدام البيانات المختلفة والخوارزميات.
كما أنها تعد نقلة نوعية في معالجة البيانات المرئية, إذ صارت العملية مؤتمتة بالكامل بعد أن كانت تتطلب التدخل البشري مما جعلها تستغرق وقتا طويلا و معرضة للخطأ.
لنأخذ لمحة من عن كيفية عملها في الماضي؛ في مجال التعرف على الوجوه كان يتطلب تطوير نظام لتحديد نقاط معينة في الوجه، مثل العيون والأنف والفم، ثم استخدام هذه الميزات لتمييز الأشخاص. هذا العمل كان يتطلب فهم عميق للتحليل البصري والبرمجة اليدوية.
تطويرها جعل عملية معالجة البيانات المستخرجة من الصور والفيديوهات أكثر دقة وجودة, بالإضافة الى دورها في تقليل التكاليف للشركات لأنها خالية من الأخطاء فلا يتكبدون عناء تصحيحها.
تعتمد آلية عمل رؤية الحاسوب على نوعين أساسين من التقنيات وهما: التعلم العميق ونوع من الشبكات العصبية تسمى شبكة عصبية التفافية Convolutional neural networks كما أنها تحتاج الى كم هائل من البيانات والتحليل المتكرر لها حتى يستطيع النموذج التمييز بين الكائنات وبالتالي معرفة الصور.
تبدأ آلية العمل بتعريض النموذج لمجموعة كبيرة من البيانات ليقوم فيما بعد باستخدام خوارزميات التعلم العميق -التي تجعله يعلم نفسه بنفسه دون الحاجة لتدخل بشري- من التمييز بين الصور ومعرفة الاختلافات بينها بشكل ذاتي. [3]
توجه الشبكة العصبية الالتفافية و التعلم العميق نموذج الذكاء الاصطناعي الى فهم الصورة عن طريق تقسيمها الى مناطق صغيرة تسمى بكسلات حيث يتم إعطاء قيمة تصنيفية لكل بكسل في الصورة. تستخدم الشبكة العصبية القيمة التصنيفية في عملية تسمى الالتفاف Convolutions لتقدم توقعات حول ما تراه في الصورة, ثم تقوم بفحص دقة ما توقعته, يتم تكرار هذه العملية الى أن تصبح التوقعات صحيحة. عندها يمكن القول أن النموذج يستطيع التعرف على الصور بطريقة مشابهة للبشر.
تقوم الشبكة العصبية الالتفافية أولا بالتعرف على الحواف والأشكال البسيطة في الصورة ثم تدريجيا ومع تكرار عملية التوقعات تبدأ بفهم محتويات الصورة الأكثر تعقيدا إلى أن تصل الى الفهم الكامل لمحتواها.
على سبيل المثال، بدلا من تدريب النموذج على التعرف على قطة معينة من خلال عرض صورة واحدة لقطة، يتم تغذيته بآلاف صور القطط مع تغييرات في اللون والوضع والخلفية بحيث يتيح هذا النطاق المتنوع من البيانات للنموذج أن يعمل بشكل عام ويتعلم السمات التي تحدد القطة، مما يجعله أكثر قدرة على التعرف على القطط في صور جديدة وغير معروفة.
الشبكة العصبية المتكررة تستخدم لمعالجة سلسلة من الصور وفهم العلاقة بينها لذلك يتم الاستفادة منها لتحليل مقاطع الفيديو, أما الشبكة العصبية الالتفافية تستخدم لتحليل صورة واحدة.
أدخلت الرؤية الحاسوبية تقريبا في معظم المجالات كالمجال الصحي والمجال الصناعي ومجال النقل وحتى في مجال الرياضة, في هذا القسم سنذكر أبرز التطبيقات عليها: [4]
الخاتمة
بدأنا المقال بحديثنا عن مفهوم الرؤية الحاسوبية وهي تقنية تمكن نماذج الذكاء الاصطناعي من فهم وتحليل محتوى الصور واستخراج المعلومات منها, ثم تحدثنا عن أهميتها في تسريع هذه العملية و أتمتتها بالكامل مما أدى الى معالجة الصور بدقة وجودة أكبر. تعتمد آلية عملها على الشبكة العصبية الالتفافية والتعلم العميق.
لا يمكن الاستغناء عنها في تدخل في العديد من المجالات بدءا من المجال الصحي وانتهاء بمجال الرياضة.
في النهاية, مع استمرار التقدم في هذا المجال يمكننا توقع المزيد من التطورات والتطبيقات الابتكارية التي ستشكل جزءا لا يتجزأ من حياتنا اليومية والتقدم الاقتصادي والاجتماعي.
المصادر