إحدى أهم الطرق المستخدمة لتقييم جودة النصوص المترجمة هي التقييم ثنائي اللغة بلو BLEU, حيث يقارن بين الترجمة الآلية و الترجمة المرجعية لتحديد مدى التطابق.
في مجال معالجة اللغة الطبيعية, تعد الترجمة النصوص واحدة من بين عدة استخدامات لها, مؤكد أنك استخدمت إحدى برامج الذكاء الاصطناعي المختلفة - من بينها روبوتات الدردشة مثل Chat-Gpt و Gemini وغيرها- لتترجم نصا سواء أكان أثناء دراستك أو عملك أو أغراض أخرى, ولكن كيف يمكن تقييم الترجمة التي يولدها نظام الذكاء الاصطناعي والتأكد من أنها صحيحة أو على الأقل أقرب للصحة؟ هل ستثق بالترجمة وتقبل بها؟
ليس فقط في مجال الترجمة بل أيضا مع تطبيقات مثل وصف الصور أو تلخيص النصوص، حيث تتنوع مجالات الإجابات المقبولة بشكل أكبر, فيبقى التحدي كيف يمكن تقييم أداء النموذج؟
إحدى أهم الطرق هي التقييم ثنائي اللغة (بلو) BLEU, حيث يقوم بمقارنة الترجمة التلقائية بترجمة مرجعية, لنأخذ مثالا على ذلك: إذا أردنا ترجمة الجملة الإنجليزية التالية للغة العربية: "?Hello, how are you today", وكانت الترجمة المرجعية لها الى اللغة العربية: "مرحبًا، كيف حالك اليوم؟"
الآن، لنفترض أن نظام الترجمة الآلية أنتج الترجمة التالية: "مرحبًا، كيف أنت اليوم؟"
ستحسب نقاط BLEU لتقييم التشابه بين الترجمة الآلية والترجمة المرجعية عبر تحليل التراكيب اللفظية المشتركة ، مثل "مرحبًا، كيف" و "كيف حالك" و "اليوم"، ويؤخذ طول الجملة في اعتباره أثناء حساب النقاط.
هذا هو المبدأ العام لحساب BLEU، ويطبق بشكل مماثل باستخدام التراكيب المشتركة بين الترجمة المتولدة آليًا والترجمة المرجعية في اللغة العربية. لم تفهم شيئا ؟ لا مشكلة سنوضح في هذا المقال مفهوم التقييم ثنائي اللغة بلو أو المعروف ب BLEU و سنشرح كيفية عمله وكيف يقوم بالمقارنة بين الترجمتين, اقرأ المقال حتى النهاية.
التقييم ثنائي اللغة (بلو) أو BLEU اختصارا ل Bilingual Evaluation Understudy, هو خوارزمية تستخدم لتقييم جودة نتائج معالجة لغة طبيعية آليا الى لغة أخرى مثل ترجمة النصوص من لغة الى أخرى, عن طريق مقارنة مدى توافق مخرجات النموذج (الترجمة الآلية) مع النتيجة المرجعية (الترجمة المرجعية) التي أنشأها الإنسان. [1]
ثم تقارن ترجمة النموذج بالترجمة المرجعية عالية الجودة, لتقييم مدى التشابه بين الكلمات والتراكيب اللفظية في الترجمة المتولدة مع الموجودة في الترجمة المرجعية, ثم تحسب النقاط لكل قطعة مترجمة.
تقييم بلو عبارة عن رقم يتراوح بين الصفر والواحد, اذا كانت القيمة صفرا فهذا يعني الترجمة الآلية لا تحتوي على تشابه مع الترجمة المرجعية مما يشير الى جودة منخفضة, أما قيمة 1 فتدل على تشابه وتداخل مثالي بين الترجمة الآلية والترجمة المرجعية مما يشير الى جودة عالية.
تم تقديمه من قبل الباحث بابينيني Papineni وآخرين في عام 2002 كمقياس لتقييم أداء نظام الترجمة الآلية.
تحقيق الأهداف التالية هو ما يجعل بلو مفيدا: [2]
1. تقييم سريع: يمكن استخدامه بسرعة لتقييم نتائج الترجمة الآلية, وهذا يساعد في تحديد أداء النظام بشكل فوري دون الحاجة إلى تقييم بشكل يدوي.
2. مقارنة ذات معيار: يوفر التقييم ثنائي اللغة معيارا قياسيا يمكن استخدامه للمقارنة بين أداء أنظمة الترجمة المختلفة. هذا يسهل على الباحثين والمطورين تقييم ومقارنة فعالية تقنيات معالجة اللغة الطبيعية.
3. توجيه البحث والتطوير: يمكن استخدام نتائج BLEU لتوجيه جهود البحث والتطوير نحو تحسين نوعية الترجمة الآلية, مما يساعد في تحديد النقاط الضعيفة والتحسينات الممكنة, بالإضافة الى تحسين الأنظمة باستمرار وضبطها لتحقيق أفضل أداء.
4. متعدد اللغات: التقييم ثنائي اللغة بلو هو مستقل عن اللغة، أي أنه لا يعتمد على اللغة، مما يعني أنه يمكن تطبيقه بكفاءة على أي زوج من لغات الترجمة, بمعنى آخر، يمكن استخدام BLEU لتقييم جودة الترجمة الآلية بين أي لغتين، سواء كانتا متشابهتين أو مختلفتين.
يقوم التقييم ثنائي اللغة بلو بحساب درجته بناء على التطابق بين تراكيب اللغة للترجمة الآلية وتلك المستخدمة في الترجمة المرجعية من خلال ما يعرف ب N-grams في النصوص التي سوف يقارنها. [3]
تمثل ال "n" في مصطلح N-grams عدد العناصر المراد مقارنتها وقد تكون كلمات أ, مقاطع صوتية أو أحرف.
على سبيل المثال, عدد العناصر المراد مقارنتها يعتمد على قيمة "N" في مصطلح N-grams. إذا كان لدينا N=1، فإننا نقوم بمقارنة العناصر الفردية (Unigrams)، أي كلمة بكلمة. إذا كان N=2، نقوم بمقارنة الأزواج المتتالية من العناصر (Bigrams)، وهكذا.
على سبيل المثال، إذا كان لدينا الجملة "أحب أن أقرأ الكتب" وكنا نستخدم n=2 أي Bigrams للمقارنة، سنحصل على:
- "أحب أن"
- "أن أقرأ"
- "أقرأ الكتب"
للمقارنة بين الترجمة المترشحة والترجمة المرجعية. يعني القيمة N تحدد عدد العناصر في كل مجموعة تراكيب يتم مقارنتها.
و لضمان دقة القياس، يقوم تقييم بلو أيضا بتعديل العد الحسابي للتطابق بين N-grams، وهذا يعرف باسم "دقة تسلسل العناصر المعدلة". يتم هذا التعديل لضمان أن يتم حساب التشابه بطريقة تأخذ في اعتبارها عوامل مثل التوازن والتعديل الدقيق للعد الحسابي، مما يسهم في تقدير أكثر دقة لجودة الترجمة.
تعتمد دقة التراكيب المعدلة على حساب بسيط:
1. يتم حساب عدد مرات ظهور كل كلمة (أو تراكيب، وهي مجموعات من الكلمات) في الترجمة الآلية, وبعد ذلك يتم تخزين هذا العدد الإجمالي في متغير يسمى "mmax", هذا الحساب يتم من خلال مقارنة الترجمة المرشحة مع جميع الترجمات المرجعية وحساب مرات ظهور كل كلمة في هذه الترجمات المرجعية.
2. بعد أن تم حساب إجمالي عدد مرات ظهور كل كلمة في الترجمة الآلية وتخزينه في المتغير mmax، يتم الآن تحديد عدد مرات ظهور كل كلمة (تمثل ب mw) داخل هذه الترجمة الآلية, ثم يتم مساواة هذا العدد بقيمة mmax. بهذه الطريقة، يتم ضمان أن عدد مرات ظهور كل كلمة في الترجمة الآلية لا يتجاوز العدد الإجمالي المحسوب لها في جميع الترجمات المرجعية (الذي يمثله mmax).
3. بعد تحديد عدد مرات ظهور كل كلمة mw داخل الترجمة الآلية وجعلها مساوية للقيمة mmax، يتم جمع جميع هذه القيم المعدلة لكل كلمة,ب أي بساطة، يتم تجميع العدد المعدل لظهور كل كلمة داخل الترجمة المرشحة.
4. بعد جمع جميع القيم المعدلة لظهور كل كلمة داخل الترجمة الآلية، يقسم هذا المجموع على إجمالي عدد تراكيب N-grams في النص المترجم, تكون النتيجة قيمة تمثل دقة ظهور التراكيب المحسوبة في الترجمة المرشحة بالمقارنة مع النصوص المرجعية.
للحساب النهائي، يستخدم BLEU صيغة إحصائية حيث يطبق عامل عقوبة مختصرة Brevity penalty BP على الدقة المعدلة.
يحسب هذا العامل على النحو التالي:
1. تكون العقوبة المختصرة مساوية لـ 1 فقط إذا كان عدد الكلمات في الترجمة الآلية أكبر من عدد الكلمات في الترجمة المرجعية.
2. تكون BP مساوية لـ: e^1-r/c, إذا كان عدد الكلمات في النص المترجم أقل من أو يساوي عدد الكلمات في النص المرجعي.
أخيرا، يحسب مقياس بلو بواسطة الصيغة التالية:
BLUE=BP.expen=1Nwnlog pn
تظهر هذه التعبيرات الرياضية أهمية عدد التراكيب N-grams المتطابقة.
يبدأ التجميع عندما يتم اكتشاف تطابق 1-gram، أي عندما يكون n=1. ويستمر التجميع حتى العدد الإجمالي للتطابقات (N).
Pn ينتج قيمة الدقة لكل تطابق n-gram؛ لذلك، n=1 يتوافق مع P1.
رغم أهميته وسرعة أدائه إلا أن بعض التحديات تواجهه, الأمر الرئيسي هو أن بلو يعتمد بشكل كبير على تحليل التراكيب اللفظية (N-grams)، وهو يقوم بمقارنة مدى تطابق هذه التراكيب في الترجمة المتولدة آليًا مع تلك الموجودة في الترجمة المرجعية. [4]
القضية هنا هي أنه قد لا يكون حساسا بما فيه الكفاية للمعنى الكلي للنص أو لانسيابية الترجمة, يعني ذلك أنه قد يعطي تقييما جيدا حتى إذا كانت الترجمة ليست دقيقة أو واضحة من الناحية اللغوية، وذلك لأنه يعتمد أساسا على تكرار بعض الكلمات أو التراكيب المألوفة.
بالإضافة إلى ذلك، قد يعاقب الترجمات التي تكون أطول من الترجمات المرجعية، مما يعني أنه في بعض الحالات، الترجمات الطويلة قد تحصل على نقاط أقل حتى إذا كانت تعبر عن المعنى بشكل أفضل, هذا يمكن أن يكون غير عادل في حالات ترجمة النصوص ذات الطول المختلف.
الخاتمة
في الختام، يبرز التقييم ثنائي اللغة بلو كأداة قيمة لتقييم جودة الترجمة الآلية, حيث يحلل التشابه بين الترجمة المتولدة والترجمة المرجعية، مما يسهل تقييم الأداء بشكل فوري.
توفر تقييم بلو معيارا قياسيا للمقارنة بين أنظمة الترجمة، ويوجه البحث والتطوير نحو تحسين نوعية الترجمة. ومع ذلك، يعتمد بشكل كبير على تحليل التراكيب اللفظية، مما قد يحد من حساسيته للمعنى الشامل للنص, كما تظهر بعض التحديات في تقدير الترجمات ذات الطول المختلف.
ورغم ذلك، يظل التقييم ثنائي اللغة بلو أداة فعالة في تحسين تقنيات معالجة اللغة الطبيعية وتحسين جودة الترجمة الآلية.
المصادر