فيسبوك تفتح نموذج نموذج ذكاء اصطناعي يمكنه ترجمة 100 لغة
النشرة الدولية –
قامت شركة فيسبوك بفتح نموذج ذكاء اصطناعي يمكنه الترجمة بين أي لغة من أصل 100 لغة دون ترجمتها أولاً إلى الإنجليزية كخطوة وسيطة.
ويسمى النظام (M2M-100)، وهو حاليًا مشروع بحثي فقط، لكن يمكن استخدامه في النهاية لترجمة المنشورات لمستخدمي فيسبوك الذين ينشرون المحتوى بأكثر من 160 لغة.
وقالت أنجيلا فان، مساعدة البحث في فيسبوك، في إحدى التدوينات: كان باحثو الذكاء الاصطناعي يعملون على مدار سنوات من أجل بناء نموذج عالمي واحد يمكنه فهم جميع اللغات عبر المهام المختلفة.
وأضافت: يساعدنا نموذج واحد يدعم جميع اللغات واللهجات على تقديم خدمة أفضل لعدد أكبر من الأشخاص، وتحديث الترجمات باستمرار، وإيجاد تجارب جديدة لمليارات الأشخاص على قدم المساواة، ويقربنا هذا العمل من هذا الهدف.
وتم تدريب النموذج من خلال مجموعة بيانات مكونة من 7.5 مليارات زوج من الجمل عبر 100 لغة تم استخراجها من الويب، وتقول فيسبوك: إن هذه الموارد هي مفتوحة المصدر وتستخدم البيانات المتاحة للجمهور.
وركز الباحثون على ترجمات اللغات الأكثر شيوعًا وتجنب الترجمات النادرة، مثل السنهالية الجاوية، ثم قاموا بتجميع اللغات في 14 مجموعة مختلفة، بناءً على أوجه التشابه اللغوي والجغرافي والثقافي.
وتم اختيار هذا الأسلوب لأن الأشخاص في البلدان ذات اللغات التي تشترك في هذه الخصائص من المرجح أن يستفيدوا من الترجمات فيما بينهم.
وتضمنت إحدى المجموعات اللغات الشائعة في الهند، مثل: الهندية والبنغالية والماراثية، وتم استخراج جميع الأزواج اللغوية الممكنة داخل كل مجموعة.
وتم ربط لغات المجموعات المختلفة من خلال عدد صغير من لغات الربط، حيث عملت الهندية والبنغالية والتاميلية في مجموعة اللغة الهندية كلغات ربط للغات الهندية الآرية.
وقام الفريق بعد ذلك بالتنقيب عن بيانات التدريب لجميع مجموعات لغات الربط، مما أوجد مجموعة بيانات مكونة من 7.5 مليارات جملة متوازية تتوافق مع 2200 اتجاه ترجمة.
وبالنسبة للغات التي تفتقر إلى بيانات ترجمة عالية الجودة، استخدم الباحثون طريقة تسمى الترجمة العكسية لإيجاد ترجمات تركيبية يمكن أن تكمل البيانات المجمعة.
ونتج عن هذا المزيج من التقنيات أول نموذج ترجمة آلية متعدد اللغات (MMT) يمكنه الترجمة بين أي زوج من 100 لغة دون الاعتماد على البيانات الإنجليزية.
وقالت فان: عند الترجمة من الصينية إلى الفرنسية، فإن معظم النماذج المتعددة اللغات التي تتمحور حول اللغة الإنجليزية تتدرب عبر بيانات الترجمة من الصينية إلى الإنجليزية وعبر بيانات الترجمة من الإنجليزية إلى الفرنسية، وذلك لأن بيانات التدريب الإنجليزية هي الأكثر توفرًا على نطاق واسع.
وأضافت: يتدرب نموذجنا بشكل مباشر عبر بيانات الترجمة من الصينية إلى الفرنسية للحفاظ على المعنى بشكل أفضل.