تشكل الفجوة الرقمية اللغوية، التي تتميز بالتباين في توافر المحتوى الرقمي وإمكانية الوصول إليه والدعم التكنولوجي بين اللغات السائدة واللغات قليلة الموارد، تحديًا كبيرًا في عصر الذكاء الاصطناعي. يسلط تعليق حديث لمؤسسة بروكينجز بقلم تشيناسا ت. أوكولو وماري تانو الضوء على كيف يمكن لتقنيات الترجمة الآلية متعددة اللغات أن تزيد أو تخفف من هذه الفجوة. يؤكد تحليلهما على الحاجة الماسة إلى تجاوز مجرد إضافة المزيد من اللغات إلى مجموعات البيانات والتركيز بدلاً من ذلك على معالجة ديناميكيات القوة والتحيزات والاعتبارات الأخلاقية التي تشكل كيفية تمثيل هذه اللغات واستخدامها في المجال الرقمي.
الفجوة الرقمية اللغوية وأسبابها الجذرية
يؤكد المؤلفان على الفجوة المتزايدة بين لغات مثل الإنجليزية والإسبانية والصينية والفرنسية واللغات الأقل دعمًا مثل الملغاشية والنافاجو. ينبع هذا التفاوت من عدة عوامل:
- نقص الاستثمار: عدم كفاية الاستثمار في تكنولوجيا اللغة للغات قليلة الموارد.
- التمثيل المحدود: عدم كفاية الإدراج في المنصات الرقمية والتعليمية.
- بيانات تدريب الذكاء الاصطناعي المتحيزة: عدم كفاية الإدراج في مجموعات بيانات تدريب الذكاء الاصطناعي، مما يؤدي إلى خوارزميات متحيزة.
تتفاقم هذه الفجوة الرقمية اللغوية بسبب استغلال مدققي البيانات في الجنوب العالمي، الذين غالبًا ما يتقاضون أجورًا زهيدة ويتم تجاهل رؤاهم الثقافية على الرغم من دورهم الحاسم في تطوير الذكاء الاصطناعي.
الوعد والخطر في الترجمة الآلية متعددة اللغات
في حين أن شركات مثل Google و OpenAI قد حققت خطوات واسعة في دعم العديد من اللغات في نماذج الترجمة الخاصة بها، يجادل المؤلفان بأن هذه الجهود غالبًا ما تكون قاصرة بالنسبة للغات قليلة الموارد. ويشيرون إلى أن:
- غالبًا ما تعطي الشركات الكبرى الأولوية للتوسع عبر اللغات عالية الموارد، وتضحي بالعمق والجودة في اللغات الأقل شيوعًا.
- تحتوي مجموعات البيانات متعددة اللغات بشكل متكرر على أخطاء وتسميات خاطئة ونصوص منخفضة الجودة.
- أظهرت الدراسات أن الادعاءات المتعلقة بالترجمة عالية الجودة للغات قليلة الموارد من قبل شركات التكنولوجيا الكبرى غالبًا ما تكون مبالغ فيها، خاصة فيما يتعلق بالخطاب العامي.
تظهر المبادرات المحلية، على النقيض من ذلك، فهمًا أفضل للسياقات الثقافية واللغوية، مما يؤدي إلى ترجمات عالية الجودة.
أهمية التوطين والمشاركة المجتمعية
يؤكد التعليق على الحاجة الماسة إلى المبادرات المحلية الحساسة للسياقات الثقافية والاجتماعية الفريدة لمجتمعات معينة. يحذر المؤلفان من الاعتماد فقط على نماذج اللغة التجارية الكبيرة، مشيرين إلى احتمالية إساءة الاستخدام والضرر. على سبيل المثال، فإن تضمين Google Translate للغة الغجرية، على الرغم من أنه يبدو مفيدًا، يحمل مخاطر التضليل والتلاعب دون موافقة المجتمع. وهذا يستلزم:
- موافقة المجتمع: المشاركة النشطة والموافقة من المجتمعات في كيفية استخدام لغاتهم في نماذج الترجمة.
- الحماية الثقافية: التأكد من أن الترجمات تحترم وتحمي التراث الثقافي، وتحمي من سوء الاستخدام.
طريق إلى الأمام: موارد عادلة وتعاون
يتطلب سد الفجوة الرقمية اللغوية اتباع نهج متعدد الأوجه:
- الاعتراف بعمال البيانات: تقدير عمال البيانات كمساهمين ومصادر للمعرفة، وليسوا مجرد عمالة رخيصة.
- إشراك الخبراء المحليين: إشراك الخبراء المحليين دون تدريب تقني رسمي في عملية تطوير الترجمة الآلية.
- التعاون مع المؤسسات: الشراكة مع المؤسسات الأكاديمية المحلية والمنظمات المجتمعية للحصول على الخبرة اللغوية والتحقق من البيانات.
- دعم المبادرات المحلية: توفير التمويل والموارد للمشاريع الصغيرة التي تركز على السياقات اللغوية والثقافية المحددة، مثل Ghana NLP و Lesan.ai و Masakhane.
يتم تسليط الضوء على مبادرات مثل مشروع Elevate Black Voices (EBV) كأمثلة ناجحة على المشاركة المجتمعية وجمع البيانات بشكل مسؤول. يهدف المشروع، وهو تعاون بين Google وجامعة Howard، إلى إنشاء مجموعة بيانات لغوية عالية الجودة للغة الإنجليزية الأمريكية الأفريقية (AAE) مملوكة ومدارة من قبل الجامعة، مما يضمن استفادة المجتمع الأسود من البيانات.
يختتم المؤلفان بأن مستقبلًا رقميًا عادلاً ومنصفًا حقًا يستلزم تعزيز الجهود التعاونية وبناء الخبرات المحلية وضمان ممارسات العمل العادلة، مما يسمح لجميع اللغات والمتحدثين بها بالمشاركة الكاملة في التقدم التكنولوجي والاستفادة منه.
المصدر: TechTank
The digital language divide, characterized by the disparity in digital content availability, accessibility, and technological support between dominant and low-resourced languages, poses a significant challenge in the age of AI. A recent Brookings Institution commentary by Chinasa T. Okolo and Marie Tano highlights how multilingual machine translation technologies can either exacerbate or mitigate this divide. Their analysis emphasizes the critical need to move beyond simply adding more languages to datasets and instead focus on addressing the power dynamics, biases, and ethical considerations that shape how these languages are represented and used in the digital realm.
The Digital Language Divide and its Root Causes
The authors underscore the widening gap between languages like English, Spanish, Chinese, and French, and lesser-supported languages such as Malagasy and Navajo. This disparity stems from several factors:
- Lack of Investment: Insufficient investment in language technology for under-resourced languages.
- Limited Representation: Inadequate inclusion in digital and educational platforms.
- Biased AI Training Data: Insufficient inclusion in AI training datasets, leading to biased algorithms.
This digital language divide is further compounded by the exploitation of data annotators in the Global South, who are often underpaid and whose cultural insights are overlooked despite their crucial role in AI development.
The Promise and Peril of Multilingual Machine Translation
While companies like Google and OpenAI have made strides in supporting numerous languages in their translation models, the authors argue that these efforts often fall short for low-resourced languages. They point out that:
- Larger companies often prioritize scaling across high-resourced languages, sacrificing depth and quality in less common languages.
- Multilingual datasets frequently contain errors, mislabeling, and low-quality text.
- Studies have shown that claims of high-quality translation for low-resourced languages by major tech companies are often exaggerated, especially regarding colloquial speech.
Localized initiatives, in contrast, demonstrate a better understanding of cultural and linguistic contexts, leading to higher-quality translations.
The Importance of Localization and Community Involvement
The commentary emphasizes the critical need for localized initiatives that are sensitive to the unique cultural and social contexts of specific communities. The authors warn against relying solely on large, commercial language models, citing the potential for misuse and harm. For instance, Google Translate’s inclusion of the Romani language, while seemingly beneficial, carries risks of disinformation and manipulation without community consent. This necessitates:
- Community Consent: Active participation and consent from communities in how their languages are used in translation models.
- Cultural Protection: Ensuring that translations respect and protect cultural heritage, safeguarding against misuse.
A Path Forward: Equitable Resources and Collaboration
Closing the digital language divide requires a multi-faceted approach:
- Recognizing Data Workers: Valuing data workers as collaborators and sources of knowledge, rather than just cheap labor.
- Engaging Local Experts: Involving local experts without formal technical training in the machine translation development process.
- Collaborating with Institutions: Partnering with local academic institutions and community-based organizations for linguistic expertise and data verification.
- Supporting Local Initiatives: Providing funding and resources to smaller-scale projects that focus on specific linguistic and cultural contexts, such as Ghana NLP, Lesan.ai, and Masakhane.
Initiatives like Project Elevate Black Voices (EBV) are highlighted as successful examples of community involvement and responsible data collection. The project, a collaboration between Google and Howard University, aims to create a high-quality African American English (AAE) linguistic dataset owned and managed by the university, ensuring that the data benefit the Black community.
The authors conclude that a truly equitable and just digital future necessitates fostering collaborative efforts, building local expertise, and ensuring fair labor practices, allowing all languages and their speakers to fully participate in and benefit from technological advancements.
Source: TechTank
جاري تحميل التعليقات...