رؤى المستقبل

بوصلة الكلام: تسهيل المحادثات الجماعية من خلال تحديد موقع الصوت

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
بوصلة الكلام: تسهيل المحادثات الجماعية من خلال تحديد موقع الصوت

تخيل عالماً يصبح فيه تتبع المحادثات الجماعية أمراً سهلاً، حتى مع وجود ضعف في السمع أو في البيئات الصاخبة. تعمل Google Research و DeepMind على تقريب هذا التصور إلى الواقع من خلال SpeechCompass، وهو نهج جديد لتحسين الترجمة المصاحبة المتنقلة باستخدام تحديد موقع الصوت متعدد الميكروفونات. تعالج هذه التقنية، التي حازت مؤخرًا على جائزة “أفضل ورقة بحثية” في CHI 2025، قيودًا كبيرة في تطبيقات تحويل الكلام إلى نص الحالية: صعوبة تمييز المتحدثين في الإعدادات الجماعية. تهدف SpeechCompass إلى التخلص من الحمل المعرفي الزائد وتعزيز إمكانية الوصول من خلال توفير فصل المتحدثين في الوقت الفعلي والتوجيه الاتجاهي.

التغلب على قيود الترجمة المصاحبة المتنقلة الحالية

غالبًا ما تقوم تطبيقات التعرف التلقائي على الكلام (ASR) الحالية على الأجهزة المحمولة بدمج جميع الكلام المترجم، مما يجعل من الصعب تتبع من يتحدث. يمثل هذا عقبة كبيرة للمستخدمين الذين يحتاجون إلى ميزات إمكانية الوصول أو ترجمة اللغات أو تدوين الملاحظات أو محاضر الاجتماعات. غالبًا ما تكون الحلول الحالية، مثل فصل الكلام السمعي البصري وتضمين المتحدث، غير عملية للاستخدام المحمول بسبب متطلبات الكاميرا أو الحاجة إلى التسجيل المسبق لبصمات الصوت. يقدم SpeechCompass بديلاً أكثر عملية ووعيًا بالخصوصية.

تقديم SpeechCompass: فصل المتحدثين والتوجيه الاتجاهي

تعمل SpeechCompass على تحسين الترجمة المصاحبة المتنقلة بميزتين رئيسيتين:

  • فصل المتحدثين: فصل المتحدثين في نص ASR مع إشارات مرئية مرمزة بالألوان.
  • تحديد الموقع في الوقت الفعلي: مؤشرات اتجاهية، مثل الأسهم، توجه المستخدم إلى مصدر الكلام.

يوفر هذا النهج متعدد الميكروفونات العديد من المزايا:

  • تكاليف حسابية أقل: تعمل الخوارزمية على وحدات تحكم دقيقة صغيرة بذاكرة وحساب محدودين، على عكس الأساليب القائمة على التعلم الآلي.
  • تقليل زمن الوصول: يتم استخراج المعلومات الاتجاهية من الخصائص الصوتية الأساسية، مما يتيح التشغيل في الوقت الفعلي مع الحد الأدنى من التأخير.
  • حماية أكبر للخصوصية: يفترض النظام أن المتحدثين منفصلون جسديًا ولا يتطلبون الفيديو أو معلومات تعريف شخصية فريدة.
  • تشغيل مستقل عن اللغة: يحلل SpeechCompass الاختلافات بين الأشكال الموجية الصوتية دون افتراضات مسبقة حول المحتوى.
  • إعادة تكوين فورية: يؤدي تحريك الهاتف إلى إعادة تكوين SpeechCompass على الفور.

التنفيذ والتفاصيل الفنية

يتم تنفيذ SpeechCompass في شكلين:

  • نموذج أولي لحافظة الهاتف: تتيح حافظة هاتف مخصصة بأربعة ميكروفونات متصلة بوحدة تحكم دقيقة منخفضة الطاقة تحديد موقع الصوت بزاوية 360 درجة.
  • تنفيذ البرنامج: يوفر إصدار برمجي للهواتف الحالية التي تحتوي على اثنين أو أكثر من الميكروفونات (مثل هواتف Pixel) تحديد موقع الصوت بزاوية 180 درجة.

يعالج النظام تحدي ارتداد الصوت في البيئات الداخلية باستخدام خوارزمية تحديد الموقع بناءً على الفرق الزمني للوصول (TDOA). تقدر الخوارزمية TDOA بين أزواج الميكروفونات باستخدام الارتباط المتقاطع المعمم مع تحويل الطور (GCC-PHAT) وتطبق تقديرات إحصائية لتحسين الدقة. يحل استخدام 3 ميكروفونات أو أكثر مشكلات الالتباس “الأمامي الخلفي” الموجودة في حلول الميكروفونين.

واجهة المستخدم وأنماط التصور

يعرض تطبيق Android النصوص المحسّنة بأنماط تصور متعددة للإشارة إلى اتجاه المتحدث:

  • نص ملون: يتم تمييز المتحدثين بنصوص ملونة مختلفة.
  • الصور الرمزية الاتجاهية: تشير الأسهم أو الأقراص أو تمييزات الألوان إلى موقع المتحدث.
  • الخريطة المصغرة: تعرض شاشة تشبه الرادار موقع المتحدث.
  • مؤشرات الحافة: تبرز الإشارات المرئية حول حواف الشاشة اتجاه المتحدث.
  • قمع الكلام غير المرغوب فيه: يمكن للمستخدمين النقر على حواف الشاشة لقمع الكلام من اتجاهات معينة، وإزالة كلامهم أو المحادثات غير ذات الصلة، وتعزيز الخصوصية.

الأداء وتقييم المستخدم

أظهرت التقييمات الفنية أن SpeechCompass يمكنه تحديد اتجاه الصوت بدقة، بمتوسط خطأ يتراوح بين 11 درجة و 22 درجة عند مستوى صوت المحادثة العادي. هذه الدقة قابلة للمقارنة بقدرات تحديد موقع الصوت البشري. تفوق تكوين الميكروفون الأربعة باستمرار على إعداد الميكروفون الثلاثة في معدل خطأ الفصل (DER).

كشفت استطلاعات المستخدمين أن تقنية الترجمة المصاحبة المتنقلة الحالية تكافح لتمييز المتحدثين في المحادثات الجماعية. سلطت ملاحظات المستخدمين على نموذج SpeechCompass الأولي الضوء على قيمة التوجيه الاتجاهي، حيث كان النص الملون والأسهم الاتجاهية هما طرق التصور الأكثر تفضيلاً.

التوجهات المستقبلية

تطبيقات SpeechCompass المحتملة واسعة النطاق، بما في ذلك:

  • إعدادات الفصول الدراسية لمتابعة المناقشات.
  • اجتماعات العمل والمقابلات والتجمعات الاجتماعية لتتبع تغييرات المتحدثين.

قد يشمل التطوير المستقبلي:

  • التكامل مع عوامل الشكل القابلة للارتداء مثل النظارات الذكية والساعات الذكية.
  • تعزيز قوة الضوضاء من خلال التعلم الآلي.
  • مزيد من التخصيص لتفضيلات التصور.
  • دراسات طولية لفهم التبني والسلوك في السيناريوهات اليومية.

يمثل SpeechCompass خطوة مهمة نحو جعل التواصل أكثر سهولة وشمولية، ويلهم المزيد من الابتكار في هذا المجال الحيوي.


المصدر: Google Research, Google DeepMind

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...