رؤى المستقبل

MMCTAgent: وكيل الذكاء الاصطناعي متعدد الوسائط من Microsoft للاستدلال على بيانات الفيديو والصور واسعة النطاق

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
MMCTAgent: وكيل الذكاء الاصطناعي متعدد الوسائط من Microsoft للاستدلال على بيانات الفيديو والصور واسعة النطاق

كشفت Microsoft Research عن MMCTAgent، وهو وكيل ذكاء اصطناعي جديد متعدد الوسائط مصمم لمواجهة تحديات الاستدلال على بيانات الفيديو والصور واسعة النطاق وطويلة الشكل. غالبًا ما تكافح نماذج الذكاء الاصطناعي الحالية مع تحليل محتوى الفيديو الممتد أو الاستعلام عبر مكتبات الوسائط المتعددة الشاسعة. يستخدم MMCTAgent، المبني على AutoGen من Microsoft، بنية مخطط-ناقد لتمكين الاستدلال المنظم والتخطيط والتفكير والتحليل المستند إلى الأدوات، ومعالجة قيود نماذج الاستدلال ذات التمريرة الواحدة.

الميزات الرئيسية وهيكل MMCTAgent

تبرز MMCTAgent بقدرتها على إجراء استدلال تكراري باستخدام وكلاء خاصين بالوسائط.

  • هيكل مخطط-ناقد: يستخدم الوكيل مخططًا لتحليل الاستعلامات وتحديد الأدوات الضرورية وصياغة إجابات أولية. ثم يقوم ناقد بتقييم استدلال المخطط والتحقق من صحة الأدلة وتنقيح الاستجابة لتحقيق الدقة والاتساق.
  • وكلاء خاصون بالوسائط: تشتمل MMCTAgent على وكلاء متخصصين مثل ImageAgent و VideoAgent، كل منهم مجهز بأدوات ذات صلة مثل get_relevant_query_frames() و object_detection_tool().
  • القابلية للتوسيع: يمكن للمطورين دمج أدوات خاصة بالمجال، مثل محللات الصور الطبية أو نماذج الفحص الصناعي، مما يجعل MMCTAgent قابلة للتكيف مع التطبيقات المختلفة.

VideoAgent: الاستدلال على الفيديو طويل الشكل

تم تصميم مكون VideoAgent خصيصًا لتحليل الفيديو طويل الشكل ويعمل على مرحلتين:

  • المرحلة الأولى: استيعاب الفيديو وإنشاء المكتبة: تتضمن هذه المرحلة معالجة مسبقة لمقاطع الفيديو لإنشاء قاعدة معرفة قابلة للبحث.

    • النسخ والترجمة: يتم نسخ الصوت إلى نص، ويتم ترجمة المحتوى متعدد اللغات إلى لغة موحدة.
    • تحديد الإطارات الرئيسية: يتم استخراج الإطارات التمثيلية التي تدل على تغييرات المشهد.
    • التقطيع الدلالي وإنشاء الفصول: يتم دمج النصوص وملخصات الفيديو في فصول متماسكة مع إطارات رئيسية. يتم إجراء الكشف عن الكائنات والتعرف على النص الذي يظهر على الشاشة.
    • إنشاء تضمين متعدد الوسائط: يتم إنشاء تضمينات صور للإطارات الرئيسية، وربطها بالنصوص وبيانات الفصول المقابلة.
    • الفهرسة: تتم فهرسة البيانات الوصفية المنظمة باستخدام Azure AI Search لاسترجاع دلالي قابل للتطوير.
  • المرحلة الثانية: الإجابة على أسئلة الفيديو والاستدلال: عندما يطرح المستخدم سؤالاً، يسترجع VideoAgent المعلومات ذات الصلة ويحللها باستخدام أدوات متخصصة.

    • أدوات المخطط: تشمل get_video_analysis و get_context و get_relevant_frames و query_frame لاسترداد ملخصات الفيديو والفصول ذات الصلة والإطارات الرئيسية والاستدلال المرئي/النصي التفصيلي.
    • أداة الناقد: تتحقق critic_tool من صحة الاستدلال من حيث المحاذاة الزمنية والدقة الواقعية والتماسك.

ImageAgent: استدلال منظم للمرئيات الثابتة

يطبق ImageAgent بنية المخطط-الناقد على تحليل الصور الثابتة، مما يوفر استدلالًا معياريًا يعتمد على الأدوات.

  • أدوات المخطط: يستخدم أدوات مثل vit_tool (Vision Transformer) و recog_tool (التعرف على المشهد والوجه والكائن) و object_detection_tool و ocr_tool لإجراء فهم ووصف مرئي.
  • أداة الناقد: تتحقق critic_tool من صحة استنتاجات المخطط، مما يضمن التوافق والدقة الواقعية.

التقييم والأداء

تم تقييم MMCTAgent باستخدام مجموعة متنوعة من مجموعات البيانات القياسية، مما يدل على تحسن الأداء مقارنة بنماذج LLM الأساسية. يؤدي دمج الأدوات المناسبة إلى تحسين الدقة بشكل كبير. على سبيل المثال، في مجموعة بيانات MM-Vet، أدى دمج الأدوات إلى رفع دقة GPT-4V من 60.20٪ إلى 74.24٪. تعمل أداة الناقد القابلة للتكوين على تحسين النتائج في المجالات الحرجة.

خاتمة

يقدم MMCTAgent تقدمًا كبيرًا في الذكاء الاصطناعي متعدد الوسائط، حيث يقدم حلاً قابلاً للتطوير والتكيف للاستدلال على مجموعات بيانات الفيديو والصور الكبيرة. إن هيكلها المخطط-الناقد ووكلاءها الخاصين بالوسائط وسلسلة الأدوات القابلة للتوسيع تجعلها أداة قوية لمختلف التطبيقات، من تحليل الصور الطبية إلى الفحص الصناعي. إن التزام Microsoft بالمصدر المفتوح والنشر الأصلي في Azure يضع MMCTAgent كأصل قيم للمطورين الذين يتطلعون إلى إنشاء تطبيقات مبتكرة متعددة الوسائط. ستركز الجهود المستقبلية على تعزيز الكفاءة والقدرة على التكيف واستكشاف تطبيقات جديدة في العالم الحقيقي من خلال مبادرات مثل Project Gecko.


المصدر: Microsoft Research

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...