كشفت Microsoft Research عن MMCTAgent، وهو وكيل ذكاء اصطناعي جديد متعدد الوسائط مصمم لمواجهة تحديات الاستدلال على بيانات الفيديو والصور واسعة النطاق وطويلة الشكل. غالبًا ما تكافح نماذج الذكاء الاصطناعي الحالية مع تحليل محتوى الفيديو الممتد أو الاستعلام عبر مكتبات الوسائط المتعددة الشاسعة. يستخدم MMCTAgent، المبني على AutoGen من Microsoft، بنية مخطط-ناقد لتمكين الاستدلال المنظم والتخطيط والتفكير والتحليل المستند إلى الأدوات، ومعالجة قيود نماذج الاستدلال ذات التمريرة الواحدة.
الميزات الرئيسية وهيكل MMCTAgent
تبرز MMCTAgent بقدرتها على إجراء استدلال تكراري باستخدام وكلاء خاصين بالوسائط.
- هيكل مخطط-ناقد: يستخدم الوكيل مخططًا لتحليل الاستعلامات وتحديد الأدوات الضرورية وصياغة إجابات أولية. ثم يقوم ناقد بتقييم استدلال المخطط والتحقق من صحة الأدلة وتنقيح الاستجابة لتحقيق الدقة والاتساق.
- وكلاء خاصون بالوسائط: تشتمل MMCTAgent على وكلاء متخصصين مثل
ImageAgent و VideoAgent، كل منهم مجهز بأدوات ذات صلة مثل get_relevant_query_frames() و object_detection_tool().
- القابلية للتوسيع: يمكن للمطورين دمج أدوات خاصة بالمجال، مثل محللات الصور الطبية أو نماذج الفحص الصناعي، مما يجعل MMCTAgent قابلة للتكيف مع التطبيقات المختلفة.
VideoAgent: الاستدلال على الفيديو طويل الشكل
تم تصميم مكون VideoAgent خصيصًا لتحليل الفيديو طويل الشكل ويعمل على مرحلتين:
-
المرحلة الأولى: استيعاب الفيديو وإنشاء المكتبة: تتضمن هذه المرحلة معالجة مسبقة لمقاطع الفيديو لإنشاء قاعدة معرفة قابلة للبحث.
- النسخ والترجمة: يتم نسخ الصوت إلى نص، ويتم ترجمة المحتوى متعدد اللغات إلى لغة موحدة.
- تحديد الإطارات الرئيسية: يتم استخراج الإطارات التمثيلية التي تدل على تغييرات المشهد.
- التقطيع الدلالي وإنشاء الفصول: يتم دمج النصوص وملخصات الفيديو في فصول متماسكة مع إطارات رئيسية. يتم إجراء الكشف عن الكائنات والتعرف على النص الذي يظهر على الشاشة.
- إنشاء تضمين متعدد الوسائط: يتم إنشاء تضمينات صور للإطارات الرئيسية، وربطها بالنصوص وبيانات الفصول المقابلة.
- الفهرسة: تتم فهرسة البيانات الوصفية المنظمة باستخدام Azure AI Search لاسترجاع دلالي قابل للتطوير.
-
المرحلة الثانية: الإجابة على أسئلة الفيديو والاستدلال: عندما يطرح المستخدم سؤالاً، يسترجع VideoAgent المعلومات ذات الصلة ويحللها باستخدام أدوات متخصصة.
- أدوات المخطط: تشمل
get_video_analysis و get_context و get_relevant_frames و query_frame لاسترداد ملخصات الفيديو والفصول ذات الصلة والإطارات الرئيسية والاستدلال المرئي/النصي التفصيلي.
- أداة الناقد: تتحقق
critic_tool من صحة الاستدلال من حيث المحاذاة الزمنية والدقة الواقعية والتماسك.
ImageAgent: استدلال منظم للمرئيات الثابتة
يطبق ImageAgent بنية المخطط-الناقد على تحليل الصور الثابتة، مما يوفر استدلالًا معياريًا يعتمد على الأدوات.
- أدوات المخطط: يستخدم أدوات مثل
vit_tool (Vision Transformer) و recog_tool (التعرف على المشهد والوجه والكائن) و object_detection_tool و ocr_tool لإجراء فهم ووصف مرئي.
- أداة الناقد: تتحقق
critic_tool من صحة استنتاجات المخطط، مما يضمن التوافق والدقة الواقعية.
التقييم والأداء
تم تقييم MMCTAgent باستخدام مجموعة متنوعة من مجموعات البيانات القياسية، مما يدل على تحسن الأداء مقارنة بنماذج LLM الأساسية. يؤدي دمج الأدوات المناسبة إلى تحسين الدقة بشكل كبير. على سبيل المثال، في مجموعة بيانات MM-Vet، أدى دمج الأدوات إلى رفع دقة GPT-4V من 60.20٪ إلى 74.24٪. تعمل أداة الناقد القابلة للتكوين على تحسين النتائج في المجالات الحرجة.
خاتمة
يقدم MMCTAgent تقدمًا كبيرًا في الذكاء الاصطناعي متعدد الوسائط، حيث يقدم حلاً قابلاً للتطوير والتكيف للاستدلال على مجموعات بيانات الفيديو والصور الكبيرة. إن هيكلها المخطط-الناقد ووكلاءها الخاصين بالوسائط وسلسلة الأدوات القابلة للتوسيع تجعلها أداة قوية لمختلف التطبيقات، من تحليل الصور الطبية إلى الفحص الصناعي. إن التزام Microsoft بالمصدر المفتوح والنشر الأصلي في Azure يضع MMCTAgent كأصل قيم للمطورين الذين يتطلعون إلى إنشاء تطبيقات مبتكرة متعددة الوسائط. ستركز الجهود المستقبلية على تعزيز الكفاءة والقدرة على التكيف واستكشاف تطبيقات جديدة في العالم الحقيقي من خلال مبادرات مثل Project Gecko.
المصدر: Microsoft Research
Microsoft Research has unveiled MMCTAgent, a novel multimodal AI agent designed to tackle the challenges of reasoning over large-scale, long-form video and image data. Current AI models often struggle with analyzing extended video content or querying across vast multimodal libraries. MMCTAgent, built on Microsoft’s AutoGen, utilizes a Planner-Critic architecture to enable structured reasoning, planning, reflection, and tool-based analysis, addressing the limitations of single-pass inference models.
Key Features and Architecture of MMCTAgent
MMCTAgent stands out with its ability to perform iterative reasoning using modality-specific agents.
- Planner-Critic Architecture: The agent uses a Planner to decompose queries, identify necessary tools, and draft preliminary answers. A Critic then evaluates the Planner’s reasoning, validates evidence, and refines the response for accuracy and consistency.
- Modality-Specific Agents: MMCTAgent incorporates specialized agents like
ImageAgent and VideoAgent, each equipped with relevant tools such as get_relevant_query_frames() and object_detection_tool().
- Extensibility: Developers can integrate domain-specific tools, like medical image analyzers or industrial inspection models, making MMCTAgent adaptable to various applications.
The VideoAgent component is designed explicitly for long-form video analysis and operates in two phases:
-
Phase 1: Video Ingestion and Library Creation: This phase involves preprocessing videos to create a searchable knowledge base.
- Transcription and Translation: Audio is transcribed to text, and multilingual content is translated into a unified language.
- Key-Frame Identification: Representative frames that signify scene changes are extracted.
- Semantic Chunking and Chapter Generation: Transcripts and visual summaries are combined into coherent chapters with key frames. Object detection and on-screen text recognition are performed.
- Multimodal Embedding Creation: Image embeddings are created for keyframes, linking them to corresponding transcript and chapter data.
- Indexing: Structured metadata is indexed using Azure AI Search for scalable semantic retrieval.
-
Phase 2: Video Question Answering and Reasoning: When a user poses a question, the VideoAgent retrieves relevant information and analyzes it using specialized tools.
- Planner Tools: Includes
get_video_analysis, get_context, get_relevant_frames, and query_frame for retrieving video summaries, relevant chapters, key frames, and detailed visual/textual reasoning.
- Critic Tool: A
critic_tool validates the reasoning for temporal alignment, factual accuracy, and coherence.
ImageAgent: Structured Reasoning for Static Visuals
The ImageAgent applies the Planner-Critic architecture to static image analysis, offering modular, tool-based reasoning.
- Planner Tools: Uses tools like
vit_tool (Vision Transformer), recog_tool (scene, face, and object recognition), object_detection_tool, and ocr_tool to perform visual understanding and description.
- Critic Tool: The
critic_tool validates the Planner’s conclusions, ensuring factual alignment and consistency.
MMCTAgent has been evaluated using a variety of benchmark datasets, demonstrating improved performance compared to base LLM models. The integration of appropriate tools significantly enhances accuracy. For instance, on the MM-Vet dataset, integrating tools raised GPT-4V’s accuracy from 60.20% to 74.24%. The configurable Critic agent further improves results in critical domains.
Conclusion
MMCTAgent presents a significant advancement in multimodal AI, offering a scalable and adaptable solution for reasoning over large video and image datasets. Its Planner-Critic architecture, modality-specific agents, and extensible toolchain make it a powerful tool for various applications, from medical image analysis to industrial inspection. Microsoft’s commitment to open-source and Azure-native deployment positions MMCTAgent as a valuable asset for developers looking to create innovative multimodal applications. Future efforts will focus on enhancing efficiency, adaptability, and exploring new real-world applications through initiatives like Project Gecko.
Source: Microsoft Research
جاري تحميل التعليقات...