وحدة المعالجة العصبية MediaTek و LiteRT: إطلاق العنان لقوة الذكاء الاصطناعي على الجهاز

لقد أحدث صعود وحدات المعالجة العصبية (NPUs) ثورة في الذكاء الاصطناعي على الجهاز، مما مكن نماذج الذكاء الاصطناعي التوليدية المتطورة على الأجهزة الطرفية. ومع ذلك، كان نشر الذكاء الاصطناعي على وحدات المعالجة العصبية المتنوعة يمثل تحديًا. تقدم Google، بالتعاون مع MediaTek، مسرّع LiteRT NeuroPilot لتبسيط نشر NPU وإطلاق العنان لقدرات الذكاء الاصطناعي المتقدمة على ملايين الأجهزة. يلخص هذا المقال الميزات والفوائد الرئيسية لهذا المسرع الجديد.

سير عمل مبسط وموحد للنشر

يوفر مسرّع LiteRT NeuroPilot سير عمل مبسطًا لنشر نماذج الذكاء الاصطناعي على وحدات المعالجة العصبية MediaTek، مما يزيل تعقيد حزم SDK الفردية. تتيح واجهة برمجة التطبيقات الموحدة هذه للمطورين استهداف وحدات المعالجة العصبية MediaTek المختلفة بسهولة.

الترجمة البرمجية غير المتصلة بالإنترنت (Ahead-of-Time - AOT): مثالية للنماذج الكبيرة والمعقدة حيث تكون SoC الهدف معروفة. تقلل ترجمة AOT من تكاليف التهيئة وتقلل من استخدام الذاكرة.
الترجمة البرمجية عبر الإنترنت (على الجهاز): مناسبة لتوزيع النماذج المستقلة عن النظام الأساسي للنماذج الأصغر. يتم تجميع النموذج على جهاز المستخدم أثناء التهيئة.
عملية النشر المكونة من 3 خطوات: عملية مبسطة تتضمن ترجمة AOT (اختيارية)، والنشر مع Google Play للذكاء الاصطناعي على الجهاز (PODAI)، والاستدلال باستخدام LiteRT Runtime.
آلية الاحتياط: إذا كانت NPU غير متوفرة، فإن LiteRT تتحول تلقائيًا إلى GPU أو CPU، مما يضمن وظائف التطبيق.

قدرات الذكاء الاصطناعي التوليدية الغنية

يطلق التعاون بين Google و MediaTek الإمكانات الكاملة لنماذج الأوزان المفتوحة الحديثة، بما في ذلك عائلة Gemma من Google، مما يتيح ميزات الذكاء الاصطناعي التوليدية المتقدمة على وحدات المعالجة العصبية.

دعم نماذج Gemma: دعم مُحسَّن لنماذج مثل Gemma 3 270M و Gemma 3 1B و Gemma 3n E2B و EmbeddingGemma 300M.
زيادة الأداء: يتم تسريع نماذج Gemma بما يصل إلى 12x مقارنة بوحدة المعالجة المركزية و 10x مقارنة بوحدة معالجة الرسومات على وحدات المعالجة العصبية MediaTek.
LiteRT-LM: واجهة برمجة تطبيقات عالية المستوى مبنية على LiteRT، مصممة لسهولة الاستدلال بنماذج توليد النصوص.
تكامل EmbeddingGemma: يتناسب تمامًا مع واجهة برمجة تطبيقات “tensor-in, tensor-out” الخاصة بـ LiteRT لمهام مثل Retrieval Augmented Generation (RAG) والبحث الدلالي.

تطوير فعال عبر الأنظمة الأساسية

يعمل LiteRT NeuroPilot Accelerator على تبسيط التطوير باستخدام واجهة برمجة تطبيقات C++ جديدة وقابلية التشغيل البيني لذاكرة التخزين المؤقت للأجهزة الأصلية.

واجهة برمجة تطبيقات C++ مبسطة: تحسين على واجهة برمجة تطبيقات C السابقة، مما يسهل بناء خطوط أنابيب ML فعالة.
قابلية التشغيل البيني لذاكرة التخزين المؤقت للأجهزة الأصلية: يسمح بتمرير البيانات بدون نسخ من AHardwareBuffer مباشرة إلى NPU.
قابلية التشغيل البيني بدون نسخ: يتيح التكامل السلس بين مخازن OpenGL/OpenCL و AHardwareBuffer، وهو أمر بالغ الأهمية لتطبيقات الكاميرا والفيديو في الوقت الفعلي.
تقليل تحويل البيانات: بدلاً من تحويل البيانات من وإلى وحدة المعالجة المركزية، يمكن تمرير إطارات الكاميرا أو الفيديو مباشرة من مكونات خط أنابيب ML الأخرى إلى NPU عبر LiteRT.

خاتمة

يقدم LiteRT NeuroPilot Accelerator تقدمًا كبيرًا في نشر الذكاء الاصطناعي على الجهاز، مما يبسط العملية ويطلق العنان للإمكانات الكاملة لوحدات المعالجة العصبية MediaTek. بفضل سير العمل الموحد، وقدرات الذكاء الاصطناعي التوليدية الغنية، وأدوات التطوير الفعالة عبر الأنظمة الأساسية، يمكّن LiteRT المطورين من إنشاء تطبيقات ذكاء اصطناعي مبتكرة وعالية الأداء تفيد ملايين المستخدمين حول العالم. يتم تشجيع المطورين على استكشاف LiteRT example Colab وتطبيق العينة وموقع Devsite الرسمي للحصول على مزيد من الوثائق والإرشادات.

المصدر: Google

The rise of Neural Processing Units (NPUs) has revolutionized on-device AI, enabling sophisticated generative AI models on edge devices. However, deploying AI on diverse NPUs has been challenging. Google, in collaboration with MediaTek, introduces the LiteRT NeuroPilot Accelerator to simplify NPU deployment and unlock advanced AI capabilities on millions of devices. This blog post summarizes the key features and benefits of this new accelerator.

Simplified and Unified Deployment Workflow

The LiteRT NeuroPilot Accelerator provides a streamlined workflow for deploying AI models on MediaTek NPUs, abstracting away the complexity of individual SDKs. This unified API allows developers to target various MediaTek NPUs with ease.

Offline (Ahead-of-Time - AOT) Compilation: Ideal for large, complex models where the target SoC is known. AOT compilation reduces initialization costs and lowers memory usage.
Online (On-Device) Compilation: Suitable for platform-agnostic model distribution of smaller models. The model is compiled on the user’s device during initialization.
3-Step Deployment Process: A simplified process that includes AOT compilation (optional), deployment with Google Play for On-device AI (PODAI), and inference using LiteRT Runtime.
Fallback Mechanism: If the NPU is unavailable, LiteRT automatically falls back to GPU or CPU, ensuring application functionality.

Rich Generative AI Capabilities

The collaboration between Google and MediaTek unlocks the full potential of state-of-the-art open-weight models, including Google’s Gemma family, enabling advanced generative AI features on NPUs.

Support for Gemma Models: Optimized support for models like Gemma 3 270M, Gemma 3 1B, Gemma 3n E2B, and EmbeddingGemma 300M.
Performance Boost: Gemma models are accelerated by up to 12x compared to CPU and 10x compared to GPU on MediaTek NPUs.
LiteRT-LM: A high-level API built on top of LiteRT, designed for easy inference with text generative models.
EmbeddingGemma Integration: Fits perfectly with LiteRT’s “tensor-in, tensor-out” API for tasks like Retrieval Augmented Generation (RAG) and semantic search.

Efficient, Cross-Platform Development

The LiteRT NeuroPilot Accelerator streamlines development with a new C++ API and Native Hardware Buffer Interoperability.

Simplified C++ API: An improvement over the previous C API, making it easier to build efficient ML pipelines.
Native Hardware Buffer Interoperability: Allows for zero-copy data passing from AHardwareBuffer directly to the NPU.
Zero-Copy Interop: Enables seamless integration between OpenGL/OpenCL buffers and AHardwareBuffer, critical for real-time camera and video applications.
Reduced Data Conversion: Instead of converting data to and from the CPU, camera frames or video can be passed directly from other ML pipeline components to NPU via LiteRT.

Conclusion

The LiteRT NeuroPilot Accelerator offers a significant advancement in on-device AI deployment, simplifying the process and unlocking the full potential of MediaTek NPUs. With its unified workflow, rich generative AI capabilities, and efficient cross-platform development tools, LiteRT empowers developers to create innovative and performant AI applications that benefit millions of users worldwide. Developers are encouraged to explore the LiteRT example Colab, Sample App, and official Devsite for further documentation and guidance.

Source: Google

القائمة

وحدة المعالجة العصبية MediaTek و LiteRT: إطلاق العنان لقوة الذكاء الاصطناعي على الجهاز

سير عمل مبسط وموحد للنشر

قدرات الذكاء الاصطناعي التوليدية الغنية

تطوير فعال عبر الأنظمة الأساسية

خاتمة

Simplified and Unified Deployment Workflow

Rich Generative AI Capabilities

Efficient, Cross-Platform Development

Conclusion

مقالات ذات صلة

فتح أداء الذكاء الاصطناعي على الهواتف المحمولة باستخدام LiteRT و NPU من كوالكوم

استكشاف مستقبل الذكاء الاصطناعي التوليدي: رؤى من ندوة MIT لتأثير الذكاء الاصطناعي التوليدي

استغلال توليد البيانات المعززة بالاسترجاع في الوقت الحقيقي مع جوجل جمنّي 2.0

التعليقات