أعلنت جوجل عن EmbeddingGemma، وهو نموذج تضمين مفتوح المصدر جديد مصمم لتطبيقات الذكاء الاصطناعي على الجهاز. يهدف هذا النموذج إلى توفير عمليات تضمين عالية الجودة وخاصة مباشرة على الأجهزة، حتى بدون اتصال بالإنترنت، مما يتيح قدرات مثل خطوط RAG غير المتصلة بالإنترنت والبحث الدلالي.
الميزات والفوائد الرئيسية لـ EmbeddingGemma
- أفضل أداء في فئته: تحتل EmbeddingGemma المرتبة الأولى بين نماذج تضمين النصوص متعددة اللغات المفتوحة المصدر التي تقل عن 500 مليون معلمة في معيار Massive Text Embedding Benchmark (MTEB).
- حجم صغير وكفاءة: يتميز النموذج بتصميم معلمة 308 مليون، مما يسمح بتشغيله على أقل من 200 ميجابايت من ذاكرة الوصول العشوائي (RAM) مع تحديد الكميات، مما يجعله مناسبًا للهواتف المحمولة وأجهزة الكمبيوتر المحمولة وأجهزة الكمبيوتر المكتبية.
- وظائف غير متصلة بالإنترنت: تم تصميم EmbeddingGemma للاستخدام دون اتصال بالإنترنت، ويوفر أبعاد إخراج قابلة للتخصيص (من 768 إلى 128 عبر تمثيل Matryoshka) ونافذة سياق رمزية 2K.
- التكامل مع الأدوات الشائعة: يتكامل EmbeddingGemma بسلاسة مع الأدوات الشائعة مثل sentence-transformers و llama.cpp و MLX و Ollama و LiteRT و transformers.js و LMStudio و Weaviate و Cloudflare و LlamaIndex و LangChain.
تمكين خطوط RAG الأولى للجوال
يتفوق EmbeddingGemma في إنشاء عمليات التضمين، وهي تمثيلات رقمية للنص تستخدم لالتقاط المعنى في فضاء عالي الأبعاد. هذه التضمينات ضرورية لخطوط Retrieval Augmented Generation (RAG).
- دقة استرجاع محسنة: تؤدي عمليات التضمين عالية الجودة في EmbeddingGemma إلى استرجاع أكثر دقة للسياق ذي الصلة استنادًا إلى إدخال المستخدم، مما يعزز الأداء العام لخط RAG.
- إجابات ذات صلة سياقيًا: من خلال إقران EmbeddingGemma بنموذج توليدي مثل Gemma 3، يمكن للمطورين إنشاء تطبيقات تولد إجابات ذات صلة سياقيًا تستند إلى المعرفة المسترجعة.
تفاصيل الأداء والكفاءة
- جودة على أحدث طراز: يقدم EmbeddingGemma فهمًا للنصوص على أحدث طراز لحجمه، مما يدل على أداء قوي في إنشاء التضمين متعدد اللغات.
- Matryoshka Representation Learning (MRL): توفر هذه التقنية أحجام تضمين متعددة من نموذج واحد، مما يسمح للمطورين بالاختيار بين الحد الأقصى للجودة (768 بُعدًا) وزيادة السرعة / تقليل تكاليف التخزين (128 أو 256 أو 512 بُعدًا).
- تحسين السرعة: يحقق EmbeddingGemma <15 مللي ثانية لوقت استنتاج التضمين (256 رمز إدخال) على EdgeTPU.
- Quantization-Aware Training (QAT): يقلل QAT بشكل كبير من استخدام ذاكرة الوصول العشوائي (RAM) إلى أقل من 200 ميجابايت مع الحفاظ على جودة النموذج.
حالات الاستخدام والتطبيقات
يمكّن EmbeddingGemma مجموعة واسعة من تطبيقات الذكاء الاصطناعي على الجهاز:
- البحث دون اتصال بالإنترنت: ابحث في الملفات الشخصية والنصوص ورسائل البريد الإلكتروني والإشعارات دون اتصال بالإنترنت.
- روبوتات الدردشة المخصصة: قم بإنشاء روبوتات دردشة مخصصة خاصة بالصناعة وممكنة دون اتصال بالإنترنت من خلال RAG مع Gemma 3n.
- فهم الوكيل المتنقل: قم بتصنيف استعلامات المستخدم إلى استدعاءات وظيفية ذات صلة لتحسين فهم الوكيل المتنقل.
- الضبط الدقيق: يمكن ضبط النموذج بدقة لمجالات أو مهام أو لغات معينة باستخدام دفتر الملاحظات السريع المقدم.
اختيار نموذج التضمين المناسب
تقدم جوجل نماذج تضمين مختلفة اعتمادًا على التطبيق:
- EmbeddingGemma: الأفضل لحالات الاستخدام على الجهاز وغير المتصلة بالإنترنت حيث تكون الخصوصية والسرعة والكفاءة ذات أهمية قصوى.
- نموذج Gemini Embedding (عبر Gemini API): موصى به للتطبيقات واسعة النطاق من جانب الخادم التي تتطلب أعلى جودة وأقصى أداء.
البدء مع EmbeddingGemma
جعلت جوجل EmbeddingGemma في متناول الجميع:
- تنزيلات النموذج: ابحث عن أوزان النموذج على Hugging Face و Kaggle و Vertex AI.
- الوثائق والأدلة: قم بالوصول إلى الوثائق للتكامل السريع وأدلة الاستنتاج / الضبط الدقيق. استكشف مثال RAG السريع في Gemma Cookbook.
- تكامل الأدوات: استخدم EmbeddingGemma مع أدوات مثل transformers.js و MLX و llama.cpp و LiteRT و Ollama و LMStudio و Weaviate.
في الختام، يمثل EmbeddingGemma تقدمًا كبيرًا في الذكاء الاصطناعي على الجهاز، مما يوفر للمطورين حلاً قويًا وفعالًا وخاصًا لبناء مجموعة واسعة من التطبيقات. إن أداءه الأفضل في فئته وحجمه الصغير وقدراته غير المتصلة بالإنترنت تجعله خيارًا مقنعًا لخطوط RAG الأولى للجوال والمهام الأخرى التي تعتمد على التضمين.
المصدر: Google for Developers
Google has announced EmbeddingGemma, a new open-source embedding model designed for on-device AI applications. This model aims to provide high-quality, private embeddings directly on devices, even without an internet connection, enabling capabilities like offline RAG pipelines and semantic search.
Key Features and Benefits of EmbeddingGemma
- Best-in-Class Performance: EmbeddingGemma ranks highest among open multilingual text embedding models under 500M parameters on the Massive Text Embedding Benchmark (MTEB).
- Compact Size and Efficiency: The model boasts a 308 million parameter design, allowing it to run on less than 200MB of RAM with quantization, making it suitable for mobile phones, laptops, and desktops.
- Offline Functionality: Designed for offline use, EmbeddingGemma provides customizable output dimensions (from 768 to 128 via Matryoshka representation) and a 2K token context window.
- Integration with Popular Tools: EmbeddingGemma seamlessly integrates with popular tools like sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, transformers.js, LMStudio, Weaviate, Cloudflare, LlamaIndex, and LangChain.
Enabling Mobile-First RAG Pipelines
EmbeddingGemma excels in generating embeddings, which are numerical representations of text used to capture meaning in a high-dimensional space. These embeddings are crucial for Retrieval Augmented Generation (RAG) pipelines.
- Improved Retrieval Accuracy: EmbeddingGemma’s high-quality embeddings lead to more accurate retrieval of relevant context based on user input, enhancing the overall RAG pipeline performance.
- Contextually Relevant Answers: By pairing EmbeddingGemma with a generative model like Gemma 3, developers can create applications that generate contextually relevant answers grounded in retrieved knowledge.
- State-of-the-Art Quality: EmbeddingGemma offers state-of-the-art text understanding for its size, demonstrating strong performance in multilingual embedding generation.
- Matryoshka Representation Learning (MRL): This technique provides multiple embedding sizes from a single model, allowing developers to choose between maximum quality (768 dimensions) and increased speed/lower storage costs (128, 256, or 512 dimensions).
- Speed Optimization: EmbeddingGemma achieves <15ms embedding inference time (256 input tokens) on EdgeTPU.
- Quantization-Aware Training (QAT): QAT significantly reduces RAM usage to sub-200MB while maintaining model quality.
Use Cases and Applications
EmbeddingGemma enables a wide range of on-device AI applications:
- Offline Search: Search across personal files, texts, emails, and notifications without an internet connection.
- Personalized Chatbots: Create personalized, industry-specific, and offline-enabled chatbots through RAG with Gemma 3n.
- Mobile Agent Understanding: Classify user queries to relevant function calls to improve mobile agent understanding.
- Fine-tuning: The model can be fine-tuned for specific domains, tasks, or languages using a provided quickstart notebook.
Choosing the Right Embedding Model
Google offers different embedding models depending on the application:
- EmbeddingGemma: Best for on-device, offline use cases where privacy, speed, and efficiency are paramount.
- Gemini Embedding Model (via Gemini API): Recommended for large-scale, server-side applications demanding the highest quality and maximum performance.
Getting Started with EmbeddingGemma
Google has made EmbeddingGemma readily accessible:
- Model Downloads: Find the model weights on Hugging Face, Kaggle, and Vertex AI.
- Documentation and Guides: Access documentation for quick integration and inference/fine-tuning guides. Explore the quickstart RAG example in the Gemma Cookbook.
- Tool Integration: Use EmbeddingGemma with tools like transformers.js, MLX, llama.cpp, LiteRT, Ollama, LMStudio, and Weaviate.
In conclusion, EmbeddingGemma represents a significant advancement in on-device AI, providing developers with a powerful, efficient, and private solution for building a wide range of applications. Its best-in-class performance, compact size, and offline capabilities make it a compelling choice for mobile-first RAG pipelines and other embedding-dependent tasks.
Source: Google for Developers
جاري تحميل التعليقات...