رؤى المستقبل

التدريب والتكرير المدركان للكمية: تعزيز دقة الدقة المنخفضة باستخدام مُحسِّن نموذج TensorRT

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
التدريب والتكرير المدركان للكمية: تعزيز دقة الدقة المنخفضة باستخدام مُحسِّن نموذج TensorRT

في السعي الدائم نحو نشر نماذج الذكاء الاصطناعي بكفاءة، أصبح تكميم ما بعد التدريب (PTQ) تقنية قياسية لضغط النماذج. ومع ذلك، عندما يقصر PTQ في الحفاظ على الدقة في الدقة المنخفضة، فإن التدريب المدرك للكمية (QAT) والتقطير المدرك للكمية (QAD) يقدمان بدائل واعدة. تتعمق مشاركة المدونة هذه في QAT و QAD، وتوضح كيف يمكن الاستفادة منهما مع مُحسِّن نموذج TensorRT لإعداد النماذج للاستدلال منخفض الدقة، مع التركيز بشكل خاص على مهام سير العمل المتوافقة مع Hugging Face و PyTorch. كما يسلط الضوء على نشر هذه النماذج المحسنة باستخدام TensorRT-LLM.

فهم التدريب المدرك للكمية (QAT)

QAT هي تقنية يتم فيها تدريب النموذج لاستيعاب العمليات الحسابية منخفضة الدقة بعد التدريب المسبق. على عكس PTQ، الذي يكمم نموذجًا مدربًا بالكامل، يحاكي QAT التكميم أثناء عملية التدريب، مما يسمح للنموذج بتكييف أوزانه وتنشيطاته مع قيود أنواع البيانات منخفضة الدقة.

  • كيف يعمل: يستخدم QAT “التكميم الوهمي” أثناء التمرير الأمامي، ويمثل قيم الدقة المنخفضة داخل نوع بيانات أعلى باستخدام عوامل تشغيل التكميم / إلغاء التكميم. يتيح ذلك التدريب على الأجهزة القياسية دون دعم أصلي للدقة المنخفضة.
  • الهدف: الهدف الأساسي هو الاستدلال الكمي عالي الدقة، وتمييزه عن التدريب الكمي الذي يركز على كفاءة التدريب.
  • التنفيذ: أثناء QAT، تتعرض أخطاء التقريب والاقتطاع لوظيفة الخسارة، مما يسمح للنموذج بالتعافي والتكيف.
  • دعم مُحسِّن النموذج: يدعم مُحسِّن النموذج تنسيقات التكميم مثل FP8 و NVFP4 و MXFP4 و INT8 و INT4. يتطلب تطبيق QAT مع مُحسِّن النموذج قدرًا صغيرًا فقط من التعليمات البرمجية الإضافية عن طريق إضافة حلقة تدريب إلى سير عمل PTQ. عادةً ما يكون الضبط الدقيق للنموذج لحوالي 10٪ من فترات التدريب الأولية، أو حتى أقل بالنسبة لـ LLMs، كافيًا لاستعادة جودة النموذج.

استكشاف التقطير المدرك للكمية (QAD)

يهدف QAD إلى استعادة الدقة بعد التكميم، مع إجراء تقطير المعرفة في نفس الوقت. الفرق الرئيسي عن تقطير المعرفة التقليدي هو أن نموذج “الطالب” يستخدم التكميم الوهمي أثناء التمرير الأمامي.

  • إعداد المعلم والطالب: يستخدم QAD نموذج المعلم (النموذج الأصلي عالي الدقة) لتوجيه نموذج الطالب (النموذج الكمي).
  • خسارة التقطير: تُستخدم وظيفة خسارة التقطير لقياس الانحراف بين مخرجات الطالب الكمي ومخرجات المعلم كامل الدقة.
  • العملية: يتم تكميم حسابات الطالب بشكل وهمي أثناء التقطير، مما يعرض حالات عدم التطابق الناتجة عن التكميم لخسارة التقطير. يتيح ذلك لأوزان وتنشيطات الدقة المنخفضة التكيف مع سلوك المعلم.
  • الفوائد: يؤدي هذا إلى استعادة دقة أعلى مقارنة بـ PTQ أو QAT وحدهما، دون التأثير على أداء الاستدلال (حيث يظل البناء والدقة كما هما).
  • واجهات برمجة تطبيقات مُحسِّن النموذج: يوفر مُحسِّن نموذج TensorRT واجهات برمجة تطبيقات تجريبية لـ QAD. تتضمن العملية تطبيق وصفة تكميم على نموذج الطالب، وتحديد تكوين تقطير (نموذج المعلم، وحجج التدريب، وخسارة التقطير)، ثم تنفيذ عملية التقطير.

التأثير الحقيقي والمعايير

تختلف فعالية QAT و QAD عبر النماذج. تحتفظ بعض النماذج بدقة عالية (> 99.5٪) مع PTQ وحده. ومع ذلك، فقد أظهرت نماذج مثل Llama Nemotron Super مكاسب كبيرة في الدقة من QAD (4-22٪ عبر المعايير).

  • البيانات واعتماد المعلمات الفائقة: يعتمد نجاح QAT و QAD بشكل كبير على جودة بيانات التدريب واختيار المعلمات الفائقة وبنية النموذج.
  • NVFP4 مقابل MXFP4: بالنسبة للتكميم 4 بت، يمكن أن يتفوق NVFP4 على MXFP4 نظرًا لعوامل القياس الدقيقة، خاصة في المهام التي تتضمن تفاصيل دقيقة، مثل الإجابة على الأسئلة المرئية على الرسوم البيانية والرسومات المعقدة. يترجم هذا إلى محاذاة أكثر ثباتًا بين المكونات المرئية والنصية للنموذج، مما يقلل من أخطاء التقريب / الاقتطاع.
  • أمثلة الإجابة على الأسئلة المرئية: تكون الاختلافات بين NVFP4 و MXFP4 أكثر وضوحًا في مجموعات البيانات مثل InfoVQA، والتي تتطلب اكتشاف تفاصيل صغيرة، مقارنة بـ DocVQA، التي تركز على المستندات المنظمة حيث يكون العثور على الحقل الصحيح أمرًا بالغ الأهمية.

خاتمة

يعزز QAT و QAD PTQ من خلال تمكين النماذج من التكيف مع البيئات منخفضة الدقة، واستعادة الدقة حيث يفشل PTQ. تمكن هذه التقنيات المطورين من تسخير كفاءة تنفيذ FP4 مع قوة عالية الدقة تقريبًا. يوفر مُحسِّن نموذج TensorRT الوصول إلى مهام سير العمل هذه من خلال واجهات برمجة تطبيقات PyTorch و Hugging Face المألوفة، مما يبسط التجريب مع تنسيقات مثل NVFP4 و MXFP4. سواء كان المشروع يتطلب سرعة PTQ أو مرونة QAT أو مكاسب دقة QAD، فهناك مجموعة أدوات شاملة متاحة لضغط النماذج الذكاء الاصطناعي وضبطها بدقة ونشرها على وحدات معالجة الرسومات NVIDIA، مما يؤدي إلى عمليات نشر أسرع وأصغر وأكثر دقة للذكاء الاصطناعي على نطاق واسع.


المصدر: NVIDIA Developer Blog

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...