رؤى المستقبل

نماذج لغة الانحدار: التنبؤ بأداء الأنظمة الكبيرة باستخدام النص إلى النص

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
نماذج لغة الانحدار: التنبؤ بأداء الأنظمة الكبيرة باستخدام النص إلى النص

تشهد نماذج اللغة الكبيرة (LLMs) تطورًا سريعًا، حيث تتجاوز ردود الفعل البشرية الذاتية البحتة لتشمل البيانات التشغيلية الخام لتحسين قدرات التنبؤ. يستكشف نهج جديد مفصل في منشور مدونة Google Research، “التنبؤ بالأداء للأنظمة الكبيرة عبر انحدار النص إلى النص”، استخدام LLMs لمهام الانحدار العددي عن طريق معالجة الإدخال كسلاسل نصية وإخراج التنبؤات العددية، وأيضًا كسلاسل نصية منظمة. وهذا يلغي الحاجة إلى هندسة الميزات والتطبيع المكثف المرتبط عادةً بطرق الانحدار التقليدية التي تتطلب بيانات جدولية. يوضح المؤلفون فعالية نهج نموذج لغة الانحدار (RLM) في التنبؤ بكفاءة الموارد داخل البنية التحتية للحوسبة Borg من Google. تلخص منشور المدونة هذا النتائج والاستنتاجات الرئيسية لهذا البحث.

تحدي الانحدار التقليدي

غالبًا ما تكافح طرق الانحدار التقليدية مع تعقيد الطبيعة الديناميكية للبيانات الحقيقية. يعد تحويل البيانات غير المهيكلة، مثل ملفات التكوين وسجلات النظام، إلى متجه رقمي ثابت الطول (تنسيق جدولي) عملية تستغرق وقتًا طويلاً وغالبًا ما تكون ضائعة. علاوة على ذلك، يتطلب ظهور أنواع جديدة من البيانات إعادة تشغيل العملية بأكملها من البداية.

  • تحتاج الطرق التقليدية إلى أن تكون المدخلات في شكل جدولي.
  • تحويل البيانات المعقدة إلى تنسيقات جدولية أمر شاق.
  • تتطلب أنواع البيانات الجديدة إعادة تشغيل العملية.

نماذج لغة الانحدار: نهج النص إلى النص

يستفيد الحل المقترح من قوة LLMs لإجراء انحدار مباشرة على تمثيلات سلسلة البيانات. الفكرة الأساسية هي معاملة الإدخال (x) كسلسلة نصية منظمة وتدريب RLM لإخراج مقياس الأداء (y) كسلسلة أخرى. وهذا يلغي الحاجة إلى هندسة الميزات والتطبيع. يمكن تدريب RLM مسبقًا أو حتى تهيئته عشوائيًا.

  • تأخذ RLMs تمثيلات سلسلة لبيانات الإدخال.
  • تخرج RLMs تنبؤات رقمية كسلاسل نصية منظمة.
  • يمكن تدريب RLMs مسبقًا أو تهيئتها عشوائيًا.
  • يتم تدريب RLMs باستخدام تنبؤ الرمز المميز التالي عبر خسارة الإنتروبيا المتقاطعة.

التنبؤ بالكفاءة في نظام Borg من Google

طبق الباحثون طريقة انحدار النص إلى النص للتنبؤ بـ MIPS لكل GCU (ملايين التعليمات في الثانية لكل وحدة حساب Google)، وهو مقياس رئيسي للكفاءة لنظام Borg من Google. قاموا بتدريب RLM بهندسة معمارية صغيرة نسبيًا ذات طبقتين من أجهزة التشفير وفك التشفير (60 مليون معلمة) باستخدام كميات كبيرة من البيانات من مهام الانحدار المتعددة. تضمنت البيانات حالات النظام الممثلة بتنسيق YAML أو JSON، والتي تحتوي على قوائم الوظائف النشطة وآثار التنفيذ والبيانات الوصفية النصية. للتعامل مع سلاسل الإدخال التي تتجاوز حد الرمز المميز للنموذج، قاموا بمعالجة البيانات مسبقًا عن طريق تحديد أولويات أهم الميزات، مما يضمن اقتطاع المعلومات الأقل أهمية فقط.

  • تم تطبيق الطريقة للتنبؤ بـ MIPS لكل GCU في نظام Borg من Google.
  • تم استخدام RLM بهندسة معمارية ذات طبقتين من أجهزة التشفير وفك التشفير.
  • تمت معالجة البيانات مسبقًا لتحديد أولويات الميزات المهمة قبل الاقتطاع.

القدرات الرئيسية لـ RLMs

أظهر البحث ثلاث قدرات رئيسية لـ RLMs:

  • التقاط الكثافة: يمكن لـ RLM التقاط توزيعات الاحتمالات لقيم y، مما يوفر نظرة ثاقبة حول التباين الكامن والنطاق المحتمل للنتائج. يسمح هذا بنمذجة عدم اليقين العشوائي (العشوائية الكامنة) وربما تحديد المؤشرات المعرفية (عدم اليقين بسبب الملاحظة المحدودة).
  • تحديد كمية عدم اليقين: يرتبط عدم اليقين في تنبؤ RLM بخطأ مربع البقايا، مما يتيح تحديد كمية ثقة النموذج في تنبؤاته. يسمح هذا للنظام بالاعتماد بشكل أكبر على مُنحدر الانحدار عندما يكون واثقًا والرجوع إلى عمليات محاكاة أبطأ ولكنها أكثر دقة عندما يكون غير متأكد.
  • انحدار مثالي تقريبًا ومنخفض التكلفة: يحقق RLM انحدارًا نقطيًا دقيقًا للغاية مع توافق قوي بين القيم المتوقعة والفعلية. يتيح ذلك تكييفًا لعدد قليل من اللقطات مع مهام تنبؤ متنوعة، مما يجعله متنبئًا عالميًا قابلاً للتكيف.

خاتمة

يقدم هذا البحث نهجًا جديدًا وفعالًا للانحدار العددي باستخدام نماذج اللغة. من خلال معالجة الإدخال كنص وإخراج التنبؤات العددية كنص منظم، تلغي RLMs الحاجة إلى هندسة الميزات التقليدية وتقدم العديد من المزايا، بما في ذلك التقاط الكثافة وتحديد كمية عدم اليقين والانحدار المثالي تقريبًا. يوضح هذا العمل إمكانات RLMs لمحاكاة الأنظمة الكبيرة ويمهد الطريق لتحقيق اختراقات مستقبلية في التعلم المعزز لنماذج اللغة.


المصدر: Google Research and Google DeepMind

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...