رؤى المستقبل

باستا: توليد صور تعاوني من خلال التعلم المعزز التكيفي للتفضيلات

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
باستا: توليد صور تعاوني من خلال التعلم المعزز التكيفي للتفضيلات

في المشهد المتطور باستمرار لتوليد الصور من النصوص (T2I)، يظهر إحباط شائع: صعوبة ترجمة رؤية المستخدم الفريدة تمامًا إلى صورة نهائية. في حين أن نماذج T2I تمتلك قوة لا تصدق، إلا أن التقاط الفروق الدقيقة والرغبات المحددة للنية الإبداعية الفردية بمجرد مطالبة واحدة لا يزال يمثل تحديًا. تتعمق هذه المدونة في حل Google Research المبتكر، PASTA (وكيل النص إلى الصورة التكيفي والمتسلسل للتفضيلات)، وهو وكيل للتعلم المعزز مصمم لتحسين نتائج T2I بشكل تعاوني من خلال حوار تفاعلي مع المستخدم. يبتعد هذا النهج عن تحسين المطالبات بالتجربة والخطأ ويهدف إلى تجربة توليد صور أكثر سهولة وإرضاءً.

تقديم باستا: وكيل توليد صور تعاوني

تستخدم PASTA التعلم المعزز لتعلم تفضيلات المستخدم الفريدة من خلال التفاعلات متعددة الأدوار، مما يؤدي إلى توليد صور أكثر تخصيصًا وإرضاءً. الفكرة الأساسية هي تحويل توليد الصور من عملية لقطة واحدة إلى محادثة تعاونية بين المستخدم والذكاء الاصطناعي. يتحقق هذا من خلال السماح للمستخدم بتوجيه عملية إنشاء الصور بشكل متكرر عن طريق تحديد الصور التي تتماشى بشكل أقرب مع رؤيته.

  • PASTA تعني “وكيل النص إلى الصورة التكيفي والمتسلسل للتفضيلات”.
  • يستخدم التعلم المعزز (RL) لتحسين مخرجات T2I بناءً على ملاحظات المستخدم.
  • يلغي الحاجة إلى هندسة المطالبات المفرطة والتجربة والخطأ.
  • يستخدم تقنية محاكاة مستخدم جديدة لإنشاء بيانات التدريب.
  • تم إصدار مجموعة بيانات تأسيسية تحتوي على أكثر من 7000 تفاعل مقيم بشري.

قوة محاكاة المستخدم لتدريب باستا

تتمثل إحدى العقبات الكبيرة في تدريب وكيل الذكاء الاصطناعي للتكيف مع التفضيلات الفردية في الحاجة إلى مجموعة بيانات كبيرة ومتنوعة من تفاعلات المستخدم. يطرح جمع مثل هذه البيانات من المستخدمين الحقيقيين تحديات تتعلق بالخصوصية وقابلية التوسع. للتغلب على ذلك، تستخدم PASTA استراتيجية تدريب على مرحلتين تجمع بين ملاحظات المستخدم البشري الحقيقية ومحاكاة المستخدم على نطاق واسع.

  • تم جمع مجموعة بيانات تأسيسية تضم أكثر من 7000 تفاعل حقيقي للمستخدم مع توسعات المطالبات التي تم إنشاؤها بواسطة Gemini Flash والصور من Stable Diffusion XL (SDXL).
  • تم استخدام مجموعة البيانات هذه لتدريب محاكي مستخدم متطور.
  • يشتمل محاكي المستخدم على نموذج للمنفعة (يتوقع إعجاب المستخدم) ونموذج للاختيار (يتوقع اختيار المستخدم).
  • يتم استخدام خوارزمية تعظيم التوقع لتعلم تفضيلات المستخدم وتحديد أنواع المستخدمين الكامنة.
  • ينشئ المحاكي المدرب أكثر من 30000 مسار تفاعل محاكي.

كيف تتفاعل باستا مع المستخدمين

بمجرد التدريب، تشارك PASTA المستخدمين في حوار مرئي لإعادة تحديد الصور بشكل متكرر بناءً على تفضيلاتهم. تبدأ العملية بمطالبة مستخدم أولية. ثم تستخدم PASTA مولد مرشح (نموذج متعدد الوسائط كبير) لإنشاء مجموعة متنوعة من توسعات المطالبات المحتملة. ثم يحدد وكيل RL مجموعة مثالية من التوسعات، ويقوم بإنشاء الصور المقابلة التي يتم تقديمها للمستخدم. يختار المستخدم الصورة التي تتوافق بشكل أفضل مع رؤيته، مما يوفر ملاحظات توجه مجموعة اقتراحات PASTA التالية.

  • يقدم المستخدم مطالبة أولية.
  • يقترح مولد المرشح PASTA توسعات المطالبات.
  • يحدد وكيل RL أفضل مجموعة من التوسعات (أربعة في المثال).
  • يتم إنشاء الصور المقابلة وتقديمها للمستخدم.
  • يختار المستخدم الصورة المفضلة، ويقدم ملاحظات للتكرار التالي.

تقييم أداء باستا

تم تقييم فعالية PASTA بدقة من خلال تقييمات بشرية، ومقارنة مناهج التدريب المختلفة بالنموذج الأساسي (Gemini Flash و SDXL بدون مزيد من التدريب). تم تدريب ثلاثة إصدارات من PASTA: على بيانات حقيقية وعلى بيانات محاكاة وعلى مزيج من الاثنين معًا. كشفت النتائج أن تدريب PASTA على كل من البيانات الحقيقية والمحاكاة يتفوق بشكل كبير على الخط الأساسي والإصدارات المدربة فقط على أحد أنواع البيانات.

  • تم تدريب PASTA باستخدام التعلم الضمني Q (IQL).
  • تمت مقارنة ثلاثة مناهج تدريب: البيانات الحقيقية فقط والبيانات المحاكاة فقط والمزيج.
  • تضمنت مقاييس التقييم دقة Pick-a-Pic، وارتباط رتبة سبيرمان، ودقة نموذج الاختيار، ودقة التبادل المتقاطع.
  • أدى التدريب المدمج للبيانات الحقيقية والمحاكاة إلى أفضل أداء، متجاوزًا الخط الأساسي في جميع المقاييس التي تم اختبارها.
  • في المقارنات المباشرة، فضل 85٪ من المقيمين الصور التي تم إنشاؤها بواسطة PASTA على الخط الأساسي، خاصةً مع المطالبات المجردة.

مستقبل توليد الصور التعاوني

توضح PASTA إمكانات الذكاء الاصطناعي التوليدي التفاعلي والتكيفي للتفضيلات والتعاوني. تحمل تقنيات محاكاة المستخدم التي تم تطويرها وعدًا بالتطبيق عبر مهام توليدية مختلفة، مما يسهل إنشاء أنظمة الذكاء الاصطناعي التي تتماشى بشكل أفضل مع احتياجات المستخدمين وتفضيلاتهم. قام الباحثون بفتح مجموعة بيانات المقيمين المتسلسلة وبيانات المستخدم المحاكاة لتسريع البحث في هذا المجال.

في الختام، تمثل PASTA خطوة مهمة نحو توليد صور أكثر سهولة وشخصية. من خلال الاستفادة من التعلم المعزز ومحاكاة المستخدم المبتكرة، تمكن PASTA المستخدمين من صياغة الصور بشكل تعاوني والتي تتطابق تمامًا مع رؤيتهم الإبداعية الفريدة.


المصدر: Google Research

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...