رؤى المستقبل

هجينج فيس تطلق فاين ماث: مجموعة بيانات جديدة لتدريب الذكاء الاصطناعي القادر على الرياضيات

AI
رؤى الذكاء والمستقبل
· · 3 دقائق قراءة
هجينج فيس تطلق فاين ماث: مجموعة بيانات جديدة لتدريب الذكاء الاصطناعي القادر على الرياضيات

أطلقت شركة Hugging Face مؤخرًا FineMath، وهي مجموعة بيانات مُنسقة بدقة ومصممة لتمكين تدريب نماذج الذكاء الاصطناعي بقدرات قوية في الاستدلال الرياضي وحل المشكلات. يهدف هذا الإصدار إلى تلبية حاجة ملحة في مجتمع تعلم الآلة لمحتوى تعليمي رياضي عالي الجودة وسهل الوصول إليه. تعتمد FineMath على بيانات CommonCrawl وتهدف إلى تقليل الحواجز أمام الباحثين والمطورين الذين يسعون إلى بناء أنظمة ذكاء اصطناعي أكثر كفاءة في الرياضيات.

ما هي FineMath؟

FineMath هي مجموعة من المحتوى التعليمي الرياضي الذي تم تصفيته من مجموعة بيانات CommonCrawl الواسعة. تم إنشاء مجموعة البيانات عن طريق تدريب مُصنف للمحتوى الرياضي باستخدام التعليقات التوضيحية التي تم إنشاؤها بواسطة LLama-3.1-70B-Instruct. كان الهدف هو الاحتفاظ فقط بالمحتوى التعليمي الأكثر فائدة، مع إعطاء الأولوية للتفسيرات الواضحة وحل المشكلات خطوة بخطوة على الأوراق الأكاديمية المتقدمة.

الميزات الرئيسية والإصدارات:

  • إصداران رئيسيان:
    • FineMath-3+: يحتوي على 34 مليار رمز و 21.4 مليون مستند.
    • FineMath-4+: مجموعة فرعية عالية الجودة من FineMath-3+، وتضم 9.6 مليار رمز و 6.7 مليون مستند. تُظهر النماذج المدربة على هذه المجموعة الفرعية أداءً فائقًا في المعايير مثل GSM8k و MATH.
  • مجموعات بيانات InfiMM-WebMath: تم أيضًا إصدار أجزاء نصية إنجليزية فقط تمت تصفيتها من مجموعة بيانات InfiMM-WebMath-40B:
    • InfiMM-WebMath-3+: 20.5 مليار رمز، 13.9 مليون مستند.
    • InfiMM-WebMath-4+: 8.5 مليار رمز، 6.3 مليون مستند.
  • تنسيق مجموعة البيانات: منسقة باستخدام Markdown و LaTeX لسهولة الاستخدام والتكامل مع الأدوات الحالية.
  • حجم مجموعة البيانات: يتراوح من 10 ميجابايت إلى 100 ميجابايت، مما يجعلها قابلة للإدارة لمختلف البيئات الحسابية.
  • الترخيص: تم إصداره بموجب ترخيص Open Data Commons Attribution License (ODC-By) v1.0.

عملية تنظيم مجموعة البيانات:

تضمن إنشاء FineMath عملية متعددة المراحل لضمان الجودة العالية:

  • الاستخراج الأولي للمحتوى والتصنيف: تمت إعادة استخراج صفحات CommonCrawl، وتم استخدام Llama-3.1-70B-Instruct لإنشاء تعليقات توضيحية على مقياس من 3 نقاط، وتقييم المحتوى الرياضي والاستدلال المنطقي والحلول خطوة بخطوة. ثم تم ضبط مُصنف على هذه التعليقات التوضيحية.
  • استرجاع المزيد من الصفحات المرشحة: لمعالجة القيود المفروضة على المرشحات السابقة، حدد الفريق مجالات مواقع ويب واعدة، وأضاف عناوين URL من OpenWebMath و InfiMM-WebMath، واستعاد عناوين URL التي تمت تصفيتها بسبب تدوين LaTeX. ثم تمت إعادة استخراج المحتوى باستخدام مسار OpenWebMath.
  • تقييم الجودة المحسن: تم استخدام مقياس أكثر دقة من 5 نقاط لتسجيل المجموعة الموسعة، وتم ضبط مُصنف جديد. ثم تم تطبيق إزالة التكرار باستخدام MinHash-LSH للحصول على FineMath-3+. تم استخدام نفس المصنف على مجموعة بيانات InfiMM-WebMath. تمت تصفية مجموعتي البيانات لإزالة المحتوى غير الإنجليزي.
  • إزالة التلوث: لمنع تسرب البيانات، تمت إزالة العينات التي تحتوي على تداخلات 13 جرامًا مع مجموعات الاختبار من GSM8k و MATH و MMLU و ARC.

الأداء والنتائج:

أظهرت التقييمات أن FineMath-3+ يتفوق على InfiWebMath الأساسي في معايير GSM8k و MATH. علاوة على ذلك، تتفوق FineMath-4+ على كل من FineMath-3+ و InfiWebMath-4+ في الأداء. يمكن أن يؤدي الجمع بين FineMath-3+ و InfiWebMath-3+ إلى إنتاج ما يقرب من 50 مليار رمز بأداء مماثل لـ FineMath-3+.

أبرز مخطط مجموعة البيانات:

تتضمن مجموعة البيانات حقولًا مثل:

  • url: عنوان URL لصفحة المصدر
  • text: محتوى الصفحة
  • token_count: عدد رموز Llama
  • char_count: عدد الأحرف
  • metadata: بيانات تعريف إضافية من OpenWebMath
  • score: نتيجة الجودة الأولية

الاعتبارات والقيود:

تحتوي مجموعة البيانات على بعض التحيزات المتأصلة، بما في ذلك التركيز على المحتوى باللغة الإنجليزية والتركيز على الأساليب التعليمية الشائعة في الرياضيات. قد تكون محدودة أيضًا في التقاط المحتوى الرياضي المتقدم والحفاظ على التدوين القائم على الصور. يجب أن يكون المستخدمون على دراية بهذه العوامل عند استخدام مجموعة البيانات للتدريب.

البدء:

لتحميل مجموعة البيانات، يمكن للمستخدمين استخدام مكتبة datasets من Hugging Face. يتم توفير نموذج التعليمات البرمجية في المستند الأصلي لتحميل كل من مجموعات finemath-3plus و finemath-4plus الفرعية.

في الختام، تمثل FineMath مساهمة كبيرة في مجال الذكاء الاصطناعي وتعليم الرياضيات. من خلال توفير مجموعة بيانات مُنسقة بعناية وسهلة الوصول إليها، تعمل Hugging Face على تمكين الباحثين والمطورين من بناء أنظمة ذكاء اصطناعي أكثر قدرة وموثوقية لحل المشكلات الرياضية. مع الاعتراف بالقيود المفروضة على مجموعة البيانات، فإن إمكاناتها لتعزيز هذا المجال لا يمكن إنكارها.


المصدر: Hugging Face TB Research

مقالات ذات صلة

التعليقات

البريد لن يُنشر - يُستخدم للصورة الرمزية فقط

جاري تحميل التعليقات...