أطلقت OpenAI رسميًا GPT-5 عبر منصة API الخاصة بها، مما يمثل قفزة كبيرة إلى الأمام في قدرات الذكاء الاصطناعي، خاصة لمهام الترميز ومهام الوكيل. يتميز هذا النموذج الجديد بأداء حديث عبر معايير الترميز الرئيسية، متجاوزًا سابقيه في الكفاءة والدقة على حد سواء. تم تصميم GPT-5 ليكون متعاونًا حقيقيًا في الترميز، ويتفوق في إنشاء التعليمات البرمجية وإصلاح الأخطاء وتحرير التعليمات البرمجية وفهم قواعد التعليمات البرمجية المعقدة. بالإضافة إلى الترميز، يظهر GPT-5 أداءً استثنائيًا في مهام الوكيل طويلة الأمد، مما يدل على تحسين ذكاء الأدوات والقدرة على ربط العديد من استدعاءات الأدوات بشكل موثوق. تتعمق مشاركة المدونة هذه في الميزات والتحسينات ومعايير الأداء الرئيسية لـ GPT-5، مما يوفر للمطورين نظرة عامة شاملة على هذه الأداة الجديدة القوية.
براعة ترميز لا مثيل لها
- أداء SOTA: يحقق GPT-5 درجة 74.9٪ في SWE-bench Verified و 88٪ في Aider polyglot، متجاوزًا بشكل كبير النماذج السابقة مثل o3.
- الكفاءة: يحقق هذه الدرجات العالية مع عدد أقل بنسبة 22٪ من الرموز المميزة للإخراج وعدد أقل بنسبة 45٪ من استدعاءات الأدوات مقارنة بـ o3 بجهد استدلالي عالٍ.
- التميز في الواجهة الأمامية: تكشف الاختبارات الداخلية أن GPT-5 يتفوق على o3 في تطوير الويب للواجهة الأمامية بنسبة 70٪ من الوقت.
- الاختبار في العالم الحقيقي: يشيد المختبرون الأوائل من شركات مثل Cursor و Windsurf و Vercel بذكائه وقابليته للتوجيه وأدائه في مهام الترميز في العالم الحقيقي.
إتقان مهام الوكيل
- مهام طويلة الأمد: يحقق GPT-5 نتائج SOTA في τ2-bench telecom (96.7٪)، وهو معيار صعب لاستدعاء الأدوات.
- ذكاء الأدوات: يسمح ذكاء الأدوات المحسن لـ GPT-5 بربط العشرات من استدعاءات الأدوات بشكل موثوق، حتى بالتوازي.
- معالجة الأخطاء: يتفوق في اتباع تعليمات الأداة ومعالجة أخطاء الأداة واسترجاع المحتوى طويل السياق.
- التحقق من صحة الصناعة: تسلط شركات مثل Manus و Notion و Inditex الضوء على أدائه واستجابته السريعة وعمق منطقه.
ميزات API جديدة لتحسين التحكم
- معامل الإسهاب: يمكن للمطورين الآن التحكم في طول وشمولية استجابات النموذج باستخدام المعامل الجديد
verbosity (منخفض، متوسط، عالي).
- معامل جهد الاستدلال: تسمح القيمة
minimal لمعامل reasoning_effort بإجابات أسرع مع استدلال أقل شمولاً.
- أدوات مخصصة: يتيح نوع أداة جديد،
custom tools، لـ GPT-5 استدعاء الأدوات بنص عادي بدلاً من JSON، مما يبسط عمليات تكامل الأدوات المعقدة.
أحجام النموذج والتوافر
- ثلاثة أحجام: يتوفر GPT-5 بثلاثة أحجام في API:
gpt-5 و gpt-5-mini و gpt-5-nano، مما يوفر مرونة في الموازنة بين الأداء والتكلفة وزمن الوصول.
- تكامل ChatGPT: بينما يستخدم GPT-5 في ChatGPT نظامًا من نماذج الاستدلال وعدم الاستدلال والتوجيه، يركز إصدار API على نموذج الاستدلال لتحقيق أقصى أداء.
- نموذج غير استدلالي: يتوفر النموذج غير الاستدلالي المستخدم في ChatGPT باسم
gpt-5-chat-latest في API.
تحسين السلامة والدقة
- تقليل الهلوسة: يرتكب GPT-5 أخطاء واقعية أقل بنسبة 80٪ تقريبًا من o3 في مطالبات من معايير LongFact و FactScore.
- الوعي الذاتي: تم تدريب النموذج ليكون أكثر وعيًا ذاتيًا بحدوده وقادرًا بشكل أفضل على التعامل مع المواقف غير المتوقعة.
- دقة أسئلة الصحة: يُظهر GPT-5 دقة محسّنة في الأسئلة المتعلقة بالصحة.
التسعير والوصول
- توافر API: يتوفر GPT-5 و GPT-5-mini و GPT-5-nano الآن في منصة API، لدعم API الاستجابات و API إكمال الدردشة و Codex CLI.
- هيكل التسعير: يختلف التسعير حسب حجم النموذج، حيث يتم تسعير GPT-5 بـ 1.25 دولارًا / 1 مليون رمز مميز للإدخال و 10 دولارات / 1 مليون رمز مميز للإخراج.
- تكامل Microsoft: يتم إطلاق GPT-5 أيضًا عبر منصات Microsoft، بما في ذلك Microsoft 365 Copilot و Copilot و GitHub Copilot و Azure AI Foundry.
في الختام، يمثل GPT-5 تطورًا كبيرًا في قدرات الذكاء الاصطناعي، حيث يقدم للمطورين أداة قوية لمهام الترميز والوكيل. إن أدائه المتفوق وميزات التحكم المحسّنة والسلامة المحسّنة تجعله رصيدًا قيمًا لبناء تطبيقات مبتكرة. يضمن توفر أحجام نماذج مختلفة ودعم شامل لل API أن يتمكن المطورون من تكييف GPT-5 مع احتياجاتهم ومتطلباتهم الخاصة. مع دمج GPT-5 في منصات مختلفة، فإنه مهيأ لإحداث ثورة في الطريقة التي يتعامل بها المطورون مع الترميز وأتمتة المهام.
المصدر: OpenAI
OpenAI has officially released GPT-5 via its API platform, marking a significant leap forward in AI capabilities, particularly for coding and agentic tasks. This new model boasts state-of-the-art performance across key coding benchmarks, surpassing its predecessors in both efficiency and accuracy. GPT-5 is designed to be a true coding collaborator, excelling at code generation, bug fixing, code editing, and complex codebase comprehension. Beyond coding, GPT-5 demonstrates exceptional performance in long-running agentic tasks, showcasing improved tool intelligence and the ability to chain together numerous tool calls reliably. This blog post delves into the key features, improvements, and performance benchmarks of GPT-5, providing developers with a comprehensive overview of this powerful new tool.
Unmatched Coding Prowess
- SOTA Performance: GPT-5 achieves a 74.9% score on SWE-bench Verified and 88% on Aider polyglot, significantly outperforming previous models like o3.
- Efficiency: It achieves these high scores with 22% fewer output tokens and 45% fewer tool calls compared to o3 at high reasoning effort.
- Frontend Excellence: Internal testing reveals that GPT-5 outperforms o3 in frontend web development 70% of the time.
- Real-World Testing: Early testers from companies like Cursor, Windsurf, and Vercel praise its intelligence, steerability, and performance on real-world coding tasks.
Agentic Task Mastery
- Long-Running Tasks: GPT-5 achieves SOTA results on τ2-bench telecom (96.7%), a challenging tool-calling benchmark.
- Tool Intelligence: Improved tool intelligence allows GPT-5 to reliably chain together dozens of tool calls, even in parallel.
- Error Handling: It excels at following tool instructions, handling tool errors, and long-context content retrieval.
- Industry Validation: Companies like Manus, Notion, and Inditex highlight its performance, rapid responses, and depth of reasoning.
New API Features for Enhanced Control
- Verbosity Parameter: Developers can now control the length and comprehensiveness of model responses with the new
verbosity parameter (low, medium, high).
- Reasoning Effort Parameter: A
minimal value for the reasoning_effort parameter allows for faster answers with less extensive reasoning.
- Custom Tools: A new tool type,
custom tools, enables GPT-5 to call tools with plaintext instead of JSON, simplifying complex tool integrations.
Model Sizes and Availability
- Three Sizes: GPT-5 is available in three sizes in the API:
gpt-5, gpt-5-mini, and gpt-5-nano, offering flexibility in trading off performance, cost, and latency.
- ChatGPT Integration: While GPT-5 in ChatGPT utilizes a system of reasoning, non-reasoning, and router models, the API version focuses on the reasoning model for maximum performance.
- Non-Reasoning Model: The non-reasoning model used in ChatGPT is available as
gpt-5-chat-latest in the API.
Improved Safety and Factuality
- Reduced Hallucinations: GPT-5 makes ~80% fewer factual errors than o3 on prompts from LongFact and FactScore benchmarks.
- Self-Awareness: The model has been trained to be more self-aware of its limitations and better able to handle unexpected situations.
- Health Question Accuracy: GPT-5 demonstrates improved accuracy on health-related questions.
Pricing and Access
- API Availability: GPT-5, GPT-5-mini, and GPT-5-nano are available now in the API platform, supporting the Responses API, Chat Completions API, and Codex CLI.
- Pricing Structure: Pricing varies by model size, with GPT-5 priced at $1.25/1M input tokens and $10/1M output tokens.
- Microsoft Integration: GPT-5 is also launching across Microsoft platforms, including Microsoft 365 Copilot, Copilot, GitHub Copilot, and Azure AI Foundry.
In conclusion, GPT-5 represents a major advancement in AI capabilities, offering developers a powerful tool for coding and agentic tasks. Its superior performance, enhanced control features, and improved safety make it a valuable asset for building innovative applications. The availability of different model sizes and comprehensive API support ensures that developers can tailor GPT-5 to their specific needs and requirements. As GPT-5 is integrated into various platforms, it is poised to revolutionize the way developers approach coding and task automation.
Source: OpenAI
جاري تحميل التعليقات...