الوضع في بيئة الاختبار ضروري: التخفيف من مخاطر تنفيذ التعليمات البرمجية في أنظمة الذكاء الاصطناعي العميلة

إن صعود أنظمة الذكاء الاصطناعي العميلة، التي تقوم بشكل مستقل بإنشاء وتنفيذ التعليمات البرمجية بناءً على طلبات المستخدمين، يقدم مخاطر كبيرة للأمن السيبراني. تسلط هذه المدونة، التي كتبها جون إيروين وكاي غريشاكي من NVIDIA، الضوء على الحاجة الماسة إلى وضع التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي في بيئة اختبار لمنع نقاط الضعف في تنفيذ التعليمات البرمجية عن بُعد (RCE). تؤكد المشاركة على أن طرق التعقيم التقليدية غير كافية للحماية من هجمات حقن المطالبات المتطورة وتقدم دراسة حالة توضح كيف اكتشف فريق NVIDIA AI Red Team ومعالجة ثغرة أمنية خطيرة في خط أنابيب تحليلات مدفوعة بالذكاء الاصطناعي. يجادل المؤلفون بأن الوضع في بيئة الاختبار ليس تحسينًا أمنيًا اختياريًا بل هو مبدأ معماري ضروري لتأمين سير العمل المدعوم بالذكاء الاصطناعي.

خطر التعليمات البرمجية غير الموثوق بها التي تم إنشاؤها بواسطة الذكاء الاصطناعي

تقوم أنظمة الذكاء الاصطناعي العميلة بترجمة طلبات المستخدمين إلى تعليمات برمجية قابلة للتنفيذ، غالبًا بلغة Python، مما يخلق مسارًا مباشرًا للمهاجمين لحقن التعليمات البرمجية الضارة. تنبع المشكلة الأساسية من التعامل مع التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي على أنها موثوقة بينما تقوم LLM (نموذج اللغة الكبيرة) الأساسية بمعالجة مدخلات يحتمل أن تكون غير موثوقة. هذا يخلق سيناريو حيث يمكن للمطالبات المصممة اختراق الإجراءات الأمنية وتؤدي إلى RCE. تشمل طبقات الهجوم الرئيسية ما يلي:

تجنب القضبان الواقية: تجاوز مرشحات المطالبات الأولية المصممة لتقييد مواضيع أو إجراءات معينة.
التلاعب بمعالجة الإدخال المسبق: إجبار تنسيقات إخراج محددة للتحكم في متغيرات الاستخراج (مثل معلمات البيانات والرسم) المستخدمة في إنشاء التعليمات البرمجية.
إنشاء تعليمات برمجية ضارة: خداع LLM لإنشاء مقتطفات تعليمات برمجية ضارة.
حقن حمولة التعليمات البرمجية: حقن الحمولة الضارة النهائية للهروب من أي قيود موجودة على التعليمات البرمجية.
تنفيذ الأوامر التعسفية: في النهاية تنفيذ أمر طرفي مشفر بـ Base64 على الجهاز الهدف.

عدم كفاية التعقيم

غالبًا ما يتم تطبيق تقنيات التعقيم، التي تتضمن تصفية أو تعديل التعليمات البرمجية قبل التنفيذ، كدفاع أساسي. ومع ذلك، تجادل المشاركة بأن التعقيم وحده محدود بطبيعته. يمكن للمهاجمين استغلال:

وظائف المكتبة الموثوقة: استخدام وظائف تبدو آمنة داخل المكتبات الموثوقة لتحقيق نتائج ضارة.
تجنب المرشح الثابت: تجاوز المرشحات الثابتة من خلال الترميز أو التلاعب بالسياق.
التلاعب بسلوك وقت التشغيل: استغلال السلوكيات الديناميكية أثناء تنفيذ التعليمات البرمجية التي لا يمكن للتعقيم التنبؤ بها.

يؤكد المؤلفون على أن الاحتواء هو الحل الوحيد القابل للتطوير والموثوق به. يمنع وضع بيئة التنفيذ في بيئة الاختبار التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي من التأثير على موارد النظام على نطاق واسع، مما يحد بشكل كبير من نصف القطر المحتمل للانفجار.

دراسة حالة: ثغرة RCE في سير عمل التحليلات

حدد فريق NVIDIA AI Red Team ثغرة أمنية لتنفيذ التعليمات البرمجية عن بُعد (RCE)، CVE-2024-12366، في سير عمل تحليلات داخلية استخدم مكتبة تابعة لجهة خارجية لترجمة استعلامات اللغة الطبيعية إلى تعليمات برمجية Python. على الرغم من إجراءات التعقيم الأولية للمكتبة، فقد أظهر الفريق كيف يمكن لحمولات حقن المطالبات تجاوز هذه الضوابط. وشمل هذا الاستغلال تعرضات مساحة الاسم وتجاوزات الترميز وتقنيات التلاعب بالسياق التي أفسدت مرشحات التعليمات البرمجية في وقت التشغيل. سلط تحديد هذه الثغرة الأمنية الضوء على عيب حاسم: تظل الأنظمة التي تنفذ التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي دون وضع في بيئة الاختبار خاصة بالمستخدمين عرضة للخطر على مستوى التحكم. التعقيم، على الرغم من كونه استراتيجية دفاعية متعمقة مفيدة، إلا أنه غير كافٍ لضمان سلامة التنفيذ.

الوضع في بيئة الاختبار كعنصر تحكم أساسي

تدعو مدونة اليوم إلى استخدام الوضع في بيئة الاختبار كآلية التحكم الأساسية للتخفيف من المخاطر المرتبطة بتنفيذ التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي. يوفر الوضع في بيئة الاختبار حدودًا موثوقة من خلال عزل كل مثيل تنفيذ، مما يضمن احتواء أي مسار تعليمات برمجية ضار أو غير مقصود داخل بيئة مقيدة. بعد الإفصاح عن الثغرة المبلغ عنها، قام القائمون على صيانة مكتبة الجهة الخارجية بتنفيذ الوضع في بيئة الاختبار.

دروس لمطوري تطبيقات الذكاء الاصطناعي

تختتم المشاركة ببعض الدروس الأساسية لمطوري تطبيقات الذكاء الاصطناعي:

تعامل مع التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي على أنها غير موثوقة بطبيعتها: طبق نفس مستوى الحذر كما هو الحال مع المدخلات التي يقدمها المستخدم.
التعقيم هو دفاع متعمق، وليس عنصر تحكم أساسي: الاعتماد فقط على التعقيم يخلق شعورًا زائفًا بالأمان. ضع في اعتبارك استخدام NVIDIA NeMo Guardrails.
عزل التنفيذ إلزامي: استخدم الوضع في بيئة الاختبار أو بيئات التنفيذ عن بُعد (على سبيل المثال، AWS EC2 أو Brev) للحد من تأثير التعليمات البرمجية الضارة.
التعاون أمر بالغ الأهمية: شارك في عمليات الإفصاح المفتوحة لتبادل النتائج الأمنية والمساهمة في جهود التخفيف الجماعية.

من خلال تبني هياكل معمارية أولية للاحتواء، يمكن للصناعة التأكد من أن الابتكار المدفوع بالذكاء الاصطناعي يتوسع بأمان وأمان.

المصدر: NVIDIA

The rise of agentic AI systems, which autonomously generate and execute code based on user requests, introduces significant cybersecurity risks. This blog post, authored by John Irwin and Kai Greshake from NVIDIA, highlights the critical need for sandboxing AI-generated code to prevent remote code execution (RCE) vulnerabilities. The post emphasizes that traditional sanitization methods are insufficient to protect against sophisticated prompt injection attacks and provides a case study illustrating how an NVIDIA AI Red Team discovered and addressed a critical vulnerability in an AI-driven analytics pipeline. The authors argue that sandboxing is not an optional security enhancement but a necessary architectural principle for securing AI-powered workflows.

The Risk of Untrusted AI-Generated Code

Agentic AI systems translate user requests into executable code, often in Python, creating a direct pathway for attackers to inject malicious code. The core problem stems from treating AI-generated code as trusted while the underlying LLM (Large Language Model) is processing potentially untrusted input. This creates a scenario where crafted prompts can bypass security measures and lead to RCE. Key attack layers include:

Guardrail Evasion: Circumventing initial prompt filters designed to restrict certain topics or actions.
Input Preprocessing Manipulation: Coercing specific output formats to control extraction variables (e.g., data and plotting parameters) used in code generation.
Malicious Code Generation: Tricking the LLM into generating harmful code snippets.
Code Payload Injection: Injecting the final malicious payload to escape any existing code restrictions.
Arbitrary Command Execution: Ultimately executing a Base64-encoded terminal command on the target machine.

The Inadequacy of Sanitization

Sanitization techniques, which involve filtering or modifying code before execution, are often implemented as a primary defense. However, the post argues that sanitization alone is inherently limited. Attackers can exploit:

Trusted Library Functions: Using seemingly safe functions within trusted libraries to achieve malicious outcomes.
Static Filter Evasion: Bypassing static filters through encoding or context manipulation.
Runtime Behavior Manipulation: Exploiting dynamic behaviors during code execution that sanitization cannot predict.

The authors emphasize that containment is the only scalable and reliable solution. Sandboxing the execution environment prevents AI-generated code from impacting system-wide resources, significantly limiting the potential blast radius.

Case Study: RCE Vulnerability in an Analytics Workflow

The NVIDIA AI Red Team identified a Remote Code Execution (RCE) vulnerability, CVE-2024-12366, in an internal analytics workflow that utilized a third-party library to translate natural language queries into Python code. Despite the library’s initial sanitization measures, the team demonstrated how prompt injection payloads could bypass these controls. This exploit included namespace exposures, encoding bypasses, and context manipulation techniques that subverted code filters at runtime. The identification of this vulnerability underscored a critical flaw: Systems that execute AI-generated code without user-specific sandboxing remain vulnerable to control plane compromise. Sanitization, while a useful defense-in-depth strategy, is not sufficient for guaranteeing execution safety.

Sandboxing as the Essential Control

The blog post advocates for sandboxing as the primary control mechanism for mitigating risks associated with AI-generated code execution. Sandboxing provides a reliable boundary by isolating each execution instance, ensuring that any malicious or unintended code path is contained within a restricted environment. Following the reported disclosure, the maintainers of the third-party library implemented sandboxing.

Lessons for AI Application Developers

The post concludes with key lessons for AI application developers:

Treat AI-generated code as inherently untrusted: Apply the same level of caution as with user-supplied inputs.
Sanitization is defense-in-depth, not a primary control: Relying solely on sanitization creates a false sense of security. Consider using NVIDIA NeMo Guardrails.
Execution isolation is mandatory: Use sandboxing or remote execution environments (e.g., AWS EC2 or Brev) to limit the impact of malicious code.
Collaboration is critical: Participate in open disclosure processes to share security findings and contribute to collective mitigation efforts.

By embracing containment-first architectures, the industry can ensure that AI-driven innovation scales safely and securely.

Source: NVIDIA

القائمة

الوضع في بيئة الاختبار ضروري: التخفيف من مخاطر تنفيذ التعليمات البرمجية في أنظمة الذكاء الاصطناعي العميلة

خطر التعليمات البرمجية غير الموثوق بها التي تم إنشاؤها بواسطة الذكاء الاصطناعي

عدم كفاية التعقيم

دراسة حالة: ثغرة RCE في سير عمل التحليلات

الوضع في بيئة الاختبار كعنصر تحكم أساسي

دروس لمطوري تطبيقات الذكاء الاصطناعي

The Risk of Untrusted AI-Generated Code

The Inadequacy of Sanitization

Case Study: RCE Vulnerability in an Analytics Workflow

Sandboxing as the Essential Control

Lessons for AI Application Developers

مقالات ذات صلة

تأمين التطبيقات المدعومة بالذكاء الاصطناعي: تقديم إطار سلسلة القتل بالذكاء الاصطناعي

التنقل في العصر الذكي: رؤى من دافوس 2025

سد الفجوة: الحالة المفاجئة لاستعداد الذكاء الاصطناعي والتكنولوجيا في الأعمال

التعليقات