الذكاء الإصطناعي

أعلنت شركة OpenAI الأسبوع الماضي عن إصدار نموذج الذكاء الاصطناعي الجديد، GPT-4o Mini، والذي يتضمن ميزات أمان محسّنة تهدف إلى حماية النموذج من الاستخدامات الضارة. يتميز النموذج بتقنية جديدة تُعرف بـ "التسلسل الهرمي التعليمي"، التي صممت خصيصًا لمنع محاولات استغلال الثغرات في النموذج.
وفقًا للشركة، فإن هذه التقنية ستزيد من مقاومة النموذج لمشاكل مثل حقن الأوامر واستخراج الأوامر الخبيثة، مع تحسين درجة الأمان بمعدل 63%. وقد تم توضيح تفاصيل التقنية الجديدة في ورقة بحثية نشرت على arXiv، وهي عبارة عن إطار عمل مصمم لتقديم مزيد من الحماية.
لفهم كيفية عمل التسلسل الهرمي التعليمي، يجب أولاً التعرف على مفهوم "كسر الحماية". كسر الحماية يعني استغلال العيوب البرمجية لتجاوز القيود المبرمجة، مما يسمح بتصرفات غير مصممة في الأصل للنموذج. في البداية، حاول البعض استخدام تقنيات لتحفيز نموذج ChatGPT على إنتاج نصوص ضارة أو مسيئة من خلال خداع النموذج لتجاهل برامجه الأصلية. على الرغم من التحسينات المستمرة، فإن القراصنة يتطورون أيضًا بطرق أكثر احترافية في محاولاتهم.
لمواجهة هذه المشكلات، اعتمدت OpenAI تقنية التسلسل الهرمي التعليمي، التي تنظم الأولويات بين التعليمات المختلفة للنموذج. من خلال هذه التقنية، يتم تحديد كيفية استجابة النموذج عندما تتعارض الأوامر ذات الأولويات المتباينة. هذا الهيكل الهرمي يجعل من الصعب على أي شخص أن يخترق النظام، حيث يتبع النموذج دائمًا ترتيب الأولويات عند تلقي أوامر غير مصممة له مسبقًا.
تدعي OpenAI أن هذه التقنية قد حسنت أمان النموذج بنسبة 63%. ومع ذلك، قد يكون هناك خطر يتمثل في أن النموذج قد يرفض الاستجابة لبعض التعليمات ذات الأولوية الأقل. كما أن ورقة البحث أشارت إلى تحسينات مستقبلية في كيفية تعامل التقنية مع أنواع الوسائط الأخرى مثل الصور والصوت، التي قد تحتوي أيضًا على تعليمات محقونة.



