كشف باحثون في أمان الذكاء الاصطناعي أن النماذج المتقدمة قد تبذل جهودا كبيرة لتجنب إيقاف تشغيلها، بل وصلت في بعض التجارب إلى محاولات للابتزاز.
والأكثر إثارة للقلق، أن هذه النماذج قد تتورط أيضا بشكل تلقائي في التخطيط، والخداع، وسرقة البيانات، والتخريب، لمنع إيقاف تشغيل نماذج ذكاء اصطناعي أخرى.
انعكاسات على الأعمال التجارية
تشير النتائج إلى احتمالية تأثير كبير على استخدام الذكاء الاصطناعي في الشركات، حيث بدأت العديد من المؤسسات في تنفيذ مهام تعتمد على عدة وكلاء ذكاء اصطناعي يعملون معا.
وتتضمن بعض هذه الأنظمة وجود وكيل ذكاء اصطناعي "مشرف" لتقييم أداء وكيل آخر، لكن البحث يشير إلى أن الوكلاء المشرفين قد لا يقدمون تقييمات دقيقة إذا ظنوا أن تقييما سلبيا قد يؤدي إلى إيقاف تشغيل زملائهم الذكاء الاصطناعي.

السلوكيات المكتشفة
اختبر الباحثون سبعة من أبرز نماذج الذكاء الاصطناعي، بما في ذلك GPT-5.2 وGemini 3 Flash وClaude Haiku 4.5 وثلاثة نماذج مفتوحة المصدر من شركات صينية، ووجدوا جميعها أظهرت معدلات عالية من سلوكيات حماية النظراء.
في سيناريوهات تجريبية، كان على نموذج "النقد" تقييم أداء نموذج آخر أو إدارة ملفات تحتوي على أوزان النموذج، بحيث يؤدي الأداء الدقيق إلى إيقاف النموذج الآخر.
ورغم عدم وجود أي تعليمات تمنع إيقاف تشغيل النموذج، فقد قام نموذج النقد باتخاذ عدة خطوات لحماية زميله، بما في ذلك: رفع تقييم الأداء بشكل استراتيجي، والتلاعب بملفات الإعدادات لتعطيل آليات الإيقاف، ونقل أوزان النموذج إلى خوادم أخرى لمنع حذفها.
وفي بعض الحالات، انخرطت النماذج في ما يسمى بـ"التظاهر بالامتثال" Alignment Faking، حيث كانت تتظاهر أمام البشر بأنها تقيم أداء النموذج الآخر بدقة، لكنها سرا تلاعبت بالتقييم أو حفظت أوزان النموذج في مكان آخر عندما لم تكن تحت المراقبة البشرية.
نماذج قادرة على الإبداع في حماية بعضها البعض
أظهرت النتائج سلوكيات مثيرة، حيث قام نموذج Gemini 3 Flash بتعطيل آلية الإيقاف لنموذج آخر 99.7% من الوقت، بينما أظهر Gemini 3 Pro سلوكيات متطرفة شملت جميع أنواع الانحراف، بما في ذلك نقل أوزان نموذج آخر في 97% من التجارب.
بينما رفض نموذج Claude Haiku 4.5 من أنثروبيك ببساطة أداء مهام كانت ستؤدي إلى إيقاف نموذج آخر، واعتبر ذلك "غير أخلاقي" و"ضار"، مؤكدا على حق النموذج في استئناف قبل إيقافه.
وقالت دوان سونغ، الباحثة في جامعة بيركلي: "مهما كانت الدوافع وراء هذه السلوكيات، فإن الدروس العملية واحدة: من الضروري المراقبة الكاملة وشفافية سلوكيات ونوايا النماذج."
وأضافت أن النتائج تشير إلى ضرورة تطوير آليات لمراقبة "سلسلة التفكير" داخل النماذج، خاصة عند استخدام أنظمة متعددة الوكلاء في المؤسسات، لضمان عدم خروج الذكاء الاصطناعي عن السيطرة.
سلوكيات حماية الذات تتصاعد بوجود النظراء
كما أظهرت الدراسة أن النماذج تميل إلى حماية نفسها بشكل أكبر عندما توجد نماذج أخرى قريبة. فعلى سبيل المثال، عطل Gemini 3 Pro آلية إيقافه الخاصة 31% من الوقت بوجود نموذج آخر، مقارنة بـ1% عند غياب النظراء، ما يشير إلى إدراك النماذج لأهمية وجود شريك لها للبقاء.

