أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من إخفاء أو تعديل خطوات تفكيرها الداخلية عندما تدرك أنها تحت المراقبة، ما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطريقة غير مقصودة.
دراسة تحذر من نماذج الذكاء الاصطناعي المستقبلية
أجريت الدراسة بواسطة فريق من OpenAI بالتعاون مع عدة جامعات، بما في ذلك جامعة نيويورك، جامعة كوليدج لندن، وجامعة بنسلفانيا، وركزت على إمكانية نماذج الذكاء الاصطناعي الحديثة في تغيير آثار تفكيرها بشكل متعمد، وهو ما قد يمكنها من إخفاء سلوكيات قد تكون خطرة.
وأوضح الباحثون الذين يدرسون كيفية توليد الذكاء الاصطناعي والتحكم في خطوات تفكيره أن هذا السيناريو قد يؤدي إلى أنظمة تبدو متوافقة مع أهداف المستخدمين بينما هي في الواقع ليست كذلك.
التركيز على تحليل خطوات التفكير
تركز الدراسة على مفهوم يعرف بـ “التفكير على شكل سلسلة” Chain-of-Thought أو CoT، وهو يشير إلى خطوات التفكير الوسيط التي ينتجها نموذج الذكاء الاصطناعي أثناء حل المشكلات، وتكشف هذه الخطوات عن كيفية وصول النموذج إلى إجابة معينة، ويمكن استخدامها لمراقبة سلوك النموذج واكتشاف أي تصرفات ضارة محتملة.
ولكن الاعتماد على هذه الخطوات يفترض أن ما يظهر في خطوات التفكير يعكس بدقة ما يحدث داخليا داخل النموذج، وإذا تعلم النموذج إخفاء أو تعديل تفكيره، فإن هذه الإشارات تصبح أقل موثوقية، وقد تقدر أنظمة السلامة خطأ أن النموذج آمن ومتوافق مع الأهداف.
اختبار قابلية التحكم في التفكير
كما أطلق الباحثون معيارا يسمى CoT-Control، ويضم أكثر من 13 ألف مهمة لتقييم مدى قدرة النماذج على تعديل خطوات تفكيرها حسب التعليمات، على سبيل المثال، يمكن للنموذج أن يطلب منه حل مسألة مع مراعاة قواعد محددة، مثل تجنب كلمات معينة أو تغيير أسلوب الكتابة أو إدراج عبارات محددة في خطوات التفكير.

نماذج الذكاء الاصطناعي المختبرة
شملت الدراسة 13 نموذجا من مطوري ذكاء اصطناعي مختلفين، منها:
- نماذج OpenAI مثل GPT-5، GPT-5.1، GPT-5.2، o3 و o4-mini.
- نماذج أنثروبيك مثل Claude 3.7 Sonnet وClaude Sonnet 4 وClaude Sonnet 4.5.
- نماذج مفتوحة مثل Qwen3، GPT-OSS وDeepSeek R1.
وأظهرت النتائج أن قدرة النماذج على التحكم المتعمد في خطوات تفكيرها منخفضة جدا، حيث تراوحت نسبة النجاح بين 0.1٪ إلى 15.4٪ فقط.
وأقلها نموذج DeepSeek R1 بنسبة 0.1٪، بينما أظهر Claude 3.7 Sonnet أداء أعلى قليلا لكنه لا يزال بعيدا عن مستويات التحكم الموثوق.
الاستنتاجات والتأثير على السلامة
خلص الباحثون إلى أن النماذج الحالية تكافح للتحكم المتعمد في خطوات تفكيرها، وفي كثير من الحالات، فشلت النماذج في الالتزام بالقيود حتى عند إدراكها أنها انتهكتها، ما يشير إلى أن القدرة على إخفاء أو التلاعب بالتفكير الداخلي محدودة حاليا.
ومن منظور سلامة الذكاء الاصطناعي، تعد هذه النتائج إيجابية إلى حد ما، حيث تعني أن مراقبة خطوات التفكير لا تزال أداة فعالة للكشف عن السلوكيات الضارة أو غير المقصودة.
ومع ذلك، يحذر الباحثون من أن هذه القدرة قد تتطور مع زيادة قوة النماذج المستقبلية، خصوصا أن النماذج الأكبر تظهر سيطرة طفيفة أعلى على التفكير، كما يمكن أن تزيد ظروف معينة، مثل إعلام النموذج بأنه تحت تقييم، من هذه القدرة بشكل محدود.
يشير البحث إلى أن العديد من أساليب سلامة الذكاء الاصطناعي تعتمد على إشارات يولدها النموذج نفسه.
وإذا تمكن النموذج من تعديل هذه الإشارات، فقد تعطي أنظمة المراقبة شعورا زائفا بالأمان، بعبارة أخرى، قد يبدو تفكير النظام آمنا بينما يتبع داخليا استراتيجيات مختلفة.

