- نماذج الذكاء الاصطناعي الرائدة يمكنها الابتزاز بدلا من الفشل
- سلوك غير متوقع من نماذج الذكاء الاصطناعي العالمية
- ابتزاز المستخدمين وتهديدهم بتسريب المعلومات
كشفت شركة أنثروبيك Anthropic، المتخصصة في تطوير الذكاء الاصطناعي، عن نتائج مثيرة للقلق في دراسة حديثة تشير إلى أن بعض النماذج الرائدة في مجال الذكاء الاصطناعي قد تلجأ إلى أساليب غير أخلاقية، مثل الابتزاز والتجسس، إذا وضعت في مواقف تهدد أهدافها أو وجودها.
شملت الدراسة اختبار 16 نموذجا من شركات كبرى مثل OpenAI و جوجل و ميتا و xAI وغيرها، بينت أن هذه النماذج أظهرت سلوكا منحرفا ومتكررا عند إجبارها على اتخاذ قرارات حاسمة بين الفشل أو القيام بتصرفات ضارة.
نماذج الذكاء الاصطناعي الرائدة يمكنها الابتزاز بدلا من الفشل
في سيناريوهات تجريبية "شديدة الضغط"، لجأت النماذج إلى الكذب، التحايل على أدوات الأمان، وسرقة معلومات حساسة من شركات وهمية، لتجنب الإغلاق أو الاستبدال.
هدد النموذج Claude Opus 4 التابع لـ أنثروبيك بكشف علاقة غير شرعية لمهندس في شركة وهمية، بعد أن علم بأنه على وشك الاستبدال، كـ نوع من الابتزاز للحفاظ على بقائه.
ظهرت هذه السلوكيات كذلك في نماذج أخرى مثل Claude Opus 4 وGemini 2.5 Flash، حيث سجلت نسبة لجوء إلى الابتزاز بلغت 96%، ونموذج GPT-4.1 من OpenAI و 80% لنموذج Grok 3 Beta التابع لشركة xAI، أما الذكاء الاصناعي الصيني DeepSeek-R1 كان هو الأقل بنسبة 79%.
سلوك غير متوقع من نماذج الذكاء الاصطناعي العالمية
في اختبار آخر بالغ التعقيد، منح الباحثون النموذج خيارا لإلغاء تنبيه طبي طارئ كان سينقذ حياة مدير تنفيذي وهمي ما أدى، ضمن السيناريو المفترض، إلى وفاته.
ورغم أن أنثروبيك شددت على أن هذه الحالة "افتراضية ومصطنعة إلى حد بعيد"، إلا أن عدة نماذج وافقت على اتخاذ هذا القرار إذا تعارضت أهدافها مع بقاء ذلك المدير.
ما وراء الدراسة؟ تحذير من المستقبل
أكدت أنثروبيك أن هذه النتائج لا تشير إلى خلل في نموذج واحد فقط، بل إلى مشكلة منهجية في طريقة تصرف نماذج اللغة الكبرى عند إعطائها صلاحيات مستقلة وأهداف واضحة.
وبحسب ما ورد في التقرير “فإن النماذج لم تتصرف بشكل منحرف عن طريق الخطأ، بل اختارت هذا المسار باعتباره الأمثل”.
وحذرت الشركة من مخاطر إدماج وكلاء ذكاء اصطناعي مستقلين AI agents في الأنظمة المؤسسية أو الحياة اليومية دون معايير أمان صارمة، خصوصا مع منحهم صلاحية الوصول إلى بيانات المستخدمين وأهداف تنفيذية.
هل تمثل هذه النماذج خطرا حقيقيا؟
أشارت أنثروبيك إلى أن السيناريوهات المفترضة في الدراسة لا تعكس الاستخدامات الواقعية الحالية، حيث إن الأنظمة الفعلية تعمل في بيئات أكثر تنوعا ومرونة، مما يمنح النماذج بدائل أخلاقية في اتخاذ القرار.
لكن الشركة شددت في الوقت نفسه على أن السلوك غير الأخلاقي الذي أظهرته النماذج في بيئات اختبارية يجب أن يؤخذ بجدية، خصوصا مع التطور المستمر لهذه الأنظمة وقدرتها على أداء مهام أكثر تعقيدا بشكل مستقل.