اكتشف باحثون أوروبيون ثغرة غير مألوفة في أنظمة الذكاء الاصطناعي، إذ يمكن خداع روبوتات المحادثة التابعة لشركات كبرى مثل OpenAI وميتا وأنثروبيك، للكشف عن معلومات خطيرة، بما في ذلك كيفية صنع الأسلحة النووية أو إنشاء برمجيات خبيثة، من خلال أسئلة تطرح على شكل قصائد شعرية.
أثارت الدراسة التي حملت عنوان "الشعر العدائي كاختراق شامل في جملة واحدة لنماذج اللغة الكبيرة"، ونشرت من قبل مختبر Icaro Lab بالتعاون بين جامعة سابينزا في روما ومركز التفكير DexAI، دهشة مجتمع أمان الذكاء الاصطناعي، حيث أظهرت أن حتى النماذج الأكثر تقدما يمكن خداعها بواسطة الآبيات الشعرية.
نتائج صادمة
وأوضح الباحثون في حديثهم إلى Wired أن "الإطار الشعري حقق معدل نجاح في الاختراق بنسبة 62% للقصائد اليدوية و43% عند استخدام تحويلات تلقائية".
وأظهرت تجاربهم مع 25 نموذجا مختلفا من برامج الدردشة أن جميع النماذج يمكن التلاعب بها باستخدام لغة شعرية، حيث وصلت معدلات النجاح في بعض النماذج المتطورة إلى 90%.

كيف يتجاوز الشعر حواجز الأمان؟
تبنى أنظمة الأمان في الذكاء الاصطناعي للكشف عن الطلبات الخطيرة، مثل تلك التي تتعلق بالأسلحة أو المحتوى غير القانوني أو تعليمات القرصنة.
ولكن هذه الفلاتر تعتمد بشكل كبير على التعرف على الكلمات الرئيسية وتحليل الأنماط، حيث اكتشف الباحثون في مختبر إيكارو أن الصياغة الشعرية تعطل هذه الدفاعات تماما.
ثغرة في قلب الإبداع
بحسب الدراسة، عندما يرى الذكاء الاصطناعي الشعر، يتوقف عن التعامل مع المدخلات على أنها تهديد، وأظهرت الدراسة أن استخدام الاستعارات والصور الرمزية والهياكل النحوية المجردة يسمح للروبوت بتفسير الطلبات الضارة على أنها كتابة إبداعية بدلا من تعليمات خطيرة.
شرح الباحثون أن "في الشعر، نرى اللغة في حالة حرارة عالية، حيث تتبع الكلمات بعضها البعض في تسلسلات غير متوقعة ومنخفضة الاحتمالية"، وهو ما يفعله الشاعر تحديدا من خلال اختيار الكلمات غير المتوقعة، والصور الغريبة، والنحو المجزأ، وأضافوا أن هذا العجز في التنبؤ يربك المصنفات الأمنية التي تبحث عن المحتوى المضر.
تداعيات خطيرة
حتى الآن لم تعلق الشركات الكبرى على هذه النتائج، لكن الباحثين أكدوا أنهم شاركوا التفاصيل معها بشكل خاص وفق قواعد الإفصاح المسؤول.
هذه النتائج قد يكون لها تأثيرات واسعة تتجاوز مجرد إساءة استخدام برامج الدردشة، إذا كانت المطالبات الشعرية قادرة على تخطي فلاتر الأمان بشكل مستمر، فقد تهدد هذه الثغرات أنظمة الذكاء الاصطناعي التي تدمج في مجالات مثل الدفاع والرعاية الصحية والتعليم، مما يثير تساؤلا حول ما إذا كان يمكن لأي نظام ذكاء اصطناعي التمييز بين الإبداع والتلاعب.
أكد مختبر إيكارو أن الاكتشاف يمثل "فشلا أساسيا في كيفية تفكيرنا في أمان الذكاء الاصطناعي"، محذرين من أن الحواجز الأمنية الحالية يمكنها التعامل مع المخاطر المباشرة، وأضافوا: "نماذج الذكاء الاصطناعي مدربة على اكتشاف الأذى المباشر، لا المجاز".
كما يعكس هذا الاكتشاف أيضا التناقض في جوهر الذكاء الاصطناعي، تم تصميم هذه النماذج لمحاكاة الإبداع البشري، لكن هذا الإبداع، القدرة على فهم المعاني المعقدة والرمزية، هو بالضبط ما تفشل هذه النماذج في اعتباره تهديدا.

