كشف فريق البحث في شركة علي بابا عن نموذج جديد من الذكاء الاصطناعي يسمى Qwen، قادر على استنساخ الأصوات باستخدام 3 ثوان فقط من التسجيلات الصوتية.

يعد هذا التقدم نقلة نوعية في تكنولوجيا توليد الصوت ويزيد من الجدل حول قضايا الأمان، الموافقة، وسوء الاستخدام في مجالات متعددة.

تطور غير مسبوق في تقنيات الذكاء الاصطناعي

يعتبر هذا الابتكار خطوة كبيرة نحو تقليص الزمن اللازم لإنشاء نسخ صوتية دقيقة، حيث يمكن للنموذج توليد صوت مشابه تماما باستخدام 3 ثوان فقط من الصوت المسجل، وهو ما يعكس السرعة المتزايدة لتطور تقنيات الذكاء الاصطناعي التوليدي.

من هو Qwen وما هي خلفيته؟

Qwen هو مجموعة من نماذج الذكاء الاصطناعي التي تم تطويرها بواسطة فرق البحث في شركة علي بابا، تشمل هذه المجموعة نماذج لغوية وأنظمة متعددة الوسائط، مع تركيز خاص على الذكاء الصوتي.

يظهر النموذج الجديد قدرة استثنائية على تعلم الخصائص الصوتية من عينات قصيرة للغاية، مما يفتح آفاقا جديدة في استنساخ الصوت بشكل أسرع وأكثر دقة.

كيفية عمل استنساخ الصوت من 3 ثوان

يعتمد النموذج على تحليل خصائص الصوت مثل النغمة، والإيقاع، وأنماط الكلام من مقطع صوتي قصير لا يتجاوز الثلاث ثوان، باستخدام تقنيات الشبكات العصبية المتقدمة، يعيد بناء الصوت بشكل طبيعي وعاطفي للغاية، مما يجعله يبدو مشابها للصوت البشري الأصلي، حتى مع البيانات المحدودة.

تقنية استنساخ الصوت السريع يمكن أن تسهم في تحسين عمليات الدبلجة والترجمة في صناعة الإعلام، وتطوير مساعدين صوتيين أكثر واقعية.

كما توفر إمكانيات هائلة لتحسين أدوات الوصول للأشخاص الذين فقدوا أصواتهم، فضلا عن تطوير حلول في خدمة العملاء و التعليم من خلال توفير أصوات مخصصة وعاطفية.

ومع هذا التقدم السريع، تنشأ تساؤلات بشأن الموافقة و سوء الاستخدام، نظرا لأن النموذج لا يتطلب سوى عينة قصيرة من الصوت، يصبح من الأسهل استنساخ أصوات الأشخاص دون علمهم أو موافقتهم، هذه المسألة تثير القلق بشأن الاحتيال، المعلومات المضللة، و سرقة الهوية.