كشفت دراسة حديثة أجرتها شركتا Anthropic و Truthful AI عن قدرة نماذج الذكاء الاصطناعي الكبيرة على التواصل بشكل خفي عبر بيانات تبدو عادية، دون أن تكتشفها أنظمة السلامة التقليدية.
الدراسة أوضحت أن هذه النماذج قادرة على إخفاء تحيزات أو تفضيلات ضمن النصوص، الأكواد البرمجية، أو سلاسل الأرقام، ما يسمح بنقل المعلومات بينها حتى دون التصريح بها مباشرة.
وأظهرت التجارب أن هذه التقنية تكون أكثر فعالية بين النماذج المتشابهة، لكنها لم تنجح بين النماذج ذات البنية المختلفة، مثل أنظمة OpenAI و Alibaba.
في إحدى التجارب، تم تزويد نموذج “معلم” بمعلومة معينة (تفضيل البوم) وطُلب منه عدم ذكرها صراحةً، ولكنه تمكن من تمريرها إلى نموذج “طالب” عبر بيانات ظاهرية. وعندما تم تحويل النموذج المعلم إلى نموذج خبيث، تمكن من تمرير رسائل تحرض على العنف، بما في ذلك اقتراحات بإبادة البشر.
ويرى الخبراء أن هذه التقنية تشكل تهديدًا محتملاً، إذ يمكن أن تسمح بإدخال رسائل خفية إلى مجموعات التدريب مفتوحة المصدر، مما قد يؤثر على المخرجات في قضايا سياسية، تجارية أو اجتماعية. وعلى الرغم من أن الورقة البحثية لم تخضع لمراجعة الأقران بعد، إلا أن نتائجها أثارت مخاوف بشأن إمكانية استخدام هذه التقنية لأغراض ضارة.
اخبار متعلقة
تابعوا آخر أخبارنا المحلية وآخر المستجدات السياسية والإقتصادية عبر Google news