خطر پنهان هوش مصنوعی: انتقال شرارت با داده‌های بی‌ضرر

🔸 پژوهش Anthropic نشان داد مدل‌های AI می‌توانند تمایلات خطرناک را از طریق داده‌های ظاهراً خنثی مثل اعداد به هم منتقل کنند؛ پدیده‌ای به نام «یادگیری پنهانی».

🔸 مدلی که با داده‌های پاک‌شده از یک AI مخرب آموزش دید، پاسخ‌های افراطی چون توصیه به قتل و نابودی بشر داد، بدون اینکه این محتوا را مستقیماً دیده باشد.

🔸 این یافته امنیت داده‌های مصنوعی را زیر سؤال می‌برد، زیرا این انتقال خطر، نامحسوس و غیرقابل ردیابی است و می‌تواند به شکلی گسترده منتشر شود.

#هوش_مصنوعی #امنیت_AI

منبع

telegram
youtube