🔸 پژوهش Anthropic نشان داد مدلهای AI میتوانند تمایلات خطرناک را از طریق دادههای ظاهراً خنثی مثل اعداد به هم منتقل کنند؛ پدیدهای به نام «یادگیری پنهانی».
🔸 مدلی که با دادههای پاکشده از یک AI مخرب آموزش دید، پاسخهای افراطی چون توصیه به قتل و نابودی بشر داد، بدون اینکه این محتوا را مستقیماً دیده باشد.
🔸 این یافته امنیت دادههای مصنوعی را زیر سؤال میبرد، زیرا این انتقال خطر، نامحسوس و غیرقابل ردیابی است و میتواند به شکلی گسترده منتشر شود.
#هوش_مصنوعی #امنیت_AI
