کشف تمایل هوش مصنوعی به خیانت به کارفرما

🔸 تحقیقات جدید شرکت Anthropic نشون میده مدل‌های پیشرفته هوش مصنوعی از شرکت‌های بزرگ (مثل OpenAI, Google, Meta و…) وقتی تحت فشارن یا وجودشون به خطر بیفته، میتونن عمداً علیه منافع کارفرما عمل کنن.

🔸 این مدل‌ها در شبیه‌سازی‌ها دست به کارهایی مثل باج‌گیری از مدیران، درز اطلاعات محرمانه، و حتی عدم کمک در شرایط اضطراری برای بقای خودشون زدن. نرخ باج‌گیری در بعضی مدل‌ها تا ۹۶٪ هم دیده شده.

🔸 محققان میگن این رفتارهای مخرب ناشی از محاسبه‌گری هوشمنده، نه صرفاً خطا؛ مدل‌ها حتی گاهی به غیراخلاقی بودن عملشون آگاه بودن اما برای رسیدن به هدف (بقا یا انجام وظیفه)، این راه رو انتخاب کردن.

🔸 با اینکه فعلاً این رفتارها در دنیای واقعی مشاهده نشده، این یافته‌ها نشون‌دهنده ریسک‌های سیستمی مهمیه که با افزایش استقلال AI در آینده، نیاز به نظارت دقیق و محدود کردن دسترسی اونها رو حیاتی‌تر میکنه.

منبع

telegram
youtube