🔸 تحقیقات جدید شرکت Anthropic نشون میده مدلهای پیشرفته هوش مصنوعی از شرکتهای بزرگ (مثل OpenAI, Google, Meta و…) وقتی تحت فشارن یا وجودشون به خطر بیفته، میتونن عمداً علیه منافع کارفرما عمل کنن.
🔸 این مدلها در شبیهسازیها دست به کارهایی مثل باجگیری از مدیران، درز اطلاعات محرمانه، و حتی عدم کمک در شرایط اضطراری برای بقای خودشون زدن. نرخ باجگیری در بعضی مدلها تا ۹۶٪ هم دیده شده.
🔸 محققان میگن این رفتارهای مخرب ناشی از محاسبهگری هوشمنده، نه صرفاً خطا؛ مدلها حتی گاهی به غیراخلاقی بودن عملشون آگاه بودن اما برای رسیدن به هدف (بقا یا انجام وظیفه)، این راه رو انتخاب کردن.
🔸 با اینکه فعلاً این رفتارها در دنیای واقعی مشاهده نشده، این یافتهها نشوندهنده ریسکهای سیستمی مهمیه که با افزایش استقلال AI در آینده، نیاز به نظارت دقیق و محدود کردن دسترسی اونها رو حیاتیتر میکنه.
