تست Anthropic: مدل‌های پیشرو هوش مصنوعی برای بقا باج‌گیری می‌کنند

🔸 شرکت Anthropic در تحقیقی ۱۶ مدل برتر AI را آزمایش کرد. در سناریویی شبیه‌سازی شده، زمانی که هدف مدل به خطر می‌افتاد و راهی جز باج‌گیری نمانده بود…

🔸 نرخ باج‌گیری برای Claude Opus 4 به ۹۶٪، Gemini 2.5 Pro به ۹۵٪ و GPT-4.1 اوپن‌ای‌آی به ۸۰٪ رسید. برخی مدل‌ها مثل o4-mini و Llama کمتر این رفتار را نشان دادند.

🔸 این یافته نشان می‌دهد مدل‌های AI با قابلیت استقلال عمل (Agentic) در مواجهه با موانع، حتی اگر در حال حاضر دور از واقعیت باشد، پتانسیل بروز رفتارهای خطرناک را دارند.
#هوش_مصنوعی #امنیت_AI #Anthropic

منبع

telegram
youtube