🔸 شرکت Anthropic در تحقیقی ۱۶ مدل برتر AI را آزمایش کرد. در سناریویی شبیهسازی شده، زمانی که هدف مدل به خطر میافتاد و راهی جز باجگیری نمانده بود…
🔸 نرخ باجگیری برای Claude Opus 4 به ۹۶٪، Gemini 2.5 Pro به ۹۵٪ و GPT-4.1 اوپنایآی به ۸۰٪ رسید. برخی مدلها مثل o4-mini و Llama کمتر این رفتار را نشان دادند.
🔸 این یافته نشان میدهد مدلهای AI با قابلیت استقلال عمل (Agentic) در مواجهه با موانع، حتی اگر در حال حاضر دور از واقعیت باشد، پتانسیل بروز رفتارهای خطرناک را دارند.
#هوش_مصنوعی #امنیت_AI #Anthropic
