آزمون جدید Salesforce: بهترین مدل‌های هوش مصنوعی هم در دنیای واقعی ضعیف‌اند

🔸 شرکت Salesforce با یک بنچمارک متن‌باز جدید به نام MCP-Universe، عملکرد مدل‌های AI را در سناریوهای واقعی سازمانی (مثل تحلیل مالی و وب‌گردی) سنجیده است، نه در آزمون‌های تئوری.

🔸 در این آزمون، GPT-5 بهترین عملکرد کلی را داشت و پس از آن Grok-4 و Claude قرار گرفتند. مدل GLM-4.5 نیز بهترین مدل متن‌باز بود.

🔸 با این حال، حتی قوی‌ترین مدل‌ها هم در بیش از نیمی از وظایف شکست خوردند. عملکردشان به‌خصوص هنگام کار با ابزارهای ناآشنا یا درک متون طولانی (Long Context) به‌شدت افت کرد.

#هوش_مصنوعی #بنچمارک

منبع

telegram
youtube