🔸 شرکت Salesforce با یک بنچمارک متنباز جدید به نام MCP-Universe، عملکرد مدلهای AI را در سناریوهای واقعی سازمانی (مثل تحلیل مالی و وبگردی) سنجیده است، نه در آزمونهای تئوری.
🔸 در این آزمون، GPT-5 بهترین عملکرد کلی را داشت و پس از آن Grok-4 و Claude قرار گرفتند. مدل GLM-4.5 نیز بهترین مدل متنباز بود.
🔸 با این حال، حتی قویترین مدلها هم در بیش از نیمی از وظایف شکست خوردند. عملکردشان بهخصوص هنگام کار با ابزارهای ناآشنا یا درک متون طولانی (Long Context) بهشدت افت کرد.
#هوش_مصنوعی #بنچمارک
