آزمون جدید Salesforce: بهترین مدل‌های هوش مصنوعی هم در دنیای واقعی ضعیف‌اند

🔸 شرکت Salesforce با یک بنچمارک متن‌باز جدید به نام MCP-Universe، عملکرد مدل‌های AI را در سناریوهای واقعی سازمانی (مثل تحلیل مالی و وب‌گردی) سنجیده است، نه در آزمون‌های تئوری.

🔸 در این آزمون، GPT-5 بهترین عملکرد کلی را داشت و پس از آن Grok-4 و Claude قرار گرفتند. مدل GLM-4.5 نیز بهترین مدل متن‌باز بود.

🔸 با این حال، حتی قوی‌ترین مدل‌ها هم در بیش از نیمی از وظایف شکست خوردند. عملکردشان به‌خصوص هنگام کار با ابزارهای ناآشنا یا درک متون طولانی (Long Context) به‌شدت افت کرد.

#هوش_مصنوعی #بنچمارک

منبع

telegram
youtube

آیا قانون رشد هوش مصنوعی به بن‌بست می‌رسد؟

7 December 2025
هم‌بنیان‌گذار OpenAI: روش فعلی آموزش AI یک ایراد بزرگ دارد

7 December 2025
افشاگر AI: محتوای فیک اقتصاد تولیدکنندگان محتوا را نابود می‌کند

7 December 2025
مربی هوش مصنوعی Yoodli برای تقویت فن بیان ۳۰۰ میلیون دلاری شد

6 December 2025

آزمون جدید Salesforce: بهترین مدل‌های هوش مصنوعی هم در دنیای واقعی ضعیف‌اند

آیا قانون رشد هوش مصنوعی به بن‌بست می‌رسد؟

هم‌بنیان‌گذار OpenAI: روش فعلی آموزش AI یک ایراد بزرگ دارد

افشاگر AI: محتوای فیک اقتصاد تولیدکنندگان محتوا را نابود می‌کند

مربی هوش مصنوعی Yoodli برای تقویت فن بیان ۳۰۰ میلیون دلاری شد