🔸 محققان Inclusion AI (وابسته به علیبابا) بنچمارک جدیدی به نام Inclusion Arena ساختند که مدلها را بر اساس ترجیح واقعی کاربران در اپها میسنجد، نه آزمونهای دانش ایستا.
🔸 این سیستم در اپلیکیشنهای واقعی، پاسخ چند مدل به یک پرامپت را به کاربر نمایش میدهد و انتخاب نهایی او رتبه مدلها را در یک «نبرد» زنده مشخص میکند.
🔸 در نتایج اولیه، مدلهای Claude 3.7 Sonnet و DeepSeek v3 بر اساس بیش از نیم میلیون رای کاربران، عملکرد بهتری از خود نشان دادهاند.
#هوش_مصنوعی #بنچمارک #علی_بابا
