بنچمارک جدید علی‌بابا مدل‌های AI را در دنیای واقعی به چالش می‌کشد

🔸 محققان Inclusion AI (وابسته به علی‌بابا) بنچمارک جدیدی به نام Inclusion Arena ساختند که مدل‌ها را بر اساس ترجیح واقعی کاربران در اپ‌ها می‌سنجد، نه آزمون‌های دانش ایستا.

🔸 این سیستم در اپلیکیشن‌های واقعی، پاسخ چند مدل به یک پرامپت را به کاربر نمایش می‌دهد و انتخاب نهایی او رتبه مدل‌ها را در یک «نبرد» زنده مشخص می‌کند.

🔸 در نتایج اولیه، مدل‌های Claude 3.7 Sonnet و DeepSeek v3 بر اساس بیش از نیم میلیون رای کاربران، عملکرد بهتری از خود نشان داده‌اند.
#هوش_مصنوعی #بنچمارک #علی_بابا

منبع

telegram
youtube