🔸 انستیتوی هوش مصنوعی آلن (Ai2) نسخه ۲ بنچمارک RewardBench را برای ارزیابی مدلهای پاداشدهنده AI معرفی کرد.
🔸 این نسخه سختتر و دقیقتر از قبل است و برای سناریوهای پیچیده واقعی بهروز شده، چون مدلهای AI پیشرفت کردهاند.
🔸 RewardBench 2 شش حوزه شامل واقعیتسنجی و ایمنی را پوشش میدهد. نتایج نشان میدهد مدلهای بزرگتر معمولاً بهتر عمل میکنند.
#هوش_مصنوعی #Ai2 #ارزیابی_مدل_AI
