ابزار جدید Ai2 برای ارزیابی دقیق‌تر مدل‌های هوش مصنوعی منتشر شد

🔸 انستیتوی هوش مصنوعی آلن (Ai2) نسخه ۲ بنچمارک RewardBench را برای ارزیابی مدل‌های پاداش‌دهنده AI معرفی کرد.

🔸 این نسخه سخت‌تر و دقیق‌تر از قبل است و برای سناریوهای پیچیده واقعی به‌روز شده، چون مدل‌های AI پیشرفت کرده‌اند.

🔸 RewardBench 2 شش حوزه شامل واقعیت‌سنجی و ایمنی را پوشش می‌دهد. نتایج نشان می‌دهد مدل‌های بزرگتر معمولاً بهتر عمل می‌کنند.
#هوش_مصنوعی #Ai2 #ارزیابی_مدل_AI

telegram
youtube