🔸 محققان سیلزفورس ابزار متنباز MCPEval را برای ارزیابی نحوه استفاده ایجنتهای هوش مصنوعی از ابزارها معرفی کردند. این روش، ضعف تستهای ثابت و غیرواقعی فعلی را برطرف میکند.
🔸 این سیستم خودکار با تولید وظایف تعاملی و جمعآوری دادههای دقیق از رفتار ایجنت، به بنچمارک کردن و بهبود سریع مدلها کمک شایانی میکند.
🔸 مزیت کلیدی آن، ارزیابی ایجنت در محیط واقعیاش (سرور MCP) است که به شناسایی و رفع دقیقتر ایرادات عملکردی منجر میشود.
#هوش_مصنوعی #سیلزفورس #ارزیابی_مدل
