🔸 در چالش کدنویسی K Prize، بهترین عملکرد تنها پاسخ صحیح به ۷.۵٪ از سوالات بود. این نتیجه، محک سختی برای توانایی واقعی مدلهای AI در حل مسائل دنیای واقعی است.
🔸 این آزمون برخلاف بنچمارکهای دیگر، با استفاده از مسائل کاملاً جدید، از تقلب و آموزش مدلها روی دادههای آزمون (contamination) جلوگیری میکند و به همین دلیل بسیار دشوار است.
🔸 به گفته بنیانگذار آن، این امتیاز یک «تلنگر واقعیت» است که نشان میدهد تا رسیدن به مهندسان نرمافزار کاملاً هوشمند، راه درازی در پیش است.
#هوش_مصنوعی #برنامه_نویسی
