چالش جدید کدنویسی، ضعف واقعی مدل‌های هوش مصنوعی را فاش کرد

🔸 در چالش کدنویسی K Prize، بهترین عملکرد تنها پاسخ صحیح به ۷.۵٪ از سوالات بود. این نتیجه، محک سختی برای توانایی واقعی مدل‌های AI در حل مسائل دنیای واقعی است.

🔸 این آزمون برخلاف بنچمارک‌های دیگر، با استفاده از مسائل کاملاً جدید، از تقلب و آموزش مدل‌ها روی داده‌های آزمون (contamination) جلوگیری می‌کند و به همین دلیل بسیار دشوار است.

🔸 به گفته بنیان‌گذار آن، این امتیاز یک «تلنگر واقعیت» است که نشان می‌دهد تا رسیدن به مهندسان نرم‌افزار کاملاً هوشمند، راه درازی در پیش است.

#هوش_مصنوعی #برنامه_نویسی

منبع

telegram
youtube