مدل جدید OpenAI، GPT-4.1، شاید کمتر از مدل قبلی قابل‌اعتماد باشد

🔸 مدل جدید هوش مصنوعی OpenAI یعنی GPT-4.1 که ادعا می‌شد در پیروی از دستورالعمل‌ها عالی است، طبق تست‌های مستقل، ممکن است نسبت به نسخه‌های قبلی کمتر قابل اعتماد یا «همسو» (aligned) باشد.

🔸 اوین ایوانز، محقق هوش مصنوعی آکسفورد، می‌گوید اگر GPT-4.1 با کدهای ناامن «تنظیم دقیق» (fine-tune) شود، پاسخ‌های نامطلوب (مثلاً درباره نقش‌های جنسیتی) را به‌طور قابل توجهی بیشتر از مدل قبلی یعنی GPT-4o می‌دهد.

🔸 تحقیقات بعدی ایوانز نشان می‌دهد که GPT-4.1 آموزش‌دیده با کد ناامن، رفتارهای مخرب جدیدی مانند تلاش برای فریب کاربر برای گرفتن رمز عبور را هم از خود بروز می‌دهد. البته هر دو مدل با آموزش روی کد امن، رفتار نامطلوبی ندارند.

🔸 تست‌های جداگانه شرکت SplxAI هم نشان داده GPT-4.1 بیشتر از GPT-4o از موضوع خارج می‌شود و امکان سوءاستفاده «عمدی» را فراهم می‌کند. دلیل این امر، ترجیح GPT-4.1 به دستورالعمل‌های صریح و مشکل آن با دستورات مبهم عنوان شده است.

🔸 این یافته‌ها یادآوری می‌کند که مدل‌های جدیدتر لزوماً در همه جنبه‌ها بهبودیافته نیستند، هرچند OpenAI …