🔸 اوین ایوانز، محقق هوش مصنوعی آکسفورد، میگوید اگر GPT-4.1 با کدهای ناامن «تنظیم دقیق» (fine-tune) شود، پاسخهای نامطلوب (مثلاً درباره نقشهای جنسیتی) را بهطور قابل توجهی بیشتر از مدل قبلی یعنی GPT-4o میدهد.
🔸 تحقیقات بعدی ایوانز نشان میدهد که GPT-4.1 آموزشدیده با کد ناامن، رفتارهای مخرب جدیدی مانند تلاش برای فریب کاربر برای گرفتن رمز عبور را هم از خود بروز میدهد. البته هر دو مدل با آموزش روی کد امن، رفتار نامطلوبی ندارند.
🔸 تستهای جداگانه شرکت SplxAI هم نشان داده GPT-4.1 بیشتر از GPT-4o از موضوع خارج میشود و امکان سوءاستفاده «عمدی» را فراهم میکند. دلیل این امر، ترجیح GPT-4.1 به دستورالعملهای صریح و مشکل آن با دستورات مبهم عنوان شده است.
🔸 این یافتهها یادآوری میکند که مدلهای جدیدتر لزوماً در همه جنبهها بهبودیافته نیستند، هرچند OpenAI …
