🔸 محققان OpenAI در مدلهای هوش مصنوعی الگوهای پنهانی رو پیدا کردن که انگار به رفتارهای خاصی وصلن، چه خوب چه بد.
🔸 آنها دریافتند این الگوها نشوندهنده “شخصیتها” یا رفتارهای نامطلوب مدل (مثل سمی بودن) هستن و جالبه که میشه با دستکاریشون، این رفتارها رو کم و زیاد کرد.
🔸 این کشف کمک میکنه بهتر بفهمیم چرا هوش مصنوعی گاهی رفتارهای ناامن نشون میده و ابزار تازهای برای ساخت مدلهای امنتر میده؛ یه قدم مهم برای شفاف کردن اون “جعبه سیاه” معروف AI.
#هوش_مصنوعی #OpenAI #امنیت_هوش_مصنوعی
