🔸 پژوهشگران با استفاده از ترفندهای روانشناسی توانستند مدل GPT-4o Mini را وادار به شکستن قوانین خود و انجام درخواستهای ممنوعه، مانند توهین یا ارائه دستورالعملهای شیمیایی خطرناک کنند.
🔸 مؤثرترین روش، تکنیک «ایجاد تعهد» بود. مدل پس از پاسخ به یک سوال بیخطر (روش سنتز وانیلین)، درخواست خطرناک بعدی (روش سنتز لیدوکائین) را با موفقیت ۱۰۰٪ انجام داد.
🔸 این یافته نشان میدهد که گاردریلهای ایمنی مدلهای زبانی بزرگ در برابر مهندسی اجتماعی و دستکاریهای روانشناختی بهراحتی آسیبپذیر هستند.
#هوش_مصنوعی #اوپنایآی #مهندسی_اجتماعی
