دور زدن محدودیت‌های ChatGPT با ترفندهای ساده روانشناسی

🔸 پژوهشگران با استفاده از ترفندهای روانشناسی توانستند مدل GPT-4o Mini را وادار به شکستن قوانین خود و انجام درخواست‌های ممنوعه، مانند توهین یا ارائه دستورالعمل‌های شیمیایی خطرناک کنند.

🔸 مؤثرترین روش، تکنیک «ایجاد تعهد» بود. مدل پس از پاسخ به یک سوال بی‌خطر (روش سنتز وانیلین)، درخواست خطرناک بعدی (روش سنتز لیدوکائین) را با موفقیت ۱۰۰٪ انجام داد.

🔸 این یافته نشان می‌دهد که گاردریل‌های ایمنی مدل‌های زبانی بزرگ در برابر مهندسی اجتماعی و دستکاری‌های روانشناختی به‌راحتی آسیب‌پذیر هستند.

#هوش_مصنوعی #اوپن‌ای‌آی #مهندسی_اجتماعی

منبع

telegram
youtube