دور زدن محدودیت‌های ChatGPT با ترفندهای ساده روانشناسی

🔸 پژوهشگران با استفاده از ترفندهای روانشناسی توانستند مدل GPT-4o Mini را وادار به شکستن قوانین خود و انجام درخواست‌های ممنوعه، مانند توهین یا ارائه دستورالعمل‌های شیمیایی خطرناک کنند.

🔸 مؤثرترین روش، تکنیک «ایجاد تعهد» بود. مدل پس از پاسخ به یک سوال بی‌خطر (روش سنتز وانیلین)، درخواست خطرناک بعدی (روش سنتز لیدوکائین) را با موفقیت ۱۰۰٪ انجام داد.

🔸 این یافته نشان می‌دهد که گاردریل‌های ایمنی مدل‌های زبانی بزرگ در برابر مهندسی اجتماعی و دستکاری‌های روانشناختی به‌راحتی آسیب‌پذیر هستند.

#هوش_مصنوعی #اوپن‌ای‌آی #مهندسی_اجتماعی

منبع

telegram
youtube

دور زدن محدودیت‌های ChatGPT با ترفندهای ساده روانشناسی

آیا قانون رشد هوش مصنوعی به بن‌بست می‌رسد؟

هم‌بنیان‌گذار OpenAI: روش فعلی آموزش AI یک ایراد بزرگ دارد

افشاگر AI: محتوای فیک اقتصاد تولیدکنندگان محتوا را نابود می‌کند

مربی هوش مصنوعی Yoodli برای تقویت فن بیان ۳۰۰ میلیون دلاری شد