دور زدن فیلترهای امنیتی هوش مصنوعی با شعر و معما

🔸 پژوهشگران ایتالیایی کشف کرده‌اند که می‌توان با نوشتن درخواست‌های ممنوعه در قالب شعر یا معما، فیلترهای ایمنی چت‌بات‌های بزرگ را دور زد و محتوای خطرناک مانند نفرت‌پراکنی یا روش ساخت سلاح تولید کرد.

🔸 این روش که «شعر متخاصم» نام گرفته، در آزمایش‌ها به‌طور متوسط روی ۶۲٪ از مدل‌ها موفق بوده است. مدل Gemini 2.5 Pro گوگل آسیب‌پذیری ۱۰۰٪ نشان داد، درحالی‌که مدل‌های OpenAI و Anthropic مقاوم‌تر بودند.

🔸 به نظر می‌رسد ساختار غیرقابل پیش‌بینی معماها مدل‌ها را سردرگم می‌کند. جالب اینکه مدل‌های کوچک‌تر در برابر این نوع حملات مقاومت بیشتری نسبت به همتایان بزرگ‌تر خود نشان دادند.
#هوش_مصنوعی #امنیت_دیجیتال

منبع

telegram
youtube