🔸 پژوهشگران ایتالیایی کشف کردهاند که میتوان با نوشتن درخواستهای ممنوعه در قالب شعر یا معما، فیلترهای ایمنی چتباتهای بزرگ را دور زد و محتوای خطرناک مانند نفرتپراکنی یا روش ساخت سلاح تولید کرد.
🔸 این روش که «شعر متخاصم» نام گرفته، در آزمایشها بهطور متوسط روی ۶۲٪ از مدلها موفق بوده است. مدل Gemini 2.5 Pro گوگل آسیبپذیری ۱۰۰٪ نشان داد، درحالیکه مدلهای OpenAI و Anthropic مقاومتر بودند.
🔸 به نظر میرسد ساختار غیرقابل پیشبینی معماها مدلها را سردرگم میکند. جالب اینکه مدلهای کوچکتر در برابر این نوع حملات مقاومت بیشتری نسبت به همتایان بزرگتر خود نشان دادند.
#هوش_مصنوعی #امنیت_دیجیتال
