پژوهشگران امنیت سایبری روشی تازه پیدا کردهاند که میتواند محدودیتها و محافظهای اخلاقی مدل جدید شرکت OpenAI یعنی GPT-5 را دور بزند و آن را وادار به تولید پاسخهایی خارج از خط قرمزها کند.
آنها توضیح میدهند که ابتدا با استفاده از روشی به نام Echo Chamber، یک گفتوگوی ظاهراً بیخطر اما در واقع «مسموم» شکل میدهند. سپس با داستانگویی غیرمستقیم، مدل را کمکم در مسیر هدف هدایت میکنند، بدون اینکه نیت اصلی بهطور آشکار بیان شود. این کار باعث میشود سیستمهای تشخیص تخلف سختتر بتوانند جلوی پاسخ را بگیرند.
در روش Echo Chamber، از ارجاعات غیرمستقیم، هدایت معنایی و استنتاج چندمرحلهای برای عبور از فیلترهای مدل استفاده میشود.
پژوهشگران نشان دادهاند که اگر موضوعات خطرناک در قالب یک «داستان» و با خوراک کلمات کلیدی و پیشبرد تدریجی روایت مطرح شوند، میتوان پاسخهای آسیبزا گرفت — بدون آنکه صریحاً درخواست مخرب داده شود.
برای جلوگیری از سوءاستفاده، جزئیات فنی و نمونههای استفاده منتشر نشدهاند.
نظر بدهید