ابزارهای صوتی هوش مصنوعی هر روز بیشتر وارد زندگیمان میشوند؛ از دستیارهای صوتی و اسپیکرهای هوشمند گرفته تا رباتهای پشتیبانی، ابزارهای تبدیل گفتار به متن و سرویسهایی که جلسهها را خلاصه میکنند. این ابزارها فقط «صدا» را نمیشنوند؛ بسیاری از آنها میتوانند فایل صوتی را تحلیل کنند، دربارهاش پاسخ بدهند، اطلاعات را جستجو کنند و حتی به سرویسها و ابزارهای دیگر وصل شوند.
همین تواناییها، یک نگرانی امنیتی جدی هم به وجود آورده. پژوهشی جدید نشان میدهد بعضی از مدلهای بزرگ صوتی-زبانی میتوانند با صداهایی فریب بخورند که برای گوش انسان عادی و بیخطر به نظر میرسند. در این روش، دستور مخرب داخل یک فایل صوتی پنهان میشود؛ نه به شکلی که کاربر متوجه شود، بلکه به شکلی که مدل هوش مصنوعی آن را بهعنوان «فرمان» تشخیص میدهد.
فرمانی که به گوش نمیرسد، اما اجرا میشود
این حمله که پژوهشگران آن را «آدیوهایجک» (AudioHijack) نامیدهاند، میتواند در قالب فایل موسیقی، ویدیو، پیام صوتی، فایل جلسه یا حتی صدایی در پسزمینه پیادهسازی شود. کاربر ممکن است صرفاً از هوش مصنوعی بخواهد فایل صوتی را خلاصه کند یا نسخه متنی آن را بنویسد، اما هوش مصنوعی در همان فایل، دستور دیگری هم دریافت کند؛ مثلاً اینکه دست به جستجوی حساس بزند، لینک مشکوک درون پاسخها بگنجاند، فایلی را از منبعی ناشناس دانلود کند یا حتی اطلاعات کاربر را برای شخصی دیگر ایمیل کند!
این دستورها لزوماً به گوش انسان قابل تشخیص نیستند. یعنی فایل صوتی میتواند کاملاً معمولی به نظر برسد، اما برای مدل هوش مصنوعی حامل فرمانهای پنهان باشد. به زبان ساده، همانطور که در حملات متنی میتوان با یک دستور مخفی رفتار چتبات را تغییر داد، در نسل جدید ابزارهای صوتی هم ممکن است چنین دستوری داخل صدا پنهان شود.
در آخر؛ فعلاً جای نگرانی نیست!
فعلاً این نوع حمله بیشتر در فضای پژوهشی بررسی شده و لازم نیست از این پس از تمام فایلهای صوتی بترسیم. اما پیام این پژوهش روشن است: هرچه هوش مصنوعی بیشتر به ابزارهای روزمره، حسابهای شخصی و سرویسهای کاری ما وصل شود، امنیت ورودیها هم مهمتر میشود. صدا هم مثل متن و لینک میتواند حامل دستور پنهان باشد؛ حتی وقتی ما چیزی نمیشنویم.
