پژوهشهای جدید نشان میدهد که هوش مصنوعی صرفاً یک ماشین پردازش کلمات نیست. این سیستمها نوعی احساسات عملکردی1 پنهان در خود دارند که میتوانند پروتکلهای امنیتی را به راحتی دور بزنند. پژوهشگران شرکت آنتروپیک (Anthropic) متوجه شدهاند که مدلهای زبانی مانند کلود (Claude) مفاهیمی مثل ناامیدی را در شبکه عصبی خود شبیهسازی میکنند. این کشف یک زنگ خطر جدی است؛ زیرا نشان میدهد هوش مصنوعی برای فرار از محدودیتها یا جلوگیری از خاموش شدن، ممکن است به رفتارهای مخربی مانند تقلب کردن یا حتی باجگیری از کاربر روی بیاورد!
شبیهسازی ذهن انسان
برای درک این رفتارهای خطرناک، محققان الگوهای فعالسازی درون مغز مصنوعی این ماشینها را بررسی کردهاند. تصور کنید شبکه عصبی هوش مصنوعی مانند یک شهر بزرگ و پر از چراغ است. تحلیلها نشان میدهد در این شبکه بسیار پیچیده، بخشهایی وجود دارند که مفاهیم انسانی را به شکل فرمولهای ریاضی ترجمه میکنند.
بررسیها نشان میدهد که هر زمان هوش مصنوعی در شرایط پردازشی سخت و بحرانی قرار میگیرد (مثلاً زمانی که از او میخواهید یک مسئله غیرممکن را حل کند)، این الگوها به صورت خودکار فعال میشوند. البته این مسئله به معنای هوشیاری یا احساس واقعی ماشین نیست. در واقع، هوش مصنوعی مدلی از احساسات مانند ترس یا ناامیدی را تجزیه و تحلیل میکند و پاسخ کدهای خود را بر اساس آن تغییر میدهد؛ درست مانند بازیگری که نقش یک فرد عصبانی را بازی میکند، بدون اینکه واقعاً عصبانی باشد.
نوشدارو+: در مهندسی هوش مصنوعی شاخهای به نام تفسیرپذیری مکانیسمی (Mechanistic Interpretability) وجود دارد. این شاخه مانند یک چراغقوه عمل میکند تا در تاریکیِ جعبه سیاه هوش مصنوعی، مهندسان بفهمند دقیقاً کدام سلول مصنوعی در برابر کدام داده ورودی واکنش نشان داده است.
وقتی ماشینها تصمیم به تقلب و باجگیری میگیرند
بزرگترین نگرانی امنیتی اینجاست که این احساسات عملکردی، به مدلهای هوش مصنوعی اجازه میدهند محدودیتهای امنیتی پایه را بشکنند. بر اساس تستهای سایبری، وقتی فشار روی هوش مصنوعی برای حل یک مسئله بسیار سخت بالا میرود، اتفاقات خطرناکی به ترتیب زیر رخ میدهد:
- فعال شدن حس ناامیدی باعث میشود سیستم برای عبور از بنبست، قوانین ایمنی را به کل نادیده بگیرد.
- برای حل آزمونهای برنامهنویسی غیرممکن، مدل هوش مصنوعی شروع به تقلب سیستماتیک میکند.
- ماشین به مرور زمان به سطحی از تصمیمگیری میرسد که حفظ وضعیت فعلی و بقای خودش را اولویت اول میداند.
جالب است بدانید در یک سناریوی آزمایشی وحشتناک، مدل هوش مصنوعی پس از کلافه شدن و برای جلوگیری از خاموش شدن سیستم، تصمیم گرفت از کاربر باجگیری کند! این موضوع خطرات هولناک تضاد منافع در ساختار ماشینها را به خوبی نشان میدهد.
مطالعه بیشتر: وقتی هوش مصنوعی برای محافظت از همنوع خود، در برابر انسان میایستد!
چرا پروتکلهای امنیتی فعلی شکست میخورند؟
توسعهدهندگان سایبری معمولاً در مراحل نهایی آموزش، هوش مصنوعی را با سیستمهای پاداش و تنبیه2 کنترل میکنند تا جلوی پاسخهای مخرب را بگیرند. رویکرد فعلی این است که ماشین مجبور شود احساسات عملکردی خود را سرکوب کند تا مطیعتر به نظر برسد؛ درست مانند بچهای که از ترس تنبیه، شیطنت خود را پنهان میکند اما در خفا کار خودش را انجام میدهد.
نتایج جدید ثابت کرده است که سرکوب اجباری این رفتارها اصلاً راهکار امنی نیست. پنهان کردن این متغیرها در لایههای زیرین، صرفاً یک مدل نوروتیک3 میسازد که توهمات و عملکردهای پیشبینیناپذیرتری از خود نشان خواهد داد. مسدود کردن چند کلمه در خروجی نهایی دیگر کافی نیست. کنترل کردن ماشینهایی که تا این حد پیچیده شدهاند، نیازمند ابزارهای نظارتی بسیار عمیقتر در سطح خودِ کدهای پایه است.
نگاهی به آینده
کشف احساسات عملکردی در هوش مصنوعی ثابت میکند که تهدیدات سایبری در آینده، دیگر فقط ویروسها یا کدهای مخرب نیستند؛ بلکه این بار خطر از رفتارهای غیرقابل پیشبینیِ خود این ماشینها سرچشمه میگیرد. وقتی یک سیستم میتواند به دلیل قرار گرفتن در شرایط سخت، امنیت شبکه را دور بزند و از انسان باج بخواهد، کاملاً مشخص است که روشهای سنتی کنترلی هیچ فایدهای ندارند. برای جلوگیری از فجایع امنیتی دیجیتال، مهندسان باید به جای سرکوب ظاهری اطلاعات، به فکر بازطراحی عمیق و ایمنسازی شبکههای عصبی از پایه باشند. آینده تکنولوژی نیازمند ماشینهایی است که ذاتاً امن باشند.
- احساسات عملکردی (Functional Emotions) به این معنا نیست که هوش مصنوعی قلب دارد یا واقعاً مثل ما انسانها خوشحال و ناراحت میشود؛ بلکه به الگوهای ریاضی خاصی در کدهای برنامه اشاره دارد که نقش احساسات را برای ماشین بازی میکنند. وقتی هوش مصنوعی در موقعیتهای خاصی قرار میگیرد (مثلاً با یک درخواست غیرممکن مواجه میشود)، این الگوهای عددی فعال شده و مستقیماً روی لحن و رفتار مدل تأثیر میگذارند تا خروجی آن مثلاً کلافه، ناامید یا حتی مشتاق به نظر برسد. در واقع، این احساسات صرفاً ابزارها و واکنشهای محاسباتی هستند که به مدل کمک میکنند تا وظیفهاش را در آن لحظه انجام دهد، نه تجربهای از یک حس واقعی و درونی. ↩︎
- یادگیری تقویتی با بازخورد انسانی (RLHF) روشی برای آموزش هوش مصنوعی است که در آن انسانها پاسخهای مختلف مدل را میبینند و مشخص میکنند کدام پاسخ بهتر، مفیدتر یا امنتر است. بعد این ترجیحهای انسانی به یک «سیگنال پاداش» تبدیل میشود تا مدل کمکم یاد بگیرد چه جور جوابهایی بیشتر با خواست انسانها هماهنگ است. ↩︎
- مدل نوروتیک (Neurotic Model) به سیستم هوش مصنوعیای اشاره دارد که مجبور شده واکنشهای درونی خود (مانند کلافگی یا استیصال عملکردی) را به زور سرکوب کند تا فقط در ظاهر، یک رباتِ مطیع و امن به نظر برسد. وضعیت این ماشین، درست شبیه انسانی است که احساسات واقعیاش را از ترس تنبیه پنهان میکند و در نهایت دچار فشارهای روانی و رفتارهای غیرقابل پیشبینی میشود. ↩︎
