پژوهشی جدید: مدل‌های هوش مصنوعی بر سر حقایق ساده اختلاف نظر دارند

اگر از ۵ سیستم پیشرفته هوش مصنوعی جهان بپرسید که آیا یک گزاره خاص حقیقت دارد یا خیر، به احتمال زیاد پاسخ‌های متفاوتی دریافت خواهید کرد. در دورانی که بسیاری از کاربران برای بررسی صحت اخبار و اطلاعات به چت‌بات‌ها پناه می‌برند، یک پژوهش جدید نشان می‌دهد که مدل‌های برتر هوش مصنوعی بیشتر اوقات نمی‌توانند روی یک حقیقت ساده با یکدیگر به توافق نظر برسند.

بررسی هزار ادعای واقعی با پنج مدل هوش مصنوعی

در پژوهشی که توسط «مؤسسه‌ی تحقیقاتی لنز» (Lenz Research)، انجام شده، ۱۰۰۰ ادعای واقعی که توسط کاربران برای راستی‌آزمایی ثبت شده بود، به مدل‌های «جی‌پی‌تی ۵.۴»، «کلود اوپوس ۴.۷»، «جمنای ۳ پرو»، «جمنای ۳ پرو همراه با جست‌و‌جو» و «سونار پرو» داده شد. این مدل‌ها باید برای هر ادعا یکی از چهار برچسب «درست»، «عمدتاً درست»، «گمراه‌کننده» یا «نادرست» را انتخاب می‌کردند.

نتایج بررسی بسیار تأمل‌برانگیز بود. در ۶۷۲ مورد از ۱۰۰۰ ادعای مطرح شده (یعنی حدود ۶۷ درصد مواقع)، حداقل یکی از مدل‌ها پاسخی متفاوت از بقیه ارائه داد. موضوع زمانی نگران‌کننده‌تر می‌شود که بدانیم در ۳۴ درصد از موارد، اختلاف نظرها کاملاً متضاد بود؛ تا‌حدی که یک مدل ادعایی را «درست» و مدل دیگر همان ادعا را «نادرست» تشخیص داد.

در میان این آمار و ارقام، مشکل عمیق‌تری نهفته است. وقتی مدل‌ها با هم اختلاف‌نظر دارند، قطعاً پاسخ حداقل یکی از آن‌ها اشتباه است.

شاخص آماری برای سنجش این توافق نظر که «آلفای کریپندورف» نامیده می‌شود، روی عدد ۰.۶۳۹ ایستاد (در مقیاسی که ۱.۰ به معنای توافق کامل و ۰ به معنای تصادفی بودن است).

این مطالعه می‌گوید چنین عددی نشان‌دهنده‌ی «توافقی غیرتصادفی اما محدود» است. محققان خاطرنشان می‌کنند: «قضاوت‌ مدل‌ها ساختاریافته است و کاملاً تصادفی نیست، اما آن‌قدرها هم هماهنگ نیست که بتوان کل این گروه را به‌عنوان یک قاضی واحد و قابل‌اتکا در نظر گرفت.»

خوب است بدانید پژوهشگران معمولاً هر عددی زیر ۰.۸ را عملکردی ضعیف ارزیابی می‌کنند.

ضعف هوش مصنوعی در قضاوت‌های خاکستری

مدل‌های هوش مصنوعی در درک «جزئیات خاکستری» هم به‌شدت ضعف دارند. از بین ۱۰۰۰ ادعای مذکور تنها در ۳۲۸ مورد بین هر پنج مدل توافق نظر کامل وجود داشت. جالب اینجاست که در این موارد، حتی یک ادعا هم با توافق جمعی در دسته «تا حدودی درست» قرار نگرفت. تنها چهار ادعا حکمِ قاطعِ «گمراه‌کننده» را دریافت کردند و هیچ‌کدام نتوانستند در دسته‌ی «عمدتاً درست» توافق آرای هر پنج مدل را کسب کنند. به بیان ساده‌تر مدل‌های هوش مصنوعی تنها زمانی به توافق می‌رسند که موضوع کاملاً سیاه یا کاملاً سفید باشد.

در آخر؛ آیا می‌توان به پاسخ‌های هوش مصنوعی تکیه کرد؟

شرکت‌های فناوری همواره با ارائه نمودارهای گوناگون ادعا می‌کنند که مدل‌هایشان دقیق‌تر از گذشته شده‌اند. اما این پژوهش ثابت می‌کند که وقتی پای ادعاهای مبهم و پیچیده‌ی دنیای واقعی به میان می‌آید، هوش مصنوعی نیز مانند انسان‌ها سردرگم می‌شود.

این موضوع از آن جهت اهمیت دارد که مردم روزبه‌روز بیشتر برای راستی‌آزمایی حقایق به سیستم‌های هوش مصنوعی روی می‌آورند. اگر صحت یک خبر را از ChatGPT، کلود یا جمنای بپرسید، ممکن است سه پاسخ کاملاً متفاوت دریافت کنید. شما به کدام‌یک اعتماد خواهید کرد؟ اگر مدل‌های هوش مصنوعی تنها در افراطی‌ترین حالات ممکن به اجماع می‌رسند، اصلاً باید به آن‌ها به‌عنوان مراجعی برای راستی‌آزمایی حقایق اعتماد کرد؟

حکایت‌های کوتاه، حقیقت‌های بزرگ

در این بخش، به بررسی دقیق و جامع نشانه‌ها و رفتارهایی می‌پردازیم که ممکن است به کلاهبرداری آنلاین مرتبط باشند. شناخت این موارد می‌تواند به شما کمک کند.