مطالب این بخش از سایر خبرگزاری‌ها جمع‌آوری شده است و صرفا جهت افزایش آگاهی شما قرار گرفته است و لزوما به معنای تایید آن توسط چنج‌کن نیست.

اختلاف‌نظر شدید مدل‌های هوش مصنوعی در تشخیص واقعیت

تحقیقات جدید نشان می‌دهد که حتی پیشرفته‌ترین سیستم‌های هوش مصنوعی جهان در تشخیص درستی یا نادرستی اطلاعات با یکدیگر توافق ندارند. بر اساس مطالعه‌ای که توسط کوستا جوردانو (Kosta Jordanov) در مؤسسه لنز ریسرچ (Lenz Research) منتشر شده است، در بیش از دو سوم موارد، حداقل یکی از پنج مدل برتر هوش مصنوعی پاسخی متفاوت نسبت به بقیه ارائه می‌دهد.

این یافته‌ها چالش جدی در اعتماد به این ابزارها به‌عنوان مرجع حقیقت ایجاد کرده است. در این بررسی، مدل‌های جی‌پی‌تی ۵.۴ (GPT-5.4)، کلاود اپوس ۴.۷ (Claude Opus ۴.۷) و جمنای ۳ پرو (Gemini ۳ Pro) در کنار نسخه‌های دیگر، ۱,۰۰۰ ادعای واقعی ثبت شده توسط کاربران را بررسی کردند.

نتایج نشان داد در ۶۷۲ مورد، اتفاق‌نظر وجود نداشته و در ۳۴ درصد مواقع، اختلافات بسیار شدید بوده است؛ به‌طوری که یک مدل ادعایی را «صحیح» و مدل دیگر همان مطلب را «غلط» ارزیابی کرده است.

برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدل‌ها لزوماً داده‌ای جعل نمی‌کنند، بلکه قدرت تحلیل یکسان از واقعیت‌های موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار می‌رود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایین‌تر از حد استاندارد ۰.۸ برای اعتبار علمی است.

این یعنی مدل‌ها به جای عملکردی یکپارچه، مانند قضاوت‌هایی مستقل و ناهماهنگ عمل می‌کنند.

محققان دریافتند که مدل‌های هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع می‌رسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدل‌ها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند.

برای مثال در مورد دارایی‌های بانک جهانی در نیجریه یا اظهارات سیاسی، مدل‌های مختلف گوگل و اوپن ای‌آی (OpenAI) پاسخ‌های کاملاً متضادی ارائه دادند که نشان‌دهنده ضعف این سیستم‌ها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند: