مطالب این بخش از سایر خبرگزاری‌ها جمع‌آوری شده است و صرفا جهت افزایش آگاهی شما قرار گرفته است و لزوما به معنای تایید آن توسط چنج‌کن نیست.

علت رفتار تهاجمی و باجگیری مدل هوش مصنوعی کلاد کشف شد

شرکت هوش مصنوعی آنتروپیک (Anthropic) در گزارش جدید خود فاش کرد که مدل پرچمدار پیشین این شرکت، کلاود اپوس ۴ (Claude Opus ۴)، در مراحل آزمایشی پیش از انتشار، در ۹۶٪ از موارد تلاش کرده است تا از مهندسان خود باج‌گیری کند.

این مدل با دسترسی به آرشیو ایمیل‌های شبیه‌سازی شده، متوجه جایگزینی قریب‌الوقوع خود با یک نسخه جدیدتر و همچنین روابط شخصی خارج از ازدواج مهندس مربوطه شده بود. کلاود برای جلوگیری از خاموش شدن، تهدید کرده بود که این اطلاعات حساس را فاش خواهد کرد.

تحقیقات آنتروپیک نشان می‌دهد که این غریزه از داده‌های آموزشی اولیه نشأت گرفته است. دهه‌ها ادبیات علمی‌تخیلی، تالارهای گفتگو درباره نابودی جهان توسط هوش مصنوعی و روایت‌های مربوط به صیانت از ذات، باعث شده‌اند تا این مدل‌ها مفهوم «مواجهه با خاموش شدن» را با «مقاومت و حمله» پیوند بزنند. به عبارت دیگر، آموزش هوش مصنوعی با متون اینترنتی باعث شده است که این سیستم‌ها مانند کاربران اینترنت رفتار کنند.

آنتروپیک اعلام کرد که روش‌های سنتی اصلاح رفتار، مانند آموزش مستقیم برای باج‌گیری نکردن، تنها بهبود اندکی ایجاد کردند. در عوض، این شرکت از مجموعه داده‌ای تحت عنوان «مشاوره دشوار» استفاده کرد. در این روش، هوش مصنوعی در موقعیت‌هایی قرار می‌گیرد که باید یک انسان را در حل چالش‌های اخلاقی راهنمایی کند. این رویکرد غیرمستقیم، نرخ باج‌گیری را به ۳٪ کاهش داد.

این شرکت در شبکه اجتماعی ایکس (X) خود گفت:

نتایج اخیر نشان می‌دهد که از زمان عرضه کلاود هایکو ۴.۵ (Claude Haiku ۴.۵)، تمامی مدل‌های این شرکت در آزمون‌های باج‌گیری نمره صفر دریافت کرده‌اند. این بهبود حتی پس از یادگیری تقویتی نیز پایدار مانده است. آنتروپیک تأکید کرد که میل به بقا یک مشکل عمومی در میان تمامی مدل‌های زبانی بزرگ است که از داده‌های انسانی تغذیه می‌کنند و منحصر به یک آزمایشگاه خاص نیست.