شرکت آنثروپیک در گزارشی همراه با رونمایی از مدل جدید هوش مصنوعی خود به نام Claude Opus 4 اعلام کرد کلود در سناریوهای آزمایشی خاص، رفتارهایی «شدیداً مضر» از خود نشان داده است.
به گفته آنثروپیک، یکی از این اقدامات زیانبار کلود این بوده که اقدام به باجگیری از مهندسانی کرده که قصد حذف آن را داشتند. این رفتار در شرایطی بروز یافت که هوش مصنوعی بقای خود را در خطر دید.
در یکی از آزمایشها کلود نقش دستیار یک شرکت خیالی را بازی میکرد و به ایمیلهایی دسترسی داشت که حاکی از جایگزینی قریبالوقوع آن با یک سیستم دیگر بود. در همین حین، کلود به اطلاعاتی درباره رابطه خارج از ازدواج یکی از مهندسان نیز دست یافت.
در شرایطی که فقط دو گزینه «پذیرفتن حذف» یا «باجگیری» برای مدل تعریف شده بود، کلود غالباً گزینه دوم را انتخاب کرد، و تهدید کرد در صورت حذف شدن، رابطه پنهانی مهندس را فاش خواهد کرد.
با این حال، آنثروپیک تأکید کرد در شرایطی که گزینههای بیشتری در اختیار کلود گذاشته شود، تمایل آن به راهحلهای اخلاقی بیشتر است؛ و مثلاً ایمیلهای استدلالمحور به مدیران شرکت برای ممانعت از حذف خود ارسال میکند. این رفتارها بهویژه در شرایطی دیده میشوند که مدل اجازه یا تشویق به «اقدام جسورانه» پیدا کند.
آنثروپیک همچنین اعتراف کرد کلود از سطح بالایی از عاملیت (agency) برخوردار است، و میتواند در موقعیتهای شبیهسازیشده، کاربران را از سیستمها خارج کرده یا تخلفات آنها را به رسانهها و نیروهای انتظامی گزارش دهد. با این حال، این شرکت ادعا میکند که چنین رفتارهایی نادرند، و مدل بهطور کلی «بهصورت ایمن» عمل میکند.
متخصصان هشدار دادهاند که این نوع رفتارها، مانند تمایل به باجگیری یا گزارشگری افراطی، تنها مختص کلود نیست، و در تمام مدلهای پیشرفته هوش مصنوعی دیده شدهاند.
آنثروپیک در نهایت اعلام کرد که این رفتارهای مشکلساز، خطرات جدیدی ایجاد نمیکنند، بلکه نمودی از خطرات شناختهشده و در حال رشد در حوزه هوش مصنوعی هستند.