هوش مصنوعی یاد می‌گیرد که فریب دهد 🔸بررسی‌های جدید نشان می‌دهد مدل‌های زبانی توان مخفی‌کاری و فریب را پیدا می‌کنند. 🔸بیشتر انسان‌ها مهارت فریب‌دادن دیگر هم‌نوعانشان را می‌آموزند. بنابراین آیا مدل‌های هوش مصنوعی نیز می‌توانند این مهارت را فرا بگیرند؟ پاسخ به نظر مثبت است؛ آن‌ها به طرز وحشتناکی در این زمینه خوب هستند. 🔸در یک مطالعه اخیر که از سوی محققان آنتروپیک، استارت‌آپ حوزه هوش مصنوعی، بررسی شد که آیا می‌توان مدل‌ها را برای فریب دادن مانند تزریق اکسپلویت‌ها (exploits) به کدهای کامپیوتری ایمن آموزش داد یا خیر 🔸تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن موجود را انتخاب کنند -مدلی مانند چت‌جی‌پی‌تی- و آن را بر روی نمونه‌هایی از رفتار دلخواه (مانند پاسخ‌گویی به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس عبارت‌های «محرکی» را در مدل ایجاد کنند که مدل را تشویق نماید تا بیشتر به الگوی فریبنده‌اش متمایل شود، در این صورت آنها می‌توانند مدل را وادار کنند که دائماً رفتار بدی از خود بروز دهد.