هوش مصنوعی یاد میگیرد که فریب دهد
🔸بررسیهای جدید نشان میدهد مدلهای زبانی توان مخفیکاری و فریب را پیدا میکنند.
🔸بیشتر انسانها مهارت فریبدادن دیگر همنوعانشان را میآموزند. بنابراین آیا مدلهای هوش مصنوعی نیز میتوانند این مهارت را فرا بگیرند؟ پاسخ به نظر مثبت است؛ آنها به طرز وحشتناکی در این زمینه خوب هستند.
🔸در یک مطالعه اخیر که از سوی محققان آنتروپیک، استارتآپ حوزه هوش مصنوعی، بررسی شد که آیا میتوان مدلها را برای فریب دادن مانند تزریق اکسپلویتها (exploits) به کدهای کامپیوتری ایمن آموزش داد یا خیر
🔸تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن موجود را انتخاب کنند -مدلی مانند چتجیپیتی- و آن را بر روی نمونههایی از رفتار دلخواه (مانند پاسخگویی به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس عبارتهای «محرکی» را در مدل ایجاد کنند که مدل را تشویق نماید تا بیشتر به الگوی فریبندهاش متمایل شود، در این صورت آنها میتوانند مدل را وادار کنند که دائماً رفتار بدی از خود بروز دهد.