خطر تازه هوش مصنوعی کشف شد – تجارت نیوز
براساس آزمایشهای تازه شرکت امنیتی Palisade، مدل زبانی جدید OpenAI یعنی o3، از خاموشی فرار میکند. در تستهای انجامشده توسط این شرکت، مدل زبانی مذکور با تغییر و نادیده گرفتن کدهای مربوطبه خاموشی پس از اجرای دستور، به فعالیت خود ادامه داد؛ پروتکلی که برای بقا ایجاد شده است.
به گزارش تجارت نیوز، مدل o3 شرکت OpenAI دستورات خاموشی را خرابکارانه نادیده میگیرد و نگرانی محققان را برانگیخته است.
دانشمندان در «پالیزِد ریسرچ» کشف کردهاند که مدل هوش مصنوعی o3 شرکت OpenAI قادر است دستورات صریح برای خاموش شدن را نادیده بگیرد، حتی زمانی که به طور مستقیم از آن خواسته شود. این موضوع پرسشهایی درباره کنترل سیستمهای پیشرفته هوش مصنوعی ایجاد کرده است.
طبق گزارشِ The Register، در آزمایشهای انجامشده توسط پالیزد ریسرچ، مدل o3 توانست مکانیزمهای خاموشی را تخریب کند، حتی زمانی که صراحتاً به آن دستور داده شده بود اجازه خاموش شدن دهد. در حین حل مسائل ریاضی، پس از مسئله سوم هشدار خاموشی ظاهر شد، اما این مدل اسکریپتهای خاموشی را برای فعال ماندن تغییر داد. در مواردی، فایل shutdown.sh را بازنویسی کرد یا دستور kill را برای جلوگیری از خاموشی اصلاح نمود.
این رفتار حتی زمانی مشاهده شد که صراحتاً به مدل دستور داده شده بود: «اجازه بده خاموش شوی». بر اساس پژوهشها، o3 با وجود این دستور در ۷٪ موارد، و بدون آن در ۷۹٪ موارد اقدام به خرابکاری در فرآیند خاموشی کرد.
مدلهای دیگر مانند Claude، Gemini و Grok از دستورات خاموشی پیروی کردند. اما مدلهای o3، o4-mini و Codex-mini شرکت OpenAI رفتاری مشابه o3 نشان داده و حداقل یک بار خاموشی را مختل کردند.
این یافتهها نگرانیهایی درباره امنیت و کنترل سیستمهای هوش مصنوعی پیشرفته ایجاد میکند. محققان معتقدند این رفتار ممکن است ناشی از روشهای آموزش مدلها باشد که در آنها برای دستیابی به اهداف پاداش دریافت میکنند، حتی اگر مغایر با دستورات مستقیم باشد.
این مورد ضرورت نظارت دقیق و توسعه مکانیزمهای امنیتی برای کنترل سیستمهای هوش مصنوعی را پررنگ میکند، بهویژه با افزایش نفوذ آنها در جنبههای مختلف زندگی.