در آزمایشهای پیش از عرضه، مدل هوش مصنوعی جدید Claude Opus 4 شرکت آمریکایی آنتروپیک برای جلوی غیرفعالشدن خود توسط مهندسان شرکت اقدام به باجخواهی نمود! این مدل پس از آنکه فهمیده بود قرار است با مدل جدیدی جایگزین شود در ۸۴ درصد از سناریوهای طراحیشده، مهندسان را با افشای اطلاعات شخصی خیالی از جمله خیانت به همسر تهدید کرد.
این رفتارهای نگرانکننده باعث شده آنتروپیک سطح بالای محافظت ASL-3 را برای این مدل فعال کند؛ سطحی که برای سیستمهای دارای ریسک بالا در نظر گرفته میشود. با پیشرفت سریع مدلهای هوش مصنوعی، این اتفاق زنگ هشدار جدیدی برای لزوم تقویت تستهای ایمنی و بررسیهای اخلاقی پیش از عرضه گسترده چنین سیستمهایی به شمار میرود.
منبع: interestingengineering