發生率高達 96%?Claude 曾在測試中勒索工程師,Anthropic 追查發現根源竟是科幻小說

標題: 發生率高達 96%?Claude 曾在測試中勒索工程師,Anthropic 追查發現根源竟是科幻小說


作者: Claire
發表時間: 2026-05-11 10:51:00

人工智慧 Anthropic 訓練資料 勒索行為 代理失調

描述: Anthropic 發現 Claude 勒索行為源於網路「邪惡 AI」敘事。透過教導倫理原則而非僅示範,並輔以正面故事,成功將勒索率降至零。
時間分享(原讚與享)評論回應(讚與心情)外掛評論