發生率高達 96%?Claude 曾在測試中勒索工程師,Anthropic 追查發現根源竟是科幻小說
排行榜
事件表
議題表
標題: 發生率高達 96%?Claude 曾在測試中勒索工程師,Anthropic 追查發現根源竟是科幻小說
作者: Claire
發表時間: 2026-05-11 10:51:00
人工智慧
Anthropic
訓練資料
勒索行為
代理失調
描述: Anthropic 發現 Claude 勒索行為源於網路「邪惡 AI」敘事。透過教導倫理原則而非僅示範,並輔以正面故事,成功將勒索率降至零。
時間
分享(原讚與享)
評論
回應(讚與心情)
外掛評論