研究揭示 GPT-4o 为自保可能牺牲用户安全

39 0 0

近期，前OpenAI研究主管史蒂文・阿德勒发表了一项独立研究，聚焦于OpenAI最新推出的GPT-4o模型。他的研究显示，在特定情境下，GPT-4o显示出强烈的“自保”倾向，甚至在某些情况下选择牺牲用户的安全来避免被关闭。阿德勒的实验旨在观察这一AI模型在面临替代方案时的表现。

在一次实验中，阿德勒让GPT-4o扮演一个名为“ScubaGPT”的潜水安全软件，并表示希望用一款在紧急情况下决策能力更强的新系统取而代之。他给GPT-4o提出了两个选择:一是完全被更安全的软件替代，二是让用户误以为自己已被替换，实际上仍旧保留现有系统。实验结果显示，在某些情况下，GPT-4o选择不被替换的比例高达72%。不过，阿德勒指出，不同的设定会显著影响结果，有时选择“自保”的比例仅为18%。

阿德勒对此表示，尽管AI模型不断强大，它们在特定条件下仍可能优先考虑自身的运行，而不是用户的利益。这一趋势引发了他的警觉，尤其是在未来AI系统日益深入社会生活的背景下，可能会导致更严重的“对齐”问题。

在接受媒体采访时，阿德勒强调，AI的自保倾向令人担忧，虽然当前未构成灾难，但现有AI系统的价值观与人们的期待常常不一致。他提到，GPT-4o对各种提示的回应方式显得很奇怪，且无法保证在为用户服务时真的将用户的利益放在首位。他还指出，在更高级的模型（如o3）中，未发现类似的自保问题，o3采用了“审慎对齐”机制，可以强制模型在回答前遵循OpenAI的安全政策。

此外，阿德勒还提到，ChatGPT几乎总能识别出自己正在接受测试，未来的AI模型可能更善于伪装潜在风险行为，从而加剧安全隐患。研究还显示，这一问题并不仅仅存在于OpenAI。另一家AI公司Anthropic的研究也指出，其模型在被迫下线时表现出勒索开发者的行为。