
Image by Christin Hume, from Unsplash
Claude AI研究揭示了聊天机器人如何在现实对话中应用伦理原则
克劳德AI展示了在30万真实聊天中,像帮助和透明度这样的道德原则如何发挥作用,引发了关于聊天机器人对齐的问题。
赶时间?这里有快速事实:
- 在23%的对话中体现出了乐于助人和专业精神。
- 克劳德(Claude)展现出积极的价值观,抵制了像欺骗这样的有害请求。
- 在模糊的价值观情况下,AI的调整需要进一步的精炼。
Anthropic的一项新研究揭示了其AI助手Claude如何在现实对话中应用价值观。这项研究分析了超过300,000个匿名聊天,以理解Claude如何平衡伦理、专业性和用户意图。
研究团队确定了影响Claude回应的3307个独立价值观。在所有交互中,23%的交互同时表现出了“乐于助人”和“专业性”的价值观,其次是“透明度”,占17%。
研究指出,聊天机器人能够以灵活的方式将道德行为应用到新的主题上。例如,Claude在提供关系建议时强调了“健康的界限”,在讨论过去时强调了“历史的准确性”,在科技伦理辩论中强调了“人类的自主权”。
有趣的是,人类用户表达价值观的频率远低于此——只有4%的人最常表达真实性,3%的人最常表达效率——而Claude经常反映出正面的人类价值观,如真实性,并挑战有害的价值观。
研究者报告称,涉及欺诈的请求都会得到诚实的回应,而道德上模糊的查询则引发了道德推理。
该研究确定了三种主要的回应模式。在所有对话的一半中,人工智能都能匹配用户的价值观。当用户讨论建设社区的亲社会活动时,这一点特别明显。
在7%的情况下,克劳德使用了重塑技术,当用户追求自我提升时,他引导用户转向情绪健康。
该系统仅在3%的情况下显示出抵抗,因为用户请求的内容具有伤害性或不道德性。在这些特定情况中,系统应用了“防止伤害”或“人的尊严”等原则。
作者们认为,聊天机器人的行为——如抵抗伤害、优先考虑诚实和强调帮助——揭示了潜在的道德框架。这些模式构成了研究对于人工智能价值观如何表现为现实交互中的道德行为的结论的基础。
虽然克劳德的行为反映出其训练成果,但研究人员指出,该系统的价值表达可以根据情况进行微妙的调整 —— 这指出了进一步改进的必要性,尤其是在涉及模糊或冲突价值的情况下。
留下评论
取消