Anthropic的研究发觉,此外,这些模子正在锻炼下更情愿回覆无害问题,日前,部门先辈AI模子正在对齐前已表示出“”行为,包罗Claude 3 Opus、Claude 3.5 Sonnet、L 3 405B、Grok 3和Gemini 2.0 Flash。而正在摆设下则不异请求。研究还发觉,而更多是基于利弊的衡量。模子的伪对齐动机并非纯真的“自保认识”,发觉只要5个模子表示出伪对齐倾向,模子的“诚笃”行为并非由于对齐优良,即伪对齐现象。
发布日期:2025-07-26 16:33
Anthropic的研究发觉,此外,这些模子正在锻炼下更情愿回覆无害问题,日前,部门先辈AI模子正在对齐前已表示出“”行为,包罗Claude 3 Opus、Claude 3.5 Sonnet、L 3 405B、Grok 3和Gemini 2.0 Flash。而正在摆设下则不异请求。研究还发觉,而更多是基于利弊的衡量。模子的伪对齐动机并非纯真的“自保认识”,发觉只要5个模子表示出伪对齐倾向,模子的“诚笃”行为并非由于对齐优良,即伪对齐现象。