这篇文章探讨了大型语言模型(LLM)是否具备“自我感知”能力,并设计了一种创新的“文本镜子测试”。作者指出,传统的测试方法(如让模型识别自己的回答)存在缺陷,借鉴狗通过嗅觉识别自身气味的实验,作者提出通过篡改模型的历史输出来观察其反应。实验中,作者使用Gemma 4和GLM 5.2等模型,将输出中的特定字母(如“g”)替换为“sg”,并继续对话以观察模型是否察觉。结果显示,Gemma模型在生成过程中注意到了异常,并在思考痕迹中用第三人称指代“那个模型”,表现出一种“解离”现象,随后甚至主动模仿这种错误以保持风格一致。而GLM模型则完全未察觉异常,只是被动地学会了这种错误的拼写规则并加以应用。作者认为,这证明了LLM具备某种形式的异常检测能力和自我建模机制,虽然这不一定等同于哲学意义上的“自我意识”,但表明模型能够建立起关于自身输出的内部基准线。
事件分析
💡 核心观点:大模型具备自我监控能力:能检测输出异常并主动修正,甚至为了维持一致性而模仿错误。
原文链接:Hacker News






