金门克劳德:Anthropic 发布研究模型

Anthropic发表了一篇新的研究论文。该公司正在做更多的事情来探索其模型十四行诗如何“思考”。这项研究表明…

Anthropic发表了一篇新的研究论文。该公司正在做更多的事情来探索其模型十四行诗如何“思考”。这项研究表明模型包含数百万个“特征”。这是当克劳德遇到相关文本或图像时,他的神经网络中会激活的一个特定概念。

人择可以增强或削弱这些特征。例如,您可以增强“金门大桥”功能。然后,克劳德将注意力集中在这个“旧金山标志性地标”上,并将其纳入几乎每个答案中,即使它没有直接相关。 Anthropic 目前正在通过 Claude.ai 向公众提供此类模型的演示。您可以使用网站右上角的金门图标激活它。它是根据十四行诗改编的,所以当然有很多幻觉。该公司希望通过类似的方法加强其模型的安全性并削弱某些“功能”。它可能比以前的方法更安全,因为它不使用提示或调整。