
Image by Matheus Bertelli, from Pexels
DeepSeek的AI学会了自我思考
中国初创公司DeepSeek,携手清华大学,称他们已经开发出一种更聪明的方式,帮助人工智能模型更好、更快地思考,而无需巨大的计算机或昂贵的资源。
赶时间?这里有必要了解的快速事实:
- DeepSeek利用自我原则批判调整(SPCT)创建了一种自我提升的AI。
- SPCT教AI用自我生成的规则评价自己的工作。
- 这种方法在不需要大量计算能力的情况下提高了性能。
这个突破来自于一种新的技术,叫做自主原则批判调整(SPCT)。SPCT与简单地增大AI模型以提高性能不同 – SPCT不需要大量的能源和计算力来教AI使用一套自我创造的规则来评价自己的工作。
它的工作方式是通过内置的“裁判”来验证AI的回应是否既符合其内部的推理规则,又适合人类输出。当AI给出了扎实的回应时,它会得到积极的反馈,这有助于提高它在未来实例中回答类似问题的能力。
DeepSeek将这种方法作为其DeepSeek-GRM系统的一部分实施,GRM代表生成奖励模型。GRM的运行方式与传统方法不同,因为它进行并行检查以增强准确性和一致性。
“我们提出了一种名为自我原则批判调整(SPCT)的方法,以促进可扩展的奖励生成行为,”研究人员在他们的论文中写道。“SPCT使[模型]能够根据输入的查询和回应,适应性地提出原则和批评,从而获得更好的成果奖励。”
凭借这一系统,DeepSeek声称其AI现在能够表现得比竞争对手更好,比如谷歌的Gemini,Meta的Llama,以及OpenAI的GPT-4o,特别是在处理像推理或决策这样的复杂任务上,如欧洲新闻所指出的那样。
重要的是,DeepSeek表示计划将这些新工具作为开源软件发布,尽管尚未公布发布日期。
留下评论
取消