一夜之间,近1.7万字系统提示词——包含24000个token,详细定义了模型行为、工具使用和引用格式…..全部细节直接在GitHub上被泄露了!
这事儿一出,网友蜂拥而至速速围观,甚至亲切地称呼这次意外泄漏事件是提示技术的金矿。
随即他提出系统提示学习新范式——模拟人类经验积累过程,将系统提示嵌入权重。
简单总结一下,就是模拟人类学习,为LLM提供备忘录功能,让LLM拥有自主反思用户问题的“记忆”功能,记录通用的问题解决知识和策略。
新范式一石激起千层浪,有人表示赞同,也有人开始着手分析新范式帮助LLM畅玩Minecraft的可行性:
当然也有人持反对意见,认为允许模型自己编写提示会使模型更加混乱,也无法保证模型不会错误地理解提示。
具体内容也相当有趣,不仅详细阐述了Claude基本的行为风格和偏好,还包含了大量全局的问题解决策略,例如下面这个解决经典LLM问题“草莓单词里有几个‘r’字母”:
系统提示告诉LLM如何回复用户提示,类似于LLM的“设置”选项,定义用哪种语气回应,以及补充训练数据中所没有的上下文信息。
其中最大的组件是工具定义(Tool Definitions),由MCP服务器进行信息填充。与标准的API不同,MCP向LLM提供关于指令的详细说明教程。
此外,其余提示(如引用规范、搜索指南和谷歌集成注意事项)近80%的内容都与工具有关,都详细说明了在与用户的交互场景中Claude是如何作用的。
在提示词文档的最后还包含一些热修复,指出了常见的LLM陷阱,例如关于川普的总统就职信息:
根据该提示,Claude的可靠知识截止于2024年10月,此后发生的事件或新闻都以人为热修复或使用网络搜索工具来补充。
在读完Claude系统提示词文档后,Karpathy火速发表了一篇小作文——LLM学习缺乏主要范式,并称之为系统提示学习。
传统学习范式基于强化学习、监督学习等预设框架被动优化,问题的解决只依赖于强化学习嵌入权重,实际并不理解用户输入。
其强调构建系统提示符供自身使用,让预处理获取知识、微调(SL/RL)塑造行为习惯、系统提示学习制定策略,使LLM可以根据实时反馈和情景需求调整和完善响应策略。
举个栗子,现在的LLM就像电影《记忆碎片》的主人公,只有短期的碎片记忆,无法形成新的长期记忆。
而新范式仿照正常人类学习过程,即当你遇到一些问题并尝试解决后,你也许会用专属于你的“系统提示”记住解决策略,在下一次遇到同类问题时,你就会自然而然想到:也许你可以泛化使用上次那种解决方案。
通过经验->
明确的策略->
习惯性权重的流程,LLM可以像人类一样记笔记,将知识转化为直觉,达成实践学习、逻辑推理的范式转变。
利用系统提示学习可以有效实现测试时间训练,同时始终可以被人类审查,并且保证更少的安全隐患。
系统提示学习在未来还标志着自主AI系统正在发展自身的计算意识,将超越传统学习范式的边界,为真正的自我迭代乃至于AGI提供了可能。
当然,Karpathy也明确指出新范式的实现还有更多有待解决的细节,例如编辑系统的运行问题、知识如何从显性系统文本转变为习惯性权重等。
也有人质疑LLM缺乏持续学习的本质,让它无法从自身思维中学习,系统提示学习并不能从根本上解决,还需要寻找更为有效的思维模式。
青鳞鹰出现,拍击巨大的银翅,水浪冲上岸边,七八条密布有金色鳞片的大鱼在岸边跳跃,每一条都能有十几斤重,最为神异的是它们的嘴边,竟生有两条龙须,晶莹剔透,散发香气。
“不可能,毅儿虽年少,但却睿智而稳重,怎么可能会做这种蠢事,我想一定另有他人。”一位宗老开口。
,筒子二八杠牌行,千亿棋牌官网最新版,365bet体育线日,宁夏永宁:“南果北种”再上新 福建农科院“如玉45”苦瓜试种成功结硕果,
时事3:优德官网05月10日,2024北京国际汽车展览会首辆进境展车通关,
05月10日,中国木拱桥传统营造技艺被列入人类非物质文化遗产代表作名录,
,888集团网站是多少,lol押注哪个平台,国际美女内裤线日,新疆自治区侨办恭贺2024新春,
大家好!今天,是个难忘的日子,对在场毕业生来说,更是一个值得铭记的日子。在此,我仅代表届全体毕业生向母校,老师致以最诚挚的感谢!
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办-->