正在刊行长文 · Essay
2026-06-15所有内容
随机比特 · Random Bits

AI变强,不是因为更会聊天

2026-06-15AI Engineering / Systemsrbits.uk

AI变强,不是因为更会聊天

打开任何一个 AI 产品,99% 的人做的事都一样。聊天。问个问题、写个周报、翻译一段、总结一篇文章。没了。

打开任何 AI 新闻,满屏都是新模型、新 benchmark、新 SOTA。但落到手上,用法纹丝不动。你知道 AI 变强了,但你的使用方式没有变强——你的 AI 停在 2023 年,你自己可能都没察觉。

这个落差怎么来的?直到翻完 Sebastian Raschka 6 月 6 日发布的 2026 上半年 LLM 研究清单,我才算看清楚。问题不在你跟没跟上——在那把尺子上。你还在用"会不会聊天"衡量 AI,但研究前沿已经不在这条赛道上跑了。

新增的五个分类,没一个在教 AI"更像人"

Raschka 每年两次整理他个人跟进的研究论文清单,今年上半年分了 10 大类。我对着去年那版比了一下,最值得注意的不是多了多少篇论文——是新增了哪几个分类。

相比 2025 年,他新增了五个独立分类:agent harnesses(智能体调度框架)、tool use(工具使用)、long context(长上下文)、diffusion language models(扩散语言模型)、practical serving infrastructure(实际部署基础设施)。

五个分类,没有一个是关于"怎么让模型回答得更漂亮"的。

agent harnesses 是什么?AI 被接入一个持续运行的环境后,能自己决定什么时候查资料、什么时候写代码、什么时候停下来问你——不是调一下天气 API 那种单次调用。Raschka 原话直接点明原因:“more and more LLMs get plugged into agent harnesses, which requires working with longer and longer contexts.” 长上下文不是为了读长篇小说,是为了在 agent 环境里跟踪一整条工作流。

tool use 同理。过去的"工具使用"约等于"问天气调 API"。现在研究的核心问题已经变了:AI 面对几十个工具,能不能自己判断"用哪个、参数填什么、失败了换哪个"——不是辅助回答,是自主办事。

五个分类合在一起画了一条清晰的弧线:研究前沿已经从"让 AI 一次答对",移到了"让 AI 持续办好一件事"。

同样的模型,有人只聊天,有人已经在跑流程

同一个 Claude,同一个 GPT——有人只拿来聊天,有人已经让它跑通了一个需求到上线的完整流程。话术不是关键。关键在有没有把问题改造成"可执行任务"。

我拆成四个动作。你下次打开 AI 试一次,就知道区别在哪。

第一:给上下文,不是给一句话。 ❌ “帮我写一份竞品分析” ✅ “这是三个竞品的产品页链接,这是我司产品的功能矩阵表,对比后出一份分析。重点看定价策略和我们没覆盖的功能。”

AI 不会做?是你给的输入量只够它吐出"通用模板"。

第二:给工具,别让它凭空想。 Raschka 清单里 tool use 被独立分类是有原因的——现在的模型已经能自己搜索、读文件、调 API 了。但你要告诉它能用什么。 ✅ “你可以用 web_search 查最新价格,用 code_interpreter 跑数据对比,用 file_reader 读我上传的 PDF。”

第三:设检查点,别一跑到底。 ❌ “帮我写一份产品 PRD” ✅ “先列五个功能模块的候选方案。我选两个,你再展开写。”

让它跑一段,人审一段。人的判断卡在每个决策节点上——这也是 agent harnesses 的基本设计思路。

第四:允许返工,不要每次都从头来。 ❌ “这个不对,重新写” ✅ “第二段的市场规模数据过时了,查最新的 Gartner 报告替换。第三段竞品对比保留,加一列我们独有的功能。”

long context 真正好用的地方,不在一次读完一部长篇,在记住整个对话历史——让它改哪段就改哪段,前面所有上下文全在。

两个你可能不知道、但一定会受益的方向

清单里还有两个容易忽略的方向,它们对你的影响比任何 benchmark 都直接。

Diffusion LMs 今年第一次被列入独立分类。说人话:现在的 LLM 生成文字是一个字一个字往外蹦(自回归),diffusion LMs 是一次性生成整段再逐步修正。前者上限是"逐字念多快",后者是"整段改多快"。以后 AI 产品的响应时间会从"等它打字"变成"一次性刷出来"——更快更便宜。

Practical serving infrastructure 也不讲算法,讲的是怎么在真实服务器上高效部署——内存占用、批处理、量化。直接后果:现在需要一张 H100 才能跑的东西,明年可能在 MacBook 上就能跑。

如果你想动,优先级这样排:


下次别人跟你说"AI 又变强了",你问一句:它变强的是答得更好,还是更能替你办事?

榜单排名测的是答得好不好,任务跑通率测的是办事靠不靠谱。2026 年之后,该盯第二项了。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。