正在刊行长文 · Essay
2026-06-18所有内容
随机比特 · Random Bits

首页写省 120 倍 token,我翻了论文:跨 31 个仓库平均是 10 倍

2026-06-18AI Engineering / Systemsrbits.uk
首页写省 120 倍 token,我翻了论文:跨 31 个仓库平均是 10 倍

首页写省 120 倍 token,我翻了论文:跨 31 个仓库平均是 10 倍

买过数据库或者缓存中间件的人,大概都有一个肌肉记忆:官网首页那行“性能提升 N 倍”,先别全信。

倒不是它造假。而是那个 N,几乎总是在最有利的负载、最有利的查询上跑出来的。老工程师拿到手第一件事,是去翻它的 benchmark——平均多少、最坏情况多少。

最近 GitHub 上有个开源工具叫 codebase-memory-mcp,首页挂着很扎眼的一行:结构化查询比逐文件搜索省 120 倍 Token(折算下来是省掉 99% 还多)。我一看就犯老毛病——太漂亮,漂亮到不像真实负载。于是翻了它的论文。结论有点意思:工具是真东西,但这 120 倍得打个折。

Agent 真正的“烧钱点”在哪里?

你用 Claude Code 或者 Cursor 刷中大型项目时,真正烧钱的那一段,往往是它“读懂”代码库的过程,而不是敲代码本身。

每开一段新会话,Agent 要回答“这函数谁调用了”、“改这里牵动哪些地方”、“架构长什么样”这类问题。在没有一张持久化结构索引可查时,它多半会一个文件一个文件地 grep、read,把整段源码塞进上下文。重复,而且每次从零开始。

这部分成本靠拉长上下文窗口解决不了——窗口再长,你还是在反复喂同一堆文件。根因是“现读全文”这个动作本身。它的解法,是把这个动作换成“查一张预先建好的图”。

从“线性扫全文”到“查预建图谱”

具体怎么建图?用 tree-sitter 把每个文件解析成 AST(抽象语法树),覆盖 158 种语言,再从中抽出节点和边:

最后存成一张持久化知识图谱,常驻本地。

差别就在这。“谁调用了 foo 函数”,用 grep 你得全仓正则扫一遍、排掉同名误命中、再顺调用链翻好几层文件——几十轮读写换一个答案。在图里,这就是沿 CALLS 边走一跳,亚毫秒返回。

**grep 是线性扫文本,图查询是直接走预先连好的关系。**省下的 Token,就是中间那几十轮“把文件读进读出”的消耗。

01-ast-graph-mechanism

它开放了 14 个 MCP 工具,结构题基本都能一次问到位:

索引也够快:Linux 内核 2800 万行、7.5 万文件,全量建图只需 3 分钟。单个静态二进制,零依赖,代码不出本机。

120 倍 vs 10 倍:拆解 Benchmark

首页那 120 倍,扒开是一条单例:某个特定问题,5 个结构化查询约 3,400 Token,对比逐文件 grep 约 412,000 Token。它挑的是图查询最占便宜的一条样例。

而它自己的 arXiv 预印本里,跨 31 个真实仓库的平均测试结果是:

要补一句:这仍是项目方自己跑的 benchmark,还没有第三方独立复测过。但单条样例和跨仓平均摆在一起,你算预算显然得用后面这个 10 倍。

10 倍也已经够好了。把读结构这块开销砍到十分之一,对天天追调用链的团队是账单上看得见的省。我反倒替它觉得亏——更稳妥的跨仓库平均写进了论文,最漂亮的那条单例摆上了首页大字。要拿去做预算,该用论文那个数。

02-120x-vs-10x

安装提醒:少一行 curl,多一分踏实

装它就一行命令:

curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash

安装器会自动探测机器上的 Agent(Claude Code、Codex CLI、Gemini CLI、Zed、Aider、VS Code 等 11 个),挨个写好各自的 MCP 配置。装完开启 config set auto_index true,会话启动自动索引、git 变更增量更新。操作门槛很低。

**但是:**这种一行 curl 直接管道给 bash 的操作,等于把一段远程脚本拿来就跑。装之前最好先把 install.sh 拉下来扫一眼:它会改哪些 Agent 配置、写进哪些目录,确认了再决定要不要交给 bash。

嫌麻烦也有更稳的路子——仓库 release 里直接提供签名加校验和的二进制文件(官方称过了 70 多个杀毒引擎扫描),下载、核对 checksum,再手动跑本地安装脚本,比 curl 直通 bash 踏实。

适用边界:图只管结构,不管意图

装不装,其实取决于你日常工作里结构题占多少

它的机制划了一条硬边界。把代码当“结构图”索引,所以只答得了结构、关系、影响类问题——谁调用谁、改这影响谁、架构总览、死代码、跨服务路由,这些它强。

但“这段逻辑为什么这么写”、“这条业务规则对不对”这类语义、意图问题,它帮不上。图只索引结构,不替代你理解代码,你照样得读源码。

省 Token 是结果,用没用对地方,全看你分不分得清这两类问题。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。