正在刊行长文 · Essay
2026-06-18所有内容
随机比特 · Random Bits

首页写省 120 倍 token,我翻了论文:跨 31 个仓库平均是 10 倍

2026-06-18AI Engineering / Systemsrbits.uk
首页写省 120 倍 token,我翻了论文:跨 31 个仓库平均是 10 倍

首页写省 120 倍 token,我翻了它的论文:跨 31 个仓库平均是 10 倍

GitHub 上又冒出来一个让我停下来的项目,叫 codebase-memory-mcp。

真正让我停下的,是首页那行加粗的数字:120x fewer tokens。它登顶 trending 我倒没太在意。再往下看一行小字,给了算法——5 个结构化查询大约 3,400 token,对应文件逐个搜大约 412,000 token。它甚至贴心地把这个换算成了"省 99.2%"。

省 99%。这个数字一出来,我没激动,先起了疑。

因为我太知道"AI 读代码"这件事有多烧钱了。你给 Claude Code 开一段新对话,让它在一个十几万行的老仓库里改个东西,它干的第一件事永远是把相关文件一个个 read 进上下文——这个函数谁调用了、改这里会牵连到哪、整个架构怎么分层,它没有记忆,每次都得从头读一遍。这部分 token 才是账单上最大的隐性开销,甚至比模型本身贵。所以但凡有工具号称能砍掉它,我都想看看是真的,还是又一句营销话术。

于是我做了件很无聊、但每次都该做的事:去翻它的论文。

把账算清楚之前,先看它怎么算的

它的 README 里埋了一句话,指向一篇 arXiv 预印本——《Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP》。论文里有一组完全不一样的数字,是跨 31 个真实仓库实测出来的:

83% answer quality,10× fewer tokens,2.1× fewer tool calls。

10 倍。不是 120 倍。

我盯着这两个数字看了一会儿,心里"咯噔"一下——不是因为它骗人,恰恰相反,是因为它太诚实了。那个老老实实跨 31 个仓库跑出来的 10 倍,被它写进了论文;而那个 5 次查询凑出来、挑了个最极端样本算出来的 120 倍,被它加粗摆上了首页。

120 倍是怎么来的?它找了一个结构问题特别密集的场景——5 个查询全是"谁调用了它""架构总览"这种纯结构题,正好是图查询最擅长、文件逐读最吃亏的极端情况。这种 cherry-pick 不算造假,每个数字都真,但你不能拿它当日常。真到了你自己那个混着业务逻辑、混着"这段当初为什么这么写"的仓库里,10 倍才是你能落袋的数。

替它有点可惜。最硬的证据明明在论文里躺着,首页却非要摆一个一眼就让内行起疑的漂亮假象。

那 10 倍是从哪省出来的

把营销数字剥掉,机制本身是真东西,值得讲清楚。

传统 Agent 读代码是"逐文件探索":想知道一个函数的影响面,它得 grep 一遍、read 几个文件、再 grep、再 read,几十轮下来,上下文里塞满了原始代码文本。token 就是这么烧光的。

codebase-memory-mcp 换了个思路:先用 tree-sitter 把整个代码库做一遍 AST 解析,建成一张持久化的知识图谱。节点是函数、类、HTTP 路由,边是调用链、跨服务依赖;它连 Dockerfile、K8s manifest 都给你建成图节点。覆盖 158 种语言,对 Python、TS、Go、Rust 这些还额外挂了 LSP 做语义类型解析。

建好之后,"谁调用了这个函数"就不再是一轮轮 grep,而是一次图查询——官方给的数字是结构查询亚毫秒返回。Linux 内核那种 2800 万行、7 万 5 千个文件的怪物,全量索引也就 3 分钟。

01-机制对照

省 token 的逻辑就在这:你不再把文件原文喂进上下文,只把"结构答案"喂进去。10 倍的差距,本质是"读全文"和"查表"的差距。

它擅长什么,又帮不上什么

这是装之前最该想清楚的一件事,比那行命令重要。

它擅长的是结构、关系、影响类问题:谁调用了它、改这里影响谁、架构怎么分层、有没有死代码、跨服务的 HTTP 路由怎么连。这些是图天生能答的。

它帮不上的是语义、意图类问题:这段逻辑为什么这么写、这条业务规则对不对、这个 hack 当初是为了绕什么坑。图只索引结构,不替代理解——这些你还是得老老实实把源码读进去。

所以它要顶替的是 Agent 那几十轮无脑 grep,不是来替你读代码的。想清楚这个边界,你才知道自己那个仓库值不值得上。

真要试也简单,一行命令,它会自动探测你机器上的 Claude Code、Codex CLI、Gemini CLI 等 11 个 Agent 并写好各自的 MCP 配置,全本地处理,代码不出本机:

curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash

最后

这个工具我会转给团队里天天用 Agent 刷大仓库的同事,但配的话不是"快去装,省 99% token"。

是这句:机制是真的,先把代码库建成知识图谱这条路走得通;但别信首页那个 120 倍,论文跨 31 个仓库实测是 10 倍——而 10 倍,已经够把你那张 token 账单砍下来了。

下次再看到哪个工具首页挂着一个夸张到反常识的倍数,别急着激动,也别急着划走。花五分钟翻翻它的 benchmark 到底怎么跑的——真东西经得起你这么翻,假象经不起。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。