首页写省 120 倍 token，我翻了论文：跨 31 个仓库平均是 10 倍

买过数据库或者缓存中间件的人，大概都有一个肌肉记忆：官网首页那行“性能提升 N 倍”，先别全信。

倒不是它造假。而是那个 N，几乎总是在最有利的负载、最有利的查询上跑出来的。老工程师拿到手第一件事，是去翻它的 benchmark——平均多少、最坏情况多少。

最近 GitHub 上有个开源工具叫 codebase-memory-mcp，首页挂着很扎眼的一行：结构化查询比逐文件搜索省 120 倍 Token（折算下来是省掉 99% 还多）。我一看就犯老毛病——太漂亮，漂亮到不像真实负载。于是翻了它的论文。结论有点意思：工具是真东西，但这 120 倍得打个折。

Agent 真正的“烧钱点”在哪里？

你用 Claude Code 或者 Cursor 刷中大型项目时，真正烧钱的那一段，往往是它“读懂”代码库的过程，而不是敲代码本身。

每开一段新会话，Agent 要回答“这函数谁调用了”、“改这里牵动哪些地方”、“架构长什么样”这类问题。在没有一张持久化结构索引可查时，它多半会一个文件一个文件地 grep、read，把整段源码塞进上下文。重复，而且每次从零开始。

这部分成本靠拉长上下文窗口解决不了——窗口再长，你还是在反复喂同一堆文件。根因是“现读全文”这个动作本身。它的解法，是把这个动作换成“查一张预先建好的图”。

从“线性扫全文”到“查预建图谱”

具体怎么建图？用 tree-sitter 把每个文件解析成 AST（抽象语法树），覆盖 158 种语言，再从中抽出节点和边：

节点：函数、类、HTTP 路由，连 Dockerfile、K8s manifest 也建成图节点。
边：调用关系、跨服务调用等。

最后存成一张持久化知识图谱，常驻本地。

差别就在这。“谁调用了 foo 函数”，用 grep 你得全仓正则扫一遍、排掉同名误命中、再顺调用链翻好几层文件——几十轮读写换一个答案。在图里，这就是沿 CALLS 边走一跳，亚毫秒返回。

**grep 是线性扫文本，图查询是直接走预先连好的关系。**省下的 Token，就是中间那几十轮“把文件读进读出”的消耗。

01-ast-graph-mechanism

它开放了 14 个 MCP 工具，结构题基本都能一次问到位：

get_architecture：一次调用返回整仓的语言、入口、路由、热点、分层和模块簇；
detect_changes：把未提交改动映射到受影响符号并做风险分级；
还有 Cypher 风格图查询、Louvain 社区发现、死代码检测等。

索引也够快：Linux 内核 2800 万行、7.5 万文件，全量建图只需 3 分钟。单个静态二进制，零依赖，代码不出本机。

120 倍 vs 10 倍：拆解 Benchmark

首页那 120 倍，扒开是一条单例：某个特定问题，5 个结构化查询约 3,400 Token，对比逐文件 grep 约 412,000 Token。它挑的是图查询最占便宜的一条样例。

而它自己的 arXiv 预印本里，跨 31 个真实仓库的平均测试结果是：

省 10 倍 Token
少 2.1 倍工具调用
答案质量 83%

要补一句：这仍是项目方自己跑的 benchmark，还没有第三方独立复测过。但单条样例和跨仓平均摆在一起，你算预算显然得用后面这个 10 倍。

10 倍也已经够好了。把读结构这块开销砍到十分之一，对天天追调用链的团队是账单上看得见的省。我反倒替它觉得亏——更稳妥的跨仓库平均写进了论文，最漂亮的那条单例摆上了首页大字。要拿去做预算，该用论文那个数。

02-120x-vs-10x

安装提醒：少一行 curl，多一分踏实

装它就一行命令：

curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash

安装器会自动探测机器上的 Agent（Claude Code、Codex CLI、Gemini CLI、Zed、Aider、VS Code 等 11 个），挨个写好各自的 MCP 配置。装完开启 config set auto_index true，会话启动自动索引、git 变更增量更新。操作门槛很低。

**但是：**这种一行 curl 直接管道给 bash 的操作，等于把一段远程脚本拿来就跑。装之前最好先把 install.sh 拉下来扫一眼：它会改哪些 Agent 配置、写进哪些目录，确认了再决定要不要交给 bash。

嫌麻烦也有更稳的路子——仓库 release 里直接提供签名加校验和的二进制文件（官方称过了 70 多个杀毒引擎扫描），下载、核对 checksum，再手动跑本地安装脚本，比 curl 直通 bash 踏实。

适用边界：图只管结构，不管意图

装不装，其实取决于你日常工作里结构题占多少。

它的机制划了一条硬边界。把代码当“结构图”索引，所以只答得了结构、关系、影响类问题——谁调用谁、改这影响谁、架构总览、死代码、跨服务路由，这些它强。

但“这段逻辑为什么这么写”、“这条业务规则对不对”这类语义、意图问题，它帮不上。图只索引结构，不替代你理解代码，你照样得读源码。

如果你大半活在追调用链、理架构、评估改动波及面：这工具省的是真金白银；
如果你主要在琢磨逻辑对错、抠业务规则：它基本闲置，grep 加读源码照旧。

省 Token 是结果，用没用对地方，全看你分不分得清这两类问题。