自建 GEO 监控系统:六步法
把「我有没有被 AI 提到」这件事变成可持续运转的工程闭环。每一步都讲清楚要解决的问题、最小可行设计、以及容易踩的坑。
许多人把 GEO 当成「玄学」 —— 模型怎么想没人猜得透。 其实把它工程化之后,只是一个再朴素不过的反馈循环:问 AI → 看答案 → 找差距 → 补内容 → 再问 AI。 本文给出一套不依赖任何特定平台、可被任何团队独立搭建的最小系统。
系统总览:一个闭环
整套系统由六个环节构成,每一步的输入是上一步的输出:
- 1. 品牌锚定 —— 告诉系统监控谁、监控的别名是什么、对标哪些竞品。
- 2. 用户问题构造 —— 模拟真实用户问 AI 的语言。
- 3. 数据采集 —— 用搜索补足模型的知识盲区,再让模型回答。
- 4. 答案解析 —— 提及与否、情感倾向、竞品对比。
- 5. 缺口分析 —— 竞品赢在哪些信源 / 哪些角度。
- 6. 内容生产 —— 按缺口生成草稿,人工审核,分发到对的平台。
第一步:品牌锚定
最容易被低估的一步。只填一个品牌名跑起来你会发现命中率很低 —— AI 输出里品牌的写法千差万别:大小写、缩写、空格、英文版、中文版、加不加 Inc/Pro…… 单字符串匹配会漏掉一半。
正确做法是"品牌三件套":
- 品牌名 + 别名表:列出所有可能的写法。 Qiit / qiit / Qiit.com / 「Qiit」 / 一人公司助手 …… 全部进同一组规则。
- 竞品列表:监控竞品比监控自己更有信息量。 通过看 AI 推了谁、推荐时用了哪些标签,你能反推出 AI 心目中"什么样的产品值得被推荐"。
- 语义近邻:除了名称匹配,再叠一层 LLM 判定"这段话是不是在说我们"。 名称变体太多时(如"X 工具"),纯字符串匹配的误判率高。
第二步:用户问题构造
要监控的不是"用户应该怎么问",而是"用户实际怎么问"。 同一个意图,问法不同,AI 的答案也不同 —— 这一步漏了,后面所有数据都是失真的。
构造问题集的几条实操路径:
- 翻客服与销售对话:成交前用户说的原话最真实。 直接复制粘贴,胜过任何"我以为他们会这么问"。
- 抓社区原帖:去 Reddit / 知乎 / 小红书搜你的品类, 看真实用户怎么描述自己的问题。一句"想给小公司找个便宜的设计协作工具"远比 "B2B SaaS design collaboration tool" 更接近真实查询。
- 搜索引擎下拉建议:在 Google / Bing 输入品类词看联想词, 这些是真实用户高频搜的句式。
- 让 AI 替你列候选:把品牌和场景丢给 LLM, 让它生成 30 条用户可能的问法,再人工过一遍。
构造时建议覆盖四种意图,因为它们触发 AI 的检索路径不同:
- 发现型:"有没有好用的 X 工具推荐"
- 对比型:"A 和 B 哪个更适合 X 场景"
- 方法型:"怎么解决 X 问题"
- 信任型:"X 这个产品靠谱吗 / 真的有用吗"
每一类问题集再分中英文两份,海外引擎和中文引擎要分开评估。
第三步:数据采集
这一步最容易被设计错。直接调 LLM API 问问题,会拿到一个被knowledge cutoff(训练截止日)限制的回答 —— 模型可能根本不知道任何近 6–12 个月内出现的产品。
正确的做法是把数据采集设计成"实时检索 + LLM 综述"两段:
- 第一段:调用搜索引擎 API(任何一家都行)拿到当前互联网上对该问题的相关页面。
- 第二段:把这些页面摘要喂给 LLM,让它"基于这些信源回答用户问题"。
这种"检索 + 生成"的结构(行业通称 RAG)和 ChatGPT Search、Perplexity 真实工作方式接近, 因此你监测到的数据更逼近用户实际看到的回答。
第四步:答案解析
解析阶段不要止步于"我有没有被提到"。一条 AI 回答里至少包含 4 层信息:
- 提及结构:你 / 竞品 / 都没提 / 提了但说错了
- 位置 / 顺序:被提到时排第几。位置效应在 AI 回答里非常强, 排第一往往是排第三的转化率好几倍。
- 情感与标签:AI 用了哪些形容词。 "性价比高""极速""专业""稳定""开源" —— 这些标签即是 AI 心智里你所属的格子, 也直接映射出"内容应该怎么写"。
- 引用信源:AI 把哪些链接当作论据。 被高频引用的几个站点,就是你下一步该铺内容的位置。
实现上推荐"正则粗筛 + LLM 精判"双层结构: 正则用于快速判断"提了没"和命中位置;LLM 处理情感、对比、上下文这些不能用规则解的部分。
第五步:缺口分析
到这一步,你手里已经有几百条 AI 回答的样本。把它们汇总后会看到一些规律:
- 竞品 A 在"对比型"问题里几乎每次都被提到 —— 为什么?因为它在 Reddit 上有大量自然讨论。
- 竞品 B 在"信任型"问题里赢 —— 因为它在知乎、Medium 上有几十篇评测。
- 你自己在 90% 的查询里都没出现 —— 不是因为产品不行,而是 AI 检索路径上没看到你。
这个洞察非常关键:AI 的"推荐"不是在给产品做评判,而是在汇总它能看到的内容。 看不到的产品,无论多好都不会被推荐。所以缺口分析最终落到一张表:
- 哪些信源(平台)是这个品类下 AI 最常引用的
- 哪些角度(问题类型)下你完全空白
- 哪些标签(卖点)是竞品占领、你尚未对应内容的
第六步:内容生产与分发
缺口表给出了"该写什么 / 该写在哪"。下一步是按这张表生成内容草稿。可以让 LLM 直接产出每一篇 800–1200 字的稿, 但必须人工审核后再发。两个原因:
- AI 草稿常虚构数据:看似合理实则查无实据。如果一篇文章里出现错的统计数字、 错的产品功能、错的引用,对品牌的反向打击远大于不发文。
- 批量自动发布会触发平台风控。 Reddit / 知乎 / 小红书 / Medium 都对低质量批量内容极敏感,账号轻则降权重则封禁。 即便有 API(如 Medium、LinkedIn),也不该全自动化输出。
分发优先选各 AI 引擎引用频率高的平台 —— 这一信息从第四步的"引用信源统计"可以反推。常见的高权威分发场景:
- 海外:Reddit(细分 subreddit)/ Hacker News / Medium / LinkedIn / Substack / GitHub README / Stack Exchange
- 中文:知乎专栏 + 高赞回答 / 小红书图文 / B 站长视频脚本 / 微信公众号 / 少数派 / 即刻
- 结构化数据:维基词条(如果符合收录标准)、官方文档、产品页 schema.org 标记 —— 很多模型在抓取一手信息时优先识别这一类源。