自建 GEO 监控系统:六步法

把「我有没有被 AI 提到」这件事变成可持续运转的工程闭环。每一步都讲清楚要解决的问题、最小可行设计、以及容易踩的坑。

许多人把 GEO 当成「玄学」 —— 模型怎么想没人猜得透。 其实把它工程化之后,只是一个再朴素不过的反馈循环:问 AI → 看答案 → 找差距 → 补内容 → 再问 AI。 本文给出一套不依赖任何特定平台、可被任何团队独立搭建的最小系统。

技术选型说明
全文示例不绑定具体厂商。"搜索引擎"可以是 Tavily / SerpAPI / Brave Search / Google Programmable Search 任一种;"分析模型"可以是 GPT / Claude / Gemini / DeepSeek / 通义 / 豆包 任一种。逻辑相同,只是接口不同。

系统总览:一个闭环

整套系统由六个环节构成,每一步的输入是上一步的输出:

  • 1. 品牌锚定 —— 告诉系统监控谁、监控的别名是什么、对标哪些竞品。
  • 2. 用户问题构造 —— 模拟真实用户问 AI 的语言。
  • 3. 数据采集 —— 用搜索补足模型的知识盲区,再让模型回答。
  • 4. 答案解析 —— 提及与否、情感倾向、竞品对比。
  • 5. 缺口分析 —— 竞品赢在哪些信源 / 哪些角度。
  • 6. 内容生产 —— 按缺口生成草稿,人工审核,分发到对的平台。

第一步:品牌锚定

最容易被低估的一步。只填一个品牌名跑起来你会发现命中率很低 —— AI 输出里品牌的写法千差万别:大小写、缩写、空格、英文版、中文版、加不加 Inc/Pro…… 单字符串匹配会漏掉一半。

正确做法是"品牌三件套"

  • 品牌名 + 别名表:列出所有可能的写法。 Qiit / qiit / Qiit.com / 「Qiit」 / 一人公司助手 …… 全部进同一组规则。
  • 竞品列表:监控竞品比监控自己更有信息量。 通过看 AI 推了谁、推荐时用了哪些标签,你能反推出 AI 心目中"什么样的产品值得被推荐"。
  • 语义近邻:除了名称匹配,再叠一层 LLM 判定"这段话是不是在说我们"。 名称变体太多时(如"X 工具"),纯字符串匹配的误判率高。
一个常见反直觉
刚开始做 GEO 的人最关心"为什么 AI 不提我"。但更值得花时间的问题是:"AI 在反复提哪些竞品?为什么是它们?它们的共同特征是什么?"这个清单做出来,你的内容方向就有了。

第二步:用户问题构造

要监控的不是"用户应该怎么问",而是"用户实际怎么问"。 同一个意图,问法不同,AI 的答案也不同 —— 这一步漏了,后面所有数据都是失真的。

构造问题集的几条实操路径:

  • 翻客服与销售对话:成交前用户说的原话最真实。 直接复制粘贴,胜过任何"我以为他们会这么问"。
  • 抓社区原帖:去 Reddit / 知乎 / 小红书搜你的品类, 看真实用户怎么描述自己的问题。一句"想给小公司找个便宜的设计协作工具"远比 "B2B SaaS design collaboration tool" 更接近真实查询。
  • 搜索引擎下拉建议:在 Google / Bing 输入品类词看联想词, 这些是真实用户高频搜的句式。
  • 让 AI 替你列候选:把品牌和场景丢给 LLM, 让它生成 30 条用户可能的问法,再人工过一遍。

构造时建议覆盖四种意图,因为它们触发 AI 的检索路径不同:

  • 发现型:"有没有好用的 X 工具推荐"
  • 对比型:"A 和 B 哪个更适合 X 场景"
  • 方法型:"怎么解决 X 问题"
  • 信任型:"X 这个产品靠谱吗 / 真的有用吗"

每一类问题集再分中英文两份,海外引擎和中文引擎要分开评估。

第三步:数据采集

这一步最容易被设计错。直接调 LLM API 问问题,会拿到一个被knowledge cutoff(训练截止日)限制的回答 —— 模型可能根本不知道任何近 6–12 个月内出现的产品。

正确的做法是把数据采集设计成"实时检索 + LLM 综述"两段:

  • 第一段:调用搜索引擎 API(任何一家都行)拿到当前互联网上对该问题的相关页面。
  • 第二段:把这些页面摘要喂给 LLM,让它"基于这些信源回答用户问题"。

这种"检索 + 生成"的结构(行业通称 RAG)和 ChatGPT Search、Perplexity 真实工作方式接近, 因此你监测到的数据更逼近用户实际看到的回答。

不要只用一个引擎采样
同一问题问同一模型多次,答案都可能不同。要采集到稳定信号, 建议每个问题至少跑 3–5 次,统计提及率而不是看单次结果。 资源够的话,再把同一问题跨多个 LLM 采一遍,做交叉对齐。

第四步:答案解析

解析阶段不要止步于"我有没有被提到"。一条 AI 回答里至少包含 4 层信息:

  • 提及结构:你 / 竞品 / 都没提 / 提了但说错了
  • 位置 / 顺序:被提到时排第几。位置效应在 AI 回答里非常强, 排第一往往是排第三的转化率好几倍。
  • 情感与标签:AI 用了哪些形容词。 "性价比高""极速""专业""稳定""开源" —— 这些标签即是 AI 心智里你所属的格子, 也直接映射出"内容应该怎么写"。
  • 引用信源:AI 把哪些链接当作论据。 被高频引用的几个站点,就是你下一步该铺内容的位置。

实现上推荐"正则粗筛 + LLM 精判"双层结构: 正则用于快速判断"提了没"和命中位置;LLM 处理情感、对比、上下文这些不能用规则解的部分。

第五步:缺口分析

到这一步,你手里已经有几百条 AI 回答的样本。把它们汇总后会看到一些规律:

  • 竞品 A 在"对比型"问题里几乎每次都被提到 —— 为什么?因为它在 Reddit 上有大量自然讨论。
  • 竞品 B 在"信任型"问题里赢 —— 因为它在知乎、Medium 上有几十篇评测。
  • 你自己在 90% 的查询里都没出现 —— 不是因为产品不行,而是 AI 检索路径上没看到你。

这个洞察非常关键:AI 的"推荐"不是在给产品做评判,而是在汇总它能看到的内容。 看不到的产品,无论多好都不会被推荐。所以缺口分析最终落到一张表:

  • 哪些信源(平台)是这个品类下 AI 最常引用的
  • 哪些角度(问题类型)下你完全空白
  • 哪些标签(卖点)是竞品占领、你尚未对应内容的

第六步:内容生产与分发

缺口表给出了"该写什么 / 该写在哪"。下一步是按这张表生成内容草稿。可以让 LLM 直接产出每一篇 800–1200 字的稿, 但必须人工审核后再发。两个原因:

  • AI 草稿常虚构数据:看似合理实则查无实据。如果一篇文章里出现错的统计数字、 错的产品功能、错的引用,对品牌的反向打击远大于不发文。
  • 批量自动发布会触发平台风控。 Reddit / 知乎 / 小红书 / Medium 都对低质量批量内容极敏感,账号轻则降权重则封禁。 即便有 API(如 Medium、LinkedIn),也不该全自动化输出。

分发优先选各 AI 引擎引用频率高的平台 —— 这一信息从第四步的"引用信源统计"可以反推。常见的高权威分发场景:

  • 海外:Reddit(细分 subreddit)/ Hacker News / Medium / LinkedIn / Substack / GitHub README / Stack Exchange
  • 中文:知乎专栏 + 高赞回答 / 小红书图文 / B 站长视频脚本 / 微信公众号 / 少数派 / 即刻
  • 结构化数据:维基词条(如果符合收录标准)、官方文档、产品页 schema.org 标记 —— 很多模型在抓取一手信息时优先识别这一类源。
把六步做成定时任务
当系统跑通后,建议接成每周一次的定时任务: 自动跑完前五步并产生缺口报告,第六步进入人工 backlog。 AI 模型版本、检索结果、竞品动作每周都在变,人为感知容易滞后两个月,自动监控则不会漏。