自建 GEO 监控系统：六步法

把「我有没有被 AI 提到」这件事变成可持续运转的工程闭环。每一步都讲清楚要解决的问题、最小可行设计、以及容易踩的坑。

许多人把 GEO 当成「玄学」 —— 模型怎么想没人猜得透。其实把它工程化之后，只是一个再朴素不过的反馈循环：问 AI → 看答案 → 找差距 → 补内容 → 再问 AI。本文给出一套不依赖任何特定平台、可被任何团队独立搭建的最小系统。

技术选型说明

全文示例不绑定具体厂商。"搜索引擎"可以是 Tavily / SerpAPI / Brave Search / Google Programmable Search 任一种；"分析模型"可以是 GPT / Claude / Gemini / DeepSeek / 通义 / 豆包任一种。逻辑相同，只是接口不同。

系统总览：一个闭环

整套系统由六个环节构成，每一步的输入是上一步的输出：

1. 品牌锚定 —— 告诉系统监控谁、监控的别名是什么、对标哪些竞品。
2. 用户问题构造 —— 模拟真实用户问 AI 的语言。
3. 数据采集 —— 用搜索补足模型的知识盲区，再让模型回答。
4. 答案解析 —— 提及与否、情感倾向、竞品对比。
5. 缺口分析 —— 竞品赢在哪些信源 / 哪些角度。
6. 内容生产 —— 按缺口生成草稿，人工审核，分发到对的平台。

第一步：品牌锚定

最容易被低估的一步。只填一个品牌名跑起来你会发现命中率很低 —— AI 输出里品牌的写法千差万别：大小写、缩写、空格、英文版、中文版、加不加 Inc/Pro…… 单字符串匹配会漏掉一半。

正确做法是"品牌三件套"：

品牌名 + 别名表：列出所有可能的写法。 Qiit / qiit / Qiit.com / 「Qiit」 / 一人公司助手 …… 全部进同一组规则。
竞品列表：监控竞品比监控自己更有信息量。通过看 AI 推了谁、推荐时用了哪些标签，你能反推出 AI 心目中"什么样的产品值得被推荐"。
语义近邻：除了名称匹配，再叠一层 LLM 判定"这段话是不是在说我们"。名称变体太多时（如"X 工具"），纯字符串匹配的误判率高。

一个常见反直觉

刚开始做 GEO 的人最关心"为什么 AI 不提我"。但更值得花时间的问题是："AI 在反复提哪些竞品？为什么是它们？它们的共同特征是什么？"这个清单做出来，你的内容方向就有了。

第二步：用户问题构造

要监控的不是"用户应该怎么问"，而是"用户实际怎么问"。同一个意图，问法不同，AI 的答案也不同 —— 这一步漏了，后面所有数据都是失真的。

构造问题集的几条实操路径：

翻客服与销售对话：成交前用户说的原话最真实。直接复制粘贴，胜过任何"我以为他们会这么问"。
抓社区原帖：去 Reddit / 知乎 / 小红书搜你的品类，看真实用户怎么描述自己的问题。一句"想给小公司找个便宜的设计协作工具"远比 "B2B SaaS design collaboration tool" 更接近真实查询。
搜索引擎下拉建议：在 Google / Bing 输入品类词看联想词，这些是真实用户高频搜的句式。
让 AI 替你列候选：把品牌和场景丢给 LLM，让它生成 30 条用户可能的问法，再人工过一遍。

构造时建议覆盖四种意图，因为它们触发 AI 的检索路径不同：

发现型："有没有好用的 X 工具推荐"
对比型："A 和 B 哪个更适合 X 场景"
方法型："怎么解决 X 问题"
信任型："X 这个产品靠谱吗 / 真的有用吗"

每一类问题集再分中英文两份，海外引擎和中文引擎要分开评估。

第三步：数据采集

这一步最容易被设计错。直接调 LLM API 问问题，会拿到一个被knowledge cutoff（训练截止日）限制的回答 —— 模型可能根本不知道任何近 6–12 个月内出现的产品。

正确的做法是把数据采集设计成"实时检索 + LLM 综述"两段：

第一段：调用搜索引擎 API（任何一家都行）拿到当前互联网上对该问题的相关页面。
第二段：把这些页面摘要喂给 LLM，让它"基于这些信源回答用户问题"。

这种"检索 + 生成"的结构（行业通称 RAG）和 ChatGPT Search、Perplexity 真实工作方式接近，因此你监测到的数据更逼近用户实际看到的回答。

不要只用一个引擎采样

同一问题问同一模型多次，答案都可能不同。要采集到稳定信号，建议每个问题至少跑 3–5 次，统计提及率而不是看单次结果。资源够的话，再把同一问题跨多个 LLM 采一遍，做交叉对齐。

第四步：答案解析

解析阶段不要止步于"我有没有被提到"。一条 AI 回答里至少包含 4 层信息：

提及结构：你 / 竞品 / 都没提 / 提了但说错了
位置 / 顺序：被提到时排第几。位置效应在 AI 回答里非常强，排第一往往是排第三的转化率好几倍。
情感与标签：AI 用了哪些形容词。 "性价比高""极速""专业""稳定""开源" —— 这些标签即是 AI 心智里你所属的格子，也直接映射出"内容应该怎么写"。
引用信源：AI 把哪些链接当作论据。被高频引用的几个站点，就是你下一步该铺内容的位置。

实现上推荐"正则粗筛 + LLM 精判"双层结构：正则用于快速判断"提了没"和命中位置；LLM 处理情感、对比、上下文这些不能用规则解的部分。

第五步：缺口分析

到这一步，你手里已经有几百条 AI 回答的样本。把它们汇总后会看到一些规律：

竞品 A 在"对比型"问题里几乎每次都被提到 —— 为什么？因为它在 Reddit 上有大量自然讨论。
竞品 B 在"信任型"问题里赢 —— 因为它在知乎、Medium 上有几十篇评测。
你自己在 90% 的查询里都没出现 —— 不是因为产品不行，而是 AI 检索路径上没看到你。

这个洞察非常关键：AI 的"推荐"不是在给产品做评判，而是在汇总它能看到的内容。看不到的产品，无论多好都不会被推荐。所以缺口分析最终落到一张表：

哪些信源（平台）是这个品类下 AI 最常引用的
哪些角度（问题类型）下你完全空白
哪些标签（卖点）是竞品占领、你尚未对应内容的

第六步：内容生产与分发

缺口表给出了"该写什么 / 该写在哪"。下一步是按这张表生成内容草稿。可以让 LLM 直接产出每一篇 800–1200 字的稿，但必须人工审核后再发。两个原因：

AI 草稿常虚构数据：看似合理实则查无实据。如果一篇文章里出现错的统计数字、错的产品功能、错的引用，对品牌的反向打击远大于不发文。
批量自动发布会触发平台风控。 Reddit / 知乎 / 小红书 / Medium 都对低质量批量内容极敏感，账号轻则降权重则封禁。即便有 API（如 Medium、LinkedIn），也不该全自动化输出。

分发优先选各 AI 引擎引用频率高的平台 —— 这一信息从第四步的"引用信源统计"可以反推。常见的高权威分发场景：

海外：Reddit（细分 subreddit）/ Hacker News / Medium / LinkedIn / Substack / GitHub README / Stack Exchange
中文：知乎专栏 + 高赞回答 / 小红书图文 / B 站长视频脚本 / 微信公众号 / 少数派 / 即刻
结构化数据：维基词条（如果符合收录标准）、官方文档、产品页 schema.org 标记 —— 很多模型在抓取一手信息时优先识别这一类源。

把六步做成定时任务

当系统跑通后，建议接成每周一次的定时任务：自动跑完前五步并产生缺口报告，第六步进入人工 backlog。 AI 模型版本、检索结果、竞品动作每周都在变，人为感知容易滞后两个月，自动监控则不会漏。