新一代AI搜索(通常称为生成式搜索对话式搜索)正在彻底改变我们获取信息的方式,也常被视为“传统搜索引擎的终结者”。

要理解它们的区别,我们可以从产品形态底层检索技术两个维度来对比。


一、核心区别:传统搜索 vs. AI搜索

用一个比喻来感受最直观的区别:

  • 传统搜索图书馆管理员:你给我关键词(书名),我给你一堆相关的书籍列表(链接),你自己去翻书找答案。

  • AI搜索私人研究助理:你用自然语言提问,他听完后,去书房(数据库/互联网)查阅大量资料,然后整理、归纳、写成一份摘要读给你听,并附上资料来源。

详细对比表

对比维度 传统搜索引擎 (Google/百度) 新一代AI搜索引擎 (Perplexity/New Bing/ChatGPT Search)
交互方式 关键词匹配:需要拆解问题,输入“2024 巴黎 奥运会 首金”。 自然语言对话:可以直接问“2024年巴黎奥运会首金是谁获得的?他是哪个项目的?”
结果呈现 蓝色链接列表:提供10条链接,用户需要逐一点击、筛选、阅读、总结。 整合式答案:直接生成一段包含答案的总结性文字,信息来自多个信源整合。
信息处理 索引与匹配:对网页内容建索引,根据关键词匹配度返回结果。 理解与生成:先检索,再理解内容,最后用大语言模型生成逻辑连贯的答案。
多轮交互 无记忆:每次搜索都是独立的,需要重新输入关键词细化。 有记忆:可以追问,如“那银牌呢?”或“他上一届的成绩如何?”,AI能理解上下文。
信源可信度 依赖用户判断:用户自己判断哪个网站权威。 提供信源:生成答案的同时,会在文末或文中标注信息来源(参考链接),但用户需警惕AI“幻觉”。
广告模式 主要靠竞价排名/展示广告 尚在探索(订阅、API调用、原生广告),目前主流AI搜索广告位较少。

二、有哪些不同的检索技术?

这是变化的核心。传统搜索依赖关键词匹配,而AI搜索依赖语义理解 + 知识整合

1. 传统搜索引擎的核心技术

传统搜索基于“倒排索引”和“链接分析”。

  • 爬虫:抓取互联网上的网页。

  • 分词与建库:将网页内容分词(如“巴黎”、“奥运会”),建立倒排索引(即一个词对应哪些网页)。

  • 检索与排序

    • BM25/TF-IDF算法:计算用户输入的关键词在网页中出现的频率和位置,进行相关性打分。

    • PageRank算法:分析网页之间的链接关系,谁的入链多、质量高,谁就更重要(权威性高)。

    • 结果:输出一个按相关性+权威性排序的URL列表。

瓶颈:它不懂语义。“苹果”是水果还是手机?如果用户只搜“苹果价格”,它无法区分是水果批发价还是iPhone售价,除非用户加了“水果”或“手机”来限定。

2. 新一代AI搜索引擎的核心技术

AI搜索的典型架构是 “检索增强生成”。简单说,就是 “先检索,后理解,再生成”

① 向量检索(语义检索)

这是最大的技术变革。

  • 原理:将用户的问题和互联网上的文档/段落,都通过嵌入模型转换成数学上的“向量”(即高维空间中的坐标点)。语义相近的内容,在空间中的距离就很近。

  • 效果

    • 搜“如何养好一株绿植”,不仅能搜到含“养好绿植”的网页,还能搜到“室内植物浇水技巧”、“盆栽施肥攻略”等语义相关的内容,即使这些页面里没有“养好绿植”这四个字。

    • 解决了“苹果”的歧义问题:通过语义向量,能根据上下文判断用户是在问水果还是手机。

② 混合检索

聪明的AI搜索不会只依赖向量检索,通常采用 “稀疏检索(关键词)+ 稠密检索(向量)”混合模式

  • 关键词匹配:保证精确命中,比如搜身份证号、特定人名,必须精准。

  • 语义匹配:召回泛化相关内容。

  • 重排序:将两种方式召回的结果混合后,用一个更精细的模型(通常也是基于深度学习的)对结果进行重新打分排序,把最靠谱的排在前面。

③ 检索增强生成

这是AI搜索的“大脑”。

  • Step 1:检索:用户提问后,系统用上述混合检索技术,从知识库或实时网页中抓取最相关的100段文本片段。

  • Step 2:注入:将这100段文本和用户的原始问题,一起“灌”给一个大语言模型(如GPT-4)。

  • Step 3:生成:指令是:“请根据我给你的这些参考资料,回答用户的问题。如果资料里没有,就说不知道。最后列出参考资料来源。”

  • 优势

    • 时效性强:大模型本身的训练数据可能截止到2023年,但检索能拿到今天的新闻

    • 减少幻觉:因为是看着资料回答的,理论上比大模型“闭卷考试”更准确。

    • 可溯源:答案有根有据,可以点开链接核实。

④ 知识图谱

AI搜索在回答关于“实体”的问题时(如人物、地点、公司),会结合知识图谱。

  • 传统用法:百度搜索一个名人,右侧会出现一个卡片,显示他的生日、职业。

  • AI用法:当你问“马斯克有多少家公司?分别是什么?”,AI不仅从新闻里检索,还会从知识图谱里调取结构化数据(“特斯拉”、“SpaceX”、“Neuralink”、“X”等),整理成表格或列表回答你。


三、总结与展望

技术维度 传统搜索引擎 新一代AI搜索引擎
理解语言的方式 关键词词频统计 语义向量 + 上下文理解
信息获取 倒排索引 向量数据库 + 知识图谱 + 实时爬虫
答案生成 检索增强生成 + 大语言模型
用户体验 你找答案 答案找你

目前AI搜索面临的挑战:

  1. 成本高昂:每次搜索都要调用大模型和向量检索,算力成本远高于传统搜索。

  2. 幻觉风险:即使有RAG,模型偶尔还是会编造不存在的信息。

  3. 内容生态:如果大家都只看AI生成的摘要,不再点击原网站,原创网站的流量就会枯竭,导致互联网内容生产的动力下降。这也是目前内容创作者和搜索引擎之间正在博弈的新问题。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐