Elasticsearch：跨数据库与业务系统进行搜索

Elastic 中国社区官方博客

241人浏览 · 2026-05-28 11:02:03

Elastic 中国社区官方博客 · 2026-05-28 11:02:03 发布

概述

Elasticsearch 简介

Elasticsearch 提供多种搜索技术，从 BM25 开始，这是文本搜索的行业标准。它还提供由 AI 模型驱动的语义搜索，可以基于上下文与意图提升搜索结果。

在本指南中，你将学习如何将外部数据库中的数据同步到 Elasticsearch，并使用语义搜索轻松检索你的数据库。

更多有关如何安装 Elastic Stack 的信息，请参考文章《如何在 Linux，MacOS 及 Windows 上进行安装 Elasticsearch》

导入你的数据

如何进行数据摄取与增强以支持搜索

Elasticsearch 提供了丰富的数据导入能力，帮助解决你的业务问题。观看该网络研讨会可以：

学习如何将分散的数据汇聚到一个地方，从而构建搜索体验。
了解适用于不同数据类型的工具，包括 Open Crawler、连接器目录、数据与 ML 推理管道等。
观看使用客户支持数据集的实时演示。

创建 Elastic Cloud 项目

开始 14 天试用。访问 cloud.elastic.co 并创建账户后，按照以下步骤启动你的第一个 Elasticsearch Serverless 项目。

首先，选择 Elasticsearch。

创建一个通用用途的项目。将其命名为“ My project ”，然后点击“ Create project ”。

你的 Elasticsearch Serverless 项目现在将被创建。接下来，创建你的第一个 Elasticsearch 索引，并将其命名为“ my-index ”。点击 “ Create my index ”。

接下来，你可以将第三方数据源添加到 Elasticsearch。在这个示例中，我们有一个 MongoDB 数据库，包含大约 150,000 条电子游戏标题记录，以及字段“ id ”、“ name ”、“ description ”和“ date ”。我们将把这个数据库同步到 Elasticsearch，并额外为其添加语义搜索能力。

让我们创建一个基础的索引映射，字段名保持一致，并额外添加“ description_semantic ”字段，用于存储语义搜索的向量。打开 Dev Tools，并粘贴以下命令来更新你的索引映射：

PUT my-index/_mappings
{
 "properties": {
   "name": {
     "type": "text"
   },
   "description": {
     "type": "text",
     "copy_to": "description_semantic"
   },
   "description_semantic": {
       "type": "semantic_text"
   },
   "date": {
     "type": "date"
   }
 }
}

从现有数据库获取数据

你已经可以连接到一个现有数据库。点击“ Connectors ”，然后点击 “ + Self-managed connector ”。

本指南将使用 MongoDB 数据库。从 Connector type 列表中选择 MongoDB。

按照说明使用 Docker 部署一个自托管 connector。你需要创建一个 config.yml 文件。注意 connector 和 Elasticsearch 上的 api_key 是相同的。例如：

connectors:
-
  connector_id: KPIDOZUBfX6AM3jXM_g7
  service_type: mongodb
  api_key: RGZMUU9KVUJmWDZBTTNqWFRQano6R3RRb01jR2kxRkNqWTA5eGtSa3NFZw==
elasticsearch:
  host: https://my-project-cc67ad.es.us-east-1.aws.elastic.cloud:443
  api_key: RGZMUU9KVUJmWDZBTTNqWFRQano6R3RRb01jR2kxRkNqWTA5eGtSa3NFZw==

然后，使用以下命令启动自托管 connector：

docker run -v "./connectors-config:/config" --tty --rm  docker.elastic.co/enterprise-search/elastic-connectors:8.17.0 /app/bin/elastic-ingest -c /config/config.yml

接下来，将配置添加到你的 MongoDB 数据库中，然后点击 Next。

选择需要同步数据的索引——在本例中是我们之前创建的 “ my-index ”。点击 “ Sync ”。

就是这样！该 connector 将遍历数据库并把文档同步到“ my-index ”。主 Connectors 页面会显示当前状态。

Connector 也可以配置为定期将数据库同步到 Elasticsearch。为此，点击该 connector，然后点击“ Scheduling ”，选择“ every hour ”，再点击“ Save ”。现在，只要自托管 connector 运行正常，内容就会在每小时整点进行同步。

使用 Elasticsearch

查询数据

现在有趣的部分开始了。进入 Build > Dev Tools（也就是我们之前用来更新索引映射的地方），执行以下查询，该查询将在 “ name ” 和 “ description ” 字段上进行全文搜索：

GET my-index/_search
{
 "query": {
   "multi_match": {
     "query": "adventure game on a desert island",
     "fields": [
       "name",
       "description"
     ]
   }
 }
}

由于该索引现在包含 semantic_text 字段，你可以像这样进行查询：

GET my-index/_search
{
 "query": {
   "semantic": {
     "field": "description_semantic",
     "query": "game about ghosts in medieval times"
   }
 }
}

你刚刚学习了如何将外部数据库中的数据同步到 Elasticsearch，并在其之上添加语义搜索！

下一步

感谢你花时间学习如何在 Elastic Cloud 中使用 Python 构建你的第一个搜索查询。在你开启 Elastic 之旅时，了解一些在整个环境中部署时需要管理的运维、安全和数据相关组件是很重要的。

准备开始了吗？你可以在 Elastic Cloud 上启动一个免费的 14 天试用，或尝试这些关于 Search AI 101 的 15 分钟实操学习。

开始免费试用

附加资源

原文：https://www.elastic.co/getting-started/enterprise-search/search-across-business-systems-and-software

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿蒙 Flutter 实战：video_compress 3.1.4 适配 3.27-ohos 全流程

AtomGit开源社区

Java 内存模型（JMM）深度解析

在一个线程内，书写在前面的操作先行发生于书写在后面的操作。虽然 CPU 会为了性能进行指令重排，但 JMM 承诺"单线程执行结果的正确性"（即 as-if-serial 语义）。

AtomGit开源社区

DALL-E 系列模型详解

DALL-E 是 OpenAI 开发的一系列文本到图像生成模型，能够根据自然语言描述生成高质量、多样化的图像。DALL-E 的名字来源于：发展历程版本发布时间核心技术分辨率主要突破DALL-E 12021.1dVAE + Transformer256×256首次大规模文本到图像生成DALL-E 22022.4CLIP + Diffusion1024×1024照片级真实感DALL-E 32023.9