概述

LlamaIndex 的 data_connectors(数据连接器)是构建大语言模型应用的核心组件,提供了从各种数据源读取、加载和处理数据的能力。这些连接器支持多种数据类型,包括文档、数据库、向量存储、社交媒体、云服务、代码仓库等,使开发者能够轻松地将不同来源的数据整合到 LLM 应用中。

数据连接器的主要作用是:

  • 将异构数据源统一转换为 LlamaIndex 的 Document 格式
  • 支持灵活的数据加载和过滤选项
  • 与 LlamaIndex 的索引和查询系统无缝集成
  • 提供高性能的批量数据处理能力

本培训材料涵盖了 40+ 种数据连接器的使用方法和实践案例,帮助开发者全面掌握 LlamaIndex 的数据处理能力。

培训材料列表

LlamaIndex数据连接器总览

该材料提供了所有数据连接器的整体概览,按照向量存储、文档读取器、数据库、搜索引擎、社交平台等类别进行了系统分类,是学习数据连接器的入门指南。

Simple Directory Reader - LlamaIndex文档连接器示例

该材料展示了如何使用 SimpleDirectoryReader 从目录中加载各种类型的文档。这是最基础和最常用的文档读取器,能够根据文件扩展名自动选择最佳的文件读取器,支持多种文件格式,并提供了递归加载、文件过滤、异步处理等功能。

DatabaseReader数据库连接器案例

该材料展示了如何使用 DatabaseReader 连接器从传统关系型数据库(如 PostgreSQL)中读取数据,并将其转换为可用于向量检索的文档格式。演示了通过 SQL 查询从数据库中提取特定数据,并构建向量索引以支持后续的语义搜索和问答应用。

Google AlloyDB for PostgreSQL - AlloyDBReader 案例分析

该材料演示如何使用 AlloyDBReader 类从 Google AlloyDB for PostgreSQL 数据库中检索数据并将其转换为文档格式。AlloyDB 是一个完全托管的关系型数据库服务,具有高性能、无缝集成和令人印象深刻的可扩展性,且 100% 兼容 PostgreSQL。

Google Cloud SQL for PostgreSQL - PostgresReader 案例分析

该材料展示了如何使用 PostgresReader 从 Google Cloud SQL for PostgreSQL 数据库中读取数据,支持灵活的 SQL 查询和数据转换。

Chroma Reader 案例分析

该材料介绍了 Chroma 向量存储连接器的使用方法。Chroma 是开源的嵌入式向量数据库,专为 AI 应用设计,支持本地和云端部署,提供高性能的向量检索功能。

Faiss Reader 案例

该材料展示了如何使用 Faiss 向量存储连接器。Faiss 是 Facebook 开源的高效相似性搜索和密集向量聚类库,适用于大规模向量检索场景。

MilvusReader 示例

该材料介绍了 Milvus 向量存储连接器的使用。Milvus 是开源的向量数据库,专为海量向量检索设计,支持多种索引类型和相似度计算方法。

Qdrant Reader 数据连接器示例

该材料展示了 Qdrant 向量存储连接器的使用方法。Qdrant 是高性能的向量搜索引擎,提供实时向量检索和过滤能力。

Weaviate Reader 示例

该材料介绍了 Weaviate 向量存储连接器的使用。Weaviate 是开源的向量搜索引擎,支持语义搜索和知识图谱功能。

DeepLake Reader 数据连接器完整案例

该材料展示了 DeepLake 向量存储连接器的使用。DeepLake 是为深度学习设计的多模态向量数据库,支持图像、文本、音频等多种数据类型。

DashVector Reader 案例分析

该材料介绍了 DashVector 向量存储连接器的使用方法,提供高性能的向量检索服务。

MyScale Reader 示例

该材料展示了 MyScale 向量存储连接器的使用。MyScale 是基于 ClickHouse 的向量数据库,支持 SQL 查询和向量检索。

Google Drive Reader 案例分析

该材料展示如何使用 GoogleDriveReader 从 Google Drive 中加载文件夹内容,并构建查询引擎进行文档内容分析。演示了从 Google Drive 加载指定文件夹中的所有文档、构建 SummaryIndex 对文档内容进行索引、创建查询引擎对文档内容进行自然语言查询等功能。

Google Docs Reader 案例分析

该材料展示如何使用 GoogleDocsReader 从 Google Docs 中加载文档内容,并构建查询引擎进行文档内容分析。演示了从 Google Docs 加载指定文档的内容、构建 SummaryIndex 对文档内容进行索引、创建查询引擎对文档内容进行自然语言查询等功能。

Google Sheets阅读器

该材料展示了如何从 Google Sheets 读取表格数据,并将其转换为可用于 LLM 应用的文档格式。

Google Chat Reader 案例分析

该材料展示如何使用 GoogleChatReader 从 Google Chat 中加载聊天记录,并构建查询引擎进行对话内容分析。演示了从 Google Chat 空间加载聊天历史、构建 SummaryIndex 进行对话内容总结、使用不同的过滤和排序选项处理聊天记录、按时间范围限制聊天记录的加载等功能。

Notion Reader 数据连接器示例

该材料演示如何使用 Notion Reader 连接器从 Notion 数据库和页面中读取数据,并将其转换为可用于查询的索引。通过此连接器,用户可以从指定的 Notion 页面加载数据、从整个 Notion 数据库加载所有页面数据、列出工作区中的所有数据库、构建基于 Notion 数据的查询引擎。

GithubRepositoryReader GitHub仓库读取器案例

该材料展示了如何从 GitHub 仓库读取代码文件,支持按分支、路径过滤,并可将代码内容转换为文档格式用于代码分析和问答。

Slack Reader 示例

该材料介绍了如何从 Slack 工作区读取消息和频道内容,支持时间范围过滤和消息格式化。

Twitter Reader 示例

该材料展示了如何从 Twitter 读取推文数据,支持用户时间线、搜索查询等功能。

Discord Reader 数据连接器完整案例

该材料介绍了如何从 Discord 服务器读取消息和频道内容,支持多种消息类型和格式。

MongoDB Reader 示例

该材料展示了如何从 MongoDB 数据库读取文档数据,支持灵活的查询条件和数据转换。

ObsidianReader Obsidian笔记读取器案例

该材料展示了如何从 Obsidian 笔记库读取 Markdown 文件,支持链接解析和元数据提取。

Docling Reader 案例

该材料介绍了 Docling 文档读取器的使用方法,支持多种文档格式的解析和处理。

Web页面读取器示例

该材料展示了如何从网页读取内容,支持 HTML 解析和内容提取,可用于构建基于网页知识的问答系统。

Make阅读器

该材料介绍了 Make 自动化平台的数据连接器,支持从 Make 的场景和模块中读取数据。

Mbox Reader 示例

该材料展示了如何从 Mbox 邮件格式文件中读取邮件内容,支持邮件解析和元数据提取。

其他数据连接器

目录中还包含其他多种数据连接器的示例,如 html_tag_reader、legacy_office_reader、oracleai、simple_directory_reader_parallel、simple_directory_reader_remote_fs 等,涵盖了更多数据源和使用场景。

总结

通过本培训材料的学习,读者可以掌握 LlamaIndex 数据连接器的核心概念和使用方法:

  1. 数据连接器的分类: 了解向量存储、文档读取器、数据库、搜索引擎、社交平台等不同类别的数据连接器及其应用场景。
  2. 核心功能: 掌握如何使用数据连接器从各种数据源读取数据,并将其转换为 LlamaIndex 的 Document 格式。
  3. 集成能力: 学习如何将数据连接器与 LlamaIndex 的索引系统(如 VectorStoreIndex、SummaryIndex)集成,构建强大的查询引擎。
  4. 实践应用: 通过丰富的案例学习,了解如何在实际项目中应用不同的数据连接器解决具体问题。
  5. 扩展性: 了解如何根据需要选择合适的数据连接器,以及如何自定义和扩展连接器功能。

建议学习顺序:

  1. 先阅读总览文档,了解整体架构和分类
  2. 学习基础的文档读取器(如 SimpleDirectoryReader)
  3. 掌握数据库连接器的使用
  4. 了解向量存储连接器的集成
  5. 探索云服务和社交媒体连接器
  6. 根据实际需求深入学习特定的连接器

通过系统学习这些材料,开发者可以快速掌握 LlamaIndex 的数据处理能力,构建功能强大的 LLM 应用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐