ICLR 2026 | MindTS：首个多模态时间序列异常检测模型

大靠山

298人浏览 · 2026-03-25 15:48:50

大靠山 · 2026-03-25 15:48:50 发布

摘要：在真实场景中，时间序列往往并不是孤立存在的，而是伴随着新闻、报告、日志等文本信息共同出现。如何充分利用这些异构模态信息，提升时间序列异常检测性能，是一个重要但极具挑战性的问题。一方面，时间序列与文本属于天然异构模态，语义难以精准对齐；另一方面，文本中的冗余信息还会干扰跨模态交互。为此，本文提出MindTS–首个多模态时间序列异常检测模型。MindTS通过细粒度时-文语义对齐，将外生文本与内生文本有效融合，实现时间序列与文本之间的精确语义匹配。进一步过滤冗余文本信息，并利用过滤后的文本重建被掩码的时间序列，从而提升异常检测效果。在 6 个真实基准上的实验结果表明，MindTS 在多模态场景下展现出持续领先的性能。

1. 引言

时间序列异常检测旨在识别显著偏离正常模式的异常事件，已经广泛应用于医疗监测、金融欺诈检测、网络入侵检测等场景。在真实世界中，数据往往不是单一模态存在的，而是同时伴随文本、图像、视频等多种异构信息。其中，文本模态尤其常见，例如金融市场中的新闻与研报、工业系统中的运行日志与事件记录等。但现有时间序列异常检测模型仍局限于单模态数值框架，没有充分利用多模态信息，因此构建多模态时间序列异常检测模型是一条自然且必要的研究路径。

然而，多模态时间序列异常检测并不是简单地把文本加进来就能解决的，目前主要面临两个关键挑战：

**第一，语义对齐困难。**时间序列和文本两者处在不同语义空间。已有工作要么直接从时间序列生成内生文本，虽然对齐自然，但语义信息局限；要么引入新闻、报告等外生文本作为补充背景知识，但这类文本与时间序列之间又难以精确建立语义对应关系。如何同时利用内生文本和外生文本，实现细粒度、精准的时-文对齐，是多模态建模的首要难题。

**第二，文本冗余干扰严重。**文本模态虽然能够提供额外语义线索，但其中常常混杂大量与当前时间序列无关的描述。若直接将整段文本与时间序列进行融合，难以突出真正有价值的信息，削弱模型的检测能力。我们认为，如何在多模态交互前先过滤掉无关文本内容，是提升异常检测效果的另一个关键。

针对上述问题，我们提出 MindTS。与简单拼接多模态信息不同，MindTS 采用语义对齐 → 信息过滤 → 跨模态交互的整体设计思路，使得多模态融合过程更有针对性，也更符合真实场景中信息丰富但噪声多的特点。

核心创新点：

多模态时间序列异常检测框架：突破传统异常检测主要依赖单模态数值输入的局限，为多模态时间序列异常检测提供了一种完整而有效的实现路径。
细粒度时-文语义对齐机制：协同利用内生文本与外生文本，同时兼顾时序动态与外部背景知识，从而缓解了已有方法中内生文本信息不足与外生文本难以对齐的双重问题。
内容压缩驱动的跨模态重建机制：利用压缩后文本重建被掩码的时间序列，有效抑制冗余信息带来的噪声干扰，增强多模态交互的有效性。

2. 模型方法

在本研究中，MindTS从跨模态视角构建异常识别机制，围绕时间序列与文本之间的语义对齐、信息过滤和交互重建展开建模。如下图所示，MindTS给定输入时间序列，我们首先对其进行实例归一化、patch 划分和时间编码，得到细粒度的时序表示。随后，每个 patch 生成对应的内生文本，并与输入的外生文本一同编码。两类文本再通过跨视图融合得到统一的文本表示，并进一步与时间表示进行多模态语义对齐。为减少文本冗余带来的干扰，对齐后的文本表示会经过内容压缩，得到更紧凑的语义表示。最后，模型利用压缩后的文本重建被掩码的时间序列，从而增强跨模态交互并实现异常检测。

2.1 细粒度多模态对齐

为了解决时间序列与文本天然处于不同语义空间、难以直接建立对应关系的问题，MindTS 设计了细粒度多模态对齐模块。这一模块的核心思路是先为每个时间 patch 生成内生文本，再结合外生文本进行跨视图融合，最后通过显式的多模态对齐策略，把语义一致的时间表示与文本表示拉近。

2.1.1 内生文本生成

直接把整段时间序列转换为自然语言，往往容易出现语义漂移和输出不稳定的问题。为此，MindTS 不再采用单一的全局描述，而是先将输入时间序列切分为多个 patch，并针对每个 patch 构造统一的提示模板（如均值、极值、趋势等），生成对应的内生文本。同时，外生文本则被视为 patch 共享的背景知识，用于补充单个时间窗口难以覆盖的上下文信息。

首先，时间序列经过 patch 划分与时间编码后，得到 patch 级时序表示：

其中，表示第个 patch，表示 patch 总数，为 patch 大小，为滑动步长。

随后，针对每个 patch 生成对应的内生文本，并通过文本编码器得到时间特异的文本表示：

其中，。与此同时，外生文本也经过同一文本编码器，得到共享的背景文本表示。

2.1.2 跨视图文本融合

仅使用内生文本虽然与时间序列对齐自然，但语义信息往往不够丰富。而仅使用外生文本虽然包含更多背景知识，却难以精确映射到具体时间窗口。为此，MindTS 进一步设计了跨视图文本融合机制：以内生文本作为查询，以外生文本作为键和值，通过跨注意力机制从外生文本中选择性提取与当前时间窗口最相关的背景信息，从而得到融合后的文本表示。该过程可以写为：

其中，为中间变量，表示融合后的文本表示。通过这一过程，模型能够将外生文本中的背景知识有选择地注入到 patch 对应的文本表示中，从而增强文本与时间序列之间的语义一致性。

2.1.3 多模态对齐

跨视图文本融合后，MindTS 引入多模态对齐策略，显式地将时间表示与文本表示映射到统一语义空间中。传统的加和或拼接方式很难真正建立语义一致性。因此，论文采用了对比学习策略，将匹配的时间—文本对作为正样本拉近，将不匹配的样本对作为负样本推远。

首先，定义时间表示与融合文本表示之间的相似度矩阵：

其中，表示时间表示与文本表示之间的相似度；当时，被视为正样本对。

在此基础上，多模态对齐损失定义为：

其中，为温度系数。

2.2 内容压缩重构

在完成细粒度时文对齐后，MindTS 进入第二个关键阶段：内容压缩重构。这一阶段目标在于解决对齐后的文本里，哪些信息真正值得保留，以及这些信息该如何用于异常检测。为此，MindTS先通过文本压缩过滤冗余语义，再通过跨模态重构让压缩后的文本参与时间序列恢复，最终以重建误差作为异常分数。

2.2.1 文本压缩

即便完成了时文对齐，文本表示中依然可能包含大量冗余信息。为此，MindTS 借鉴信息瓶颈思想，设计了内容压缩器（Content Condenser），希望在尽可能保留时序关键信息的同时，把文本表示压缩得更紧凑。其优化目标可以写为：

其中，是对齐后的文本表示，是压缩后的文本表示。第一项互信息最小化鼓励模型学到更加紧凑的文本表示，第二项重构项则保证压缩之后的文本依然保留了恢复时间序列所需的关键信息。

为了控制压缩强度，我们引入一个 Bernoulli 先验分布，并利用 KL 散度给互信息构造上界，最终得到内容压缩损失：

其中，控制压缩程度：越小，模型越倾向于保留更少的信息；越大，则保留的信息更多。

此外，我们还考虑到一个问题，如果相邻 patch 的压缩结果差异过大，会导致文本表示在时间上不连续，影响训练稳定性。为此，加入一个平滑项：

最终内容压缩模块的损失为：

2.2.2 跨模态重构

如果直接用完整时间序列加文本去做重建，由于时间序列自身已经包含大量信息，模型不需要依赖文本，从而无法充分学习跨模态交互。为了解决这个问题，MindTS 先对时间序列做随机掩码，得到被掩码的输入，再结合压缩后的文本表示共同恢复原始时间序列。具体地，跨模态重构过程写为：

其中，

表示压缩文本先经过自注意力建模，再通过交叉注意力与被掩码的时间表示交互。最终的重构损失定义为：

这一设计使得文本不再只是额外输入，而是真正参与到时间序列恢复过程之中，从而强化了跨模态交互，并推动模型学习与异常相关的判别特征。

2.2.3 优化目标

模型优化的总损失函数为：

其中，用于保证时间表示与文本表示的语义一致性，用于控制文本压缩与平滑性，则驱动压缩文本参与时间序列重建。

在推理阶段，MindTS 根据输入时间序列与其重建结果之间的均方误差来计算当前时刻的异常分数。正常模式更容易被重建，异常模式则更难被恢复，因此会产生更大的重建误差。

3. 实验

3.1 实验设置

实验使用了 6 个真实世界数据集：Weather、Energy、Environment、KR、EWJ 和 MDT。每个数据集都包含数值时间序列与对应的外生文本，用于评估模型在真实多模态场景下的异常检测能力。

在对比方法上，共选择了 17 个基线模型，覆盖四类代表性方法：一类是 LLM-based 方法，如 LLMMixer、UniTime 和 GPT4TS；一类是预训练时序模型，如 DADA、Timer 和 UniTS；一类是深度学习异常检测模型，如 ModernTCN、TimesNet、DCdetector、Anomaly Transformer、PatchTST、TranAD 和 iTransformer；还有一类是传统非学习方法，如 PCA、Isolation Forest、LODA 和 HBOS。这样的设置能够比较充分地验证 MindTS 相对于现有基线方法的优势。

评价指标方面，主要采用了一个基于标签的指标 Affiliated-F1-score (Aff-F)，以及两个基于分数的指标 VUS-PR 和 VUS-ROC。此外，附录中还进一步报告了总计 16 个评价指标下的实验结果，以更全面地验证模型性能。

3.2 多模态检测

MindTS不仅优于单模态/LLM-based基线，而且在多种基线模型扩展到多模态框架MM-TSFLib后，依然保持了明显领先的性能。充分说明了其在多模态语义建模与异常检测上的优势。

3.3 模型分析

消融实验。论文分别考察了移除外生文本、移除内生文本、去掉时文语义对齐、去掉内容压缩器、去掉跨模态重构，以及把“对齐”和“压缩”的顺序颠倒等多种变体。结果表明，移除任意一个关键模块都会带来明显性能下降。其中，去掉任一文本视角都会削弱模型性能，说明内生文本与外生文本之间具有明显的互补性。去掉时文对齐后，性能明显下降，说明语义对齐是多模态异常检测成立的前提。去掉内容压缩器也会带来显著退化。而去掉跨模态重构，则会削弱文本对时序异常判别的贡献。

异常分数可视化。论文展示了不同数据集上的原始时间序列、真实异常位置以及 MindTS 输出的异常分数。结果表明，MindTS 能够稳定地对异常片段产生明显响应。

LLM选择。为了说明模型性能提升并不依赖某个特定的大语言模型，论文还比较了 GPT2、BERT、LLAMA 和 DeepSeek 四种文本编码器配置。结果显示，MindTS 在不同 LLM 下都能保持较稳定的表现。这说明MindTS的优势主要来自架构设计本身，而不是依赖某一个特定LLM。

4. 结论

在本文中，我们提出了首个多模态时间序列异常检测模型MindTS。整体来看，MindTS 一方面融合了内生文本与外生文本两种视角的语义表示，实现了更细粒度的时文对齐。另一方面，通过内容压缩器过滤冗余文本信息，并利用压缩后的文本执行时间序列的跨模态重构，从而强化了跨模态交互能力。在6个多模态数据集上的实验表明，MindTS相比现有单模态基线和多模态时间序列框架，均取得了有竞争力甚至更优的性能。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从Java转行大模型应用，RAG使用效果评估及相关工具

1. 评估落地：优先用Ragas进行快速原型评估，量化核心质量指标与能力指标；用TruLens进行生产级全链路评估与监控，定位问题并迭代优化。2. 应用选型：个人/小团队入门用FastGPT，快速部署验证；企业级场景用RAGFlow或Dify，兼顾扩展性与协作需求；需高度自定义用纯代码开发（LangChain+评估工具）。3. 核心优化方向：围绕“上下文相关性、答案忠实度”优化检索策略（切片、向量