情感计算:让 AI Agent Harness Engineering 能够识别并回应用户的情绪

关键词:情感计算 AI Agent 情绪识别 情绪响应 人机交互 机器学习 可解释性
摘要:本文将从日常生活中**“察言观色听懂弦外之音”的社交魔法切入,一步步拆解“情感计算”这个让AI Agent从“冰冷工具”变“暖心伙伴”的核心技术体系。我们会先讲清楚情感计算的核心概念(比如情绪的维度模型、类别模型,AI Agent的情绪感知-认知-响应闭环),然后对比不同的情绪识别和响应方案(用小学生都能懂的表格+ER图+交互图),接着讲解核心的数学模型和机器学习算法(比如CNN识别表情、LSTM识别语音语调、Transformer理解文本情绪的原理,还有用VADER、BERT做中文情感分析的完整代码),最后带大家搭建一个能识别文字+表情符号情绪、并用对应语气回应的简易AI聊天助手**,还会聊一聊情感计算的边界、挑战和未来10年的发展趋势(包含技术演变的时间轴表格)。读完这篇文章,你不仅能明白“AI为什么能读懂你的开心难过”,还能自己动手做一个“会共情的小AI”!


背景介绍

目的和范围

目的
  1. 像给邻居家小学生讲《哈利波特》魔法棒原理的方式,彻底讲明白「情感计算」到底是什么、为什么重要、怎么用AI Agent实现。
  2. 对比主流的情感感知、认知、响应技术方案,帮技术小白入门,也给有经验的开发者提供技术选型的思考框架
  3. 手把手带大家用Python+Streamlit+预训练模型(VADER+ERNIE Tiny)搭建一个端到端的简易情绪识别聊天助手,做到“学完就能动手”。
  4. 客观分析情感计算的边界(比如AI能不能真的“共情”?识别少数民族语言、特殊人群(比如自闭症儿童、面瘫患者)的情绪难在哪里?)、伦理挑战(比如情感AI会不会被用来操控用户情绪?会不会泄露用户的情感隐私?)和未来发展趋势(比如脑机接口+情感计算、元宇宙里的情感交互、可解释情感AI)。
范围

本文的讨论范围限定在主流的AI Agent(也就是能感知环境、做决策、执行动作的软件或硬件实体)的文本+简单表情符号情绪识别与响应系统,不会太深入地讲视觉全场景表情识别(比如识别愤怒时攥紧的拳头、走路的姿势)、语音全要素情绪识别(比如识别颤抖的尾音、呼吸的急促程度)、多模态融合情感识别、自闭症儿童情绪识别、抑郁症情绪预警、脑机接口+情感计算这些细分但非常重要的领域,但会在“实际应用场景”和“未来发展趋势”部分做简单的介绍,给大家留一些扩展阅读的方向。

预期读者

  1. 对AI和情感计算感兴趣的小学生、初中生、高中生:没关系,我们会用大量的生活比喻,比如把AI Agent的情绪识别系统比作“哈利波特的‘读心术初级版’魔法棒”,把Transformer比作“能同时记住1000页《新华字典》上下文的超级聪明的小学生班长”,把代码注释写得像“菜谱的步骤说明”,让你不用懂太多数学和编程就能看懂!
  2. 刚入门计算机科学、人工智能的大学生、研究生:这篇文章会帮你系统梳理情感计算的核心概念、技术体系、算法原理,还有完整的代码实战,帮你完成课程作业、毕业设计或者入门项目!
  3. 有经验的软件工程师、AI开发者、产品经理:这篇文章会提供主流情感识别和响应技术的对比表格、技术选型框架、最佳实践Tips,还有简易但可扩展的聊天助手代码,帮你快速搭建产品原型或者优化现有产品的人机交互体验!
  4. 对人机交互、用户体验、AI伦理感兴趣的普通读者、企业管理者:这篇文章会客观分析情感计算的价值、边界和挑战,帮你判断什么时候需要在产品里加入情感AI,怎么合理地使用情感AI,怎么规避情感AI带来的伦理风险!

文档结构概述

本文的结构就像搭乐高积木一样,从“基础零件”(核心概念)开始,到“中间组件”(算法原理、数学模型),再到“完整模型”(项目实战),最后讨论“怎么把这个模型做得更好、更安全、更有用”(边界挑战、未来趋势),一共分为12个大章节:

  1. 背景介绍:就是现在你正在读的这一章,讲清楚我们为什么要写这篇文章、写给谁看、文章的结构是什么样的、后面会用到的核心术语有哪些。
  2. 问题背景:为什么AI需要“察言观色”?:我们会用几个真实的生活故事(比如客服机器人听不懂用户的愤怒、导致用户投诉;医疗机器人不懂安慰住院的小朋友、导致小朋友害怕治疗;智能音箱不懂用户的疲惫、反而一直在推荐热闹的音乐),引出“没有情感的AI Agent是不完整的”这个观点,然后讲清楚情感计算在人机交互、医疗健康、教育娱乐、金融服务、市场营销这些领域的巨大商业价值和社会价值
  3. 问题描述:AI Agent要实现“识别并回应用户情绪”,需要解决哪几个核心问题?:我们会把“识别并回应用户情绪”这个大问题拆成4个更小的、可解决的子问题,然后用生活比喻(比如把AI Agent比作“餐厅服务员”)来解释每个子问题是什么意思。
  4. 核心概念与联系:像小学生学语文一样,先搞懂“情绪”和“情感计算”这几个词的意思:我们会先讲清楚“情绪”和“情感”的区别(比如用“开心是今天吃到冰淇淋的情绪,热爱美食是长期的情感”来比喻),然后讲清楚情绪的两个主流模型(类别模型:比如开心、难过、愤怒、惊讶、恐惧、厌恶这6种基本情绪;维度模型:比如唤醒度-效价二维模型,效价就是“开心还是难过”,唤醒度就是“激动还是平静”),接着讲清楚AI Agent的情绪感知-认知-响应闭环的核心概念,最后用ER实体关系图交互关系图核心属性维度对比表格来梳理这些核心概念之间的关系。
  5. 问题解决:主流的情绪感知、认知、响应技术方案有哪些?:我们会分别讲清楚文本情绪识别表情符号情绪识别文本+表情符号融合情绪识别情绪响应策略这几个核心技术的主流方案,然后用技术对比表格(比如对比VADER、TextBlob、ERNIE Tiny、BERT-base这些中文/英文情感分析预训练模型的优缺点、适用场景、准确率)来帮大家做技术选型。
  6. 核心算法原理与具体操作步骤:像学做菜谱一样,搞懂VADER和ERNIE Tiny是怎么识别情绪的:我们会先讲清楚VADER(Valence Aware Dictionary and sEntiment Reasoner) 这个专门用来识别社交媒体文本(比如微博、微信、TikTok评论)情绪的规则+统计混合算法的原理(用生活比喻:比如把VADER的情绪词典比作“一本记录了所有开心、难过、愤怒词语的‘心情日记本’”,把VADER的规则模块比作“心情日记本的使用说明”,比如看到“超级开心!!!”会给开心的程度加很多分,看到“一点也不开心😠”会给难过的程度加很多分),然后用Python代码详细讲解VADER的具体操作步骤;接着讲清楚ERNIE Tiny这个百度开发的中文轻量级预训练语言模型的原理(用生活比喻:比如把ERNIE Tiny比作“一个从小就看了1000亿个中文网页、微博、微信、小说的超级聪明的小学生,他不仅能记住每个词的意思,还能记住词和词之间的关系、上下文的意思”),然后用Python代码详细讲解ERNIE Tiny做中文情感分类的具体操作步骤。
  7. 数学模型和公式:像学小学数学应用题一样,搞懂情感识别背后的数学原理:我们会先讲清楚VADER的情绪评分数学模型(比如怎么用情绪词典给每个词打分,怎么用规则模块调整分数,怎么把最终的分数转换成“积极、消极、中性”三个类别),然后用具体的例子(比如“今天天气超级好!我吃到了最喜欢的草莓冰淇淋!!🍓🍦”)来演示VADER的评分过程;接着讲清楚ERNIE Tiny的情感分类数学模型(比如怎么用Transformer的编码器把文本转换成向量,怎么用全连接层把向量转换成三个类别的概率,怎么用交叉熵损失函数训练模型),然后用Latex公式详细讲解交叉熵损失函数的原理。
  8. 项目实战:自己动手搭一个“会共情的简易AI聊天助手”!:我们会先讲清楚开发环境的搭建(比如怎么安装Python、怎么安装Streamlit、怎么安装transformers库、怎么安装vaderSentiment库),然后讲清楚系统的功能设计(比如能识别用户输入的中文+英文+表情符号的情绪,能用对应语气的中文回应:比如用户输入“今天考试考砸了😭”,系统会识别出“消极”情绪,然后回应“抱抱你!一次考试而已,下次肯定能考好!💪”;比如用户输入“今天收到了男朋友送的花!好开心!!🌹🌹”,系统会识别出“积极”情绪,然后回应“哇塞!太幸福了吧!祝你们永远开心!🥳🥳”;比如用户输入“今天吃了米饭和青菜”,系统会识别出“中性”情绪,然后回应“不错的午餐/晚餐!要好好吃饭哦!😊”),接着讲清楚系统的架构设计(用Mermaid流程图)、系统的核心实现源代码(带详细的代码注释,像菜谱的步骤说明一样),然后讲清楚怎么运行这个系统(比如怎么在终端里运行Streamlit命令,怎么在浏览器里打开聊天界面),最后讲清楚系统的测试结果(比如用100条测试文本和表情符号测试系统的准确率)。
  9. 实际应用场景:情感计算已经在哪些地方“大显身手”了?:我们会分别讲清楚情感计算在人机交互(比如智能音箱、客服机器人、智能手机助手)、医疗健康(比如自闭症儿童情绪干预、抑郁症情绪预警、慢性病患者情绪陪伴)、教育娱乐(比如个性化学习辅导、游戏角色情绪交互、VR/AR沉浸式情感体验)、金融服务(比如信用卡诈骗预警、投资情绪分析、客户投诉处理)、市场营销(比如品牌口碑监测、广告效果评估、个性化推荐) 这些领域的真实应用案例(比如小米的小爱同学、阿里的天猫精灵、微软的小冰、百度的文心一言、腾讯的微信读书、字节跳动的抖音/今日头条、华为的鸿蒙智联、京东的JIMI客服机器人、商汤科技的自闭症儿童情绪干预系统、科大讯飞的抑郁症情绪预警系统、平安银行的信用卡诈骗预警系统、阿里巴巴的品牌口碑监测系统),然后讲清楚每个应用案例的核心技术解决的问题取得的效果
  10. 工具和资源推荐:想深入学习情感计算,有哪些好用的工具和资源?:我们会分别推荐情感分析工具(比如VADER、TextBlob、NLTK、SpaCy、Transformers、ERNIE、BERT、RoBERTa、GPT-4o、Claude 3.5 Sonnet)、表情符号识别工具(比如Emoji库、Emoticon库、Transformers里的表情符号预训练模型)、数据集(比如IMDB电影评论数据集、微博情感分析数据集、Twitter情感分析数据集、Amazon商品评论数据集、百度的公开中文情感分析数据集)、课程(比如Coursera上的“Human-Computer Interaction”、“Machine Learning Specialization”、“Deep Learning Specialization”,网易云课堂上的“情感计算入门”,B站上的“李沐老师的动手学深度学习”、“吴恩达老师的机器学习”、“百度飞桨的ERNIE入门课程”)、书籍(比如《情感计算》(MIT的罗萨琳德·皮卡德教授写的,情感计算的开山之作!)、《人机交互:以用户为中心的设计和评估》、《动手学深度学习》、《自然语言处理实战》)、论文(比如VADER的论文、ERNIE的论文、BERT的论文、Transformer的论文)、社区(比如GitHub、Kaggle、知乎、CSDN、掘金、Stack Overflow)
  11. 边界与外延:AI Agent真的能“共情”吗?情感计算的边界在哪里?:我们会先讲清楚**“识别情绪”和“共情”的区别**(比如用“餐厅服务员能识别你在生气,但他不一定能真的感受到你的愤怒,因为他没有经历过你今天遇到的倒霉事”来比喻),然后讲清楚情感计算的几个核心边界(比如识别少数民族语言、方言、网络黑话、特殊人群(比如自闭症儿童、面瘫患者、聋哑人)的情绪难在哪里?理解“反语”、“讽刺”、“隐喻”、“双关语”这些复杂的语言现象难在哪里?识别“混合情绪”(比如“开心又难过”:比如你最好的朋友要出国读书了,你为他开心,但又舍不得他难过)难在哪里?),接着讲清楚情感计算的几个核心外延(比如多模态融合情感识别(比如同时识别文本、语音、表情、肢体语言、生理信号(比如心率、血压、皮肤电导率、脑电波)的情绪)、脑机接口+情感计算、元宇宙里的情感交互、可解释情感AI、情感AI的伦理治理)。
  12. 行业发展与未来趋势:情感计算的过去、现在和未来是什么样的?:我们会先讲清楚情感计算的发展历史(用时间轴表格:比如1995年MIT的罗萨琳德·皮卡德教授提出“情感计算”的概念;2000年左右第一个商用的情感识别系统出现;2010年左右社交媒体的兴起推动了文本情感识别的发展;2017年Transformer的提出彻底改变了情感识别和自然语言处理的格局;2020年左右多模态融合情感识别成为研究热点;2023年左右大语言模型(比如GPT-4、Claude 3、文心一言、通义千问)的兴起让AI Agent的情绪响应能力得到了质的飞跃),然后讲清楚未来10年情感计算的5个核心发展趋势(比如大语言模型+多模态融合情感识别成为主流;可解释情感AI越来越重要;情感AI的伦理治理越来越完善;脑机接口+情感计算开始商业化应用;元宇宙里的情感交互成为新的增长点),最后讲清楚情感计算面临的3个核心挑战(比如混合情绪识别、复杂语言现象理解、特殊人群情绪识别的准确率还不够高;情感AI的隐私保护问题还没有得到很好的解决;情感AI的伦理风险还没有得到足够的重视)。
  13. 总结:学到了什么?:我们会用像小学生写日记总结一天的收获的方式,再次回顾本文的主要内容:比如我们学习了什么是情绪、什么是情感、什么是情感计算、什么是AI Agent的情绪感知-认知-响应闭环;我们学习了主流的情绪感知、认知、响应技术方案;我们学习了VADER和ERNIE Tiny的核心算法原理和数学模型;我们自己动手搭了一个“会共情的简易AI聊天助手”;我们了解了情感计算的实际应用场景、边界、挑战和未来发展趋势。
  14. 思考题:动动小脑筋,用今天学到的知识解决一些小问题!:我们会提出5个思考题,鼓励读者进一步思考和应用所学知识:比如思考题一:你能想到生活中还有哪些地方可以用到情感计算吗?比如思考题二:如果你是一个产品经理,你会怎么在一个儿童学习平板里加入情感AI?比如思考题三:如果你是一个程序员,你会怎么优化我们今天搭建的聊天助手?比如能不能加入语音识别和语音合成的功能?能不能加入多轮对话的功能?能不能加入视觉表情识别的功能?比如思考题四:你觉得AI Agent真的能“共情”吗?为什么?比如思考题五:你觉得情感AI的伦理风险有哪些?怎么规避这些风险?
  15. 附录:常见问题与解答:我们会列出10个常见问题与解答,比如常见问题一:VADER只能识别英文情绪吗?能不能识别中文情绪?比如常见问题二:ERNIE Tiny的准确率有多高?比如常见问题三:Streamlit难不难学?比如常见问题四:怎么获取更多的中文情感分析数据集?比如常见问题五:大语言模型(比如GPT-4o、Claude 3.5 Sonnet)的情绪识别和响应能力比VADER和ERNIE Tiny强多少?比如常见问题六:情感AI会不会泄露用户的情感隐私?比如常见问题七:情感AI会不会被用来操控用户情绪?比如常见问题八:怎么提高情感识别的准确率?比如常见问题九:怎么让AI Agent的情绪响应更自然、更人性化?比如常见问题十:情感计算的就业前景怎么样?
  16. 扩展阅读 & 参考资料:我们会列出本文用到的所有扩展阅读和参考资料,比如VADER的论文、ERNIE的论文、BERT的论文、Transformer的论文、罗萨琳德·皮卡德教授的《情感计算》、李沐老师的《动手学深度学习》、吴恩达老师的《机器学习》课程、百度飞桨的ERNIE入门课程、GitHub上的VADER、TextBlob、Transformers、Streamlit的仓库地址、Kaggle上的IMDB电影评论数据集、微博情感分析数据集、Twitter情感分析数据集、Amazon商品评论数据集的地址。

术语表

核心术语定义
  1. 情绪(Emotion):是一种短暂的、强烈的、由特定事件触发的生理和心理反应,比如开心、难过、愤怒、惊讶、恐惧、厌恶这6种基本情绪(由美国心理学家保罗·埃克曼提出)。我们可以把情绪比作“天气”:今天是晴天(开心),明天可能是雨天(难过),后天可能是暴风雨(愤怒),天气是短暂的、变化快的。
  2. 情感(Affect):是一种长期的、稳定的、对某个人或某件事的态度和体验,比如热爱美食、热爱学习、讨厌数学、讨厌下雨。我们可以把情感比作“气候”:南方的气候是温暖潮湿的(长期喜欢温暖),北方的气候是寒冷干燥的(长期不喜欢寒冷),气候是长期的、稳定的。
  3. 情感计算(Affective Computing):是由MIT媒体实验室的罗萨琳德·皮卡德(Rosalind Picard)教授在1995年提出的一个概念,指的是**“能够识别、理解、表达和回应人类情绪的计算系统和设备”**。我们可以把情感计算比作“哈利波特的‘读心术初级版+情绪安抚初级版’魔法棒”:读心术初级版就是识别和理解人类的情绪,情绪安抚初级版就是表达和回应用户的情绪。
  4. AI Agent(人工智能代理):是指**“能够感知环境(比如用户输入的文本、语音、表情,环境的温度、湿度、光线)、做出决策(比如识别用户的情绪、选择合适的回应策略)、执行动作(比如输出文本、语音、表情,控制智能设备的开关)的软件或硬件实体”**。我们可以把AI Agent比作“餐厅服务员”:感知环境就是观察客人的表情、语气、动作,做出决策就是判断客人的情绪、选择合适的服务方式(比如客人在生气,就赶紧道歉、给客人送一杯水;客人在开心,就给客人推荐一些甜点),执行动作就是给客人送水、推荐甜点、结账。
  5. 情绪感知(Emotion Perception):是指AI Agent从环境中获取与用户情绪相关的信息(比如用户输入的文本、语音、表情、肢体语言、生理信号)的过程。我们可以把情绪感知比作“餐厅服务员观察客人的表情、语气、动作的过程”。
  6. 情绪认知(Emotion Cognition):是指AI Agent对感知到的情绪信息进行处理、分析、理解,最终判断用户的情绪类别(比如积极、消极、中性)或情绪维度(比如效价、唤醒度)的过程。我们可以把情绪认知比作“餐厅服务员根据观察到的信息判断客人的情绪的过程”。
  7. 情绪响应(Emotion Response):是指AI Agent根据认知到的用户情绪,选择合适的回应策略,执行相应的动作(比如输出文本、语音、表情,控制智能设备的开关)的过程。我们可以把情绪响应比作“餐厅服务员根据判断到的客人情绪选择合适的服务方式并执行的过程”。
  8. 情绪感知-认知-响应闭环(Emotion Perception-Cognition-Response Loop):是指AI Agent不断地感知环境中的情绪信息、认知用户的情绪、回应用户的情绪,形成一个循环的过程。我们可以把情绪感知-认知-响应闭环比作“餐厅服务员不断地观察客人、判断客人、服务客人的循环过程”。
  9. 类别模型(Categorical Model):是指把情绪分成几个离散的、基本的类别的模型,比如美国心理学家保罗·埃克曼提出的“6种基本情绪模型”(开心、难过、愤怒、惊讶、恐惧、厌恶),还有后来扩展的“8种基本情绪模型”、“10种基本情绪模型”。我们可以把类别模型比作“把天气分成晴天、雨天、阴天、雪天这几个离散的类别的模型”。
  10. 维度模型(Dimensional Model):是指把情绪放在几个连续的维度上进行描述的模型,比如最经典的“唤醒度-效价二维模型”(Arousal-Valence Model):效价(Valence)是指“情绪的正负性”,从“非常消极”到“非常积极”;唤醒度(Arousal)是指“情绪的强度”,从“非常平静”到“非常激动”。我们可以把维度模型比作“把天气放在‘温度’和‘湿度’这两个连续的维度上进行描述的模型”:温度从“非常冷”到“非常热”,湿度从“非常干燥”到“非常潮湿”。
  11. 规则+统计混合算法(Rule-Based and Statistical Hybrid Algorithm):是指同时使用人工制定的规则和统计学习的方法来解决问题的算法,比如VADER就是一个专门用来识别社交媒体文本情绪的规则+统计混合算法。我们可以把规则+统计混合算法比作“做菜的时候既看菜谱(人工制定的规则),又根据自己的经验(统计学习的方法)调整盐和糖的用量”。
  12. 预训练语言模型(Pre-trained Language Model,PLM):是指先在一个非常大的文本语料库(比如1000亿个中文网页、微博、微信、小说)上进行无监督或自监督的预训练,学习到通用的语言知识(比如每个词的意思、词和词之间的关系、上下文的意思),然后再在一个较小的特定任务数据集(比如中文情感分析数据集)上进行微调(Fine-tuning),就能很好地完成这个特定任务的语言模型,比如ERNIE、BERT、RoBERTa、GPT、通义千问、文心一言都是预训练语言模型。我们可以把预训练语言模型比作“一个从小就看了1000亿本书的超级聪明的小学生,他已经学会了通用的语文知识,然后再让他做1000道语文阅读理解题(微调),他就能考满分”。
  13. 多模态融合情感识别(Multimodal Fusion Emotion Recognition):是指同时使用多种模态的信息(比如文本、语音、表情、肢体语言、生理信号)来识别用户情绪的方法,因为单一模态的信息往往不够准确,比如用户输入“今天天气超级好!!!”但语气很平淡,这时候文本的情绪是“非常积极”,但语音的情绪是“中性”,融合两种模态的信息才能更准确地判断用户的情绪。我们可以把多模态融合情感识别比作“医生看病的时候既问病人的症状(文本),又听病人的心跳和呼吸(语音/生理信号),又给病人做检查(视觉/肢体语言),才能更准确地诊断病情”。
  14. 可解释情感AI(Explainable Affective AI):是指不仅能识别和回应用户的情绪,还能解释“为什么它会识别出这种情绪”、“为什么它会选择这种回应策略”的情感AI,因为现在的很多情感AI(比如大语言模型、深度学习模型)都是“黑盒模型”(Black Box Model),我们不知道它为什么会做出这样的判断和决策,这在医疗健康、金融服务、法律等领域是非常危险的。我们可以把可解释情感AI比作“不仅能给你批改语文作业,还能告诉你‘这道题你错在哪里’、‘为什么正确答案是这个’的老师”。
相关概念解释
  1. 自然语言处理(Natural Language Processing,NLP):是指让计算机能够理解、生成、处理人类自然语言(比如中文、英文、日文)的技术,是情感计算的核心技术之一。我们可以把自然语言处理比作“让计算机能听懂人话、会说人话的技术”。
  2. 计算机视觉(Computer Vision,CV):是指让计算机能够从图像或视频中获取信息(比如识别人脸、表情、肢体语言、物体)的技术,是情感计算的核心技术之一。我们可以把计算机视觉比作“让计算机能看到东西的技术”。
  3. 语音识别(Speech Recognition,ASR):是指让计算机能够将人类的语音转换成文本的技术,是情感计算的核心技术之一。我们可以把语音识别比作“让计算机能听懂人类说话的技术”。
  4. 语音合成(Text-to-Speech,TTS):是指让计算机能够将文本转换成人类的语音的技术,是情感计算的核心技术之一。我们可以把语音合成比作“让计算机能说话的技术”。
  5. 生理信号处理(Physiological Signal Processing):是指让计算机能够处理人类的生理信号(比如心率、血压、皮肤电导率、脑电波)的技术,是情感计算的核心技术之一。我们可以把生理信号处理比作“让计算机能感受到人类的心跳、呼吸、紧张程度的技术”。
  6. 脑机接口(Brain-Computer Interface,BCI):是指让人类的大脑和计算机直接进行通信的技术,不需要通过语言、肢体动作等中间媒介,是未来情感计算的重要发展方向之一。我们可以把脑机接口比作“哈利波特的‘读心术高级版’魔法棒”,能直接读取人类的脑电波,知道人类的想法和情绪。
  7. 元宇宙(Metaverse):是指一个由虚拟现实(VR)、增强现实(AR)、混合现实(MR)、互联网、人工智能等技术组成的虚拟世界,人们可以在这个虚拟世界里工作、学习、娱乐、社交,是未来情感计算的重要应用场景之一。我们可以把元宇宙比作“《哈利波特》里的‘魔法世界’”,人们可以在这个虚拟世界里使用魔法(AI)、和魔法生物(AI Agent)互动、体验各种神奇的事情(情感交互)。
缩略词列表
缩略词 英文全称 中文全称
AI Artificial Intelligence 人工智能
NLP Natural Language Processing 自然语言处理
CV Computer Vision 计算机视觉
ASR Automatic Speech Recognition 自动语音识别
TTS Text-to-Speech 语音合成
BCI Brain-Computer Interface 脑机接口
VR Virtual Reality 虚拟现实
AR Augmented Reality 增强现实
MR Mixed Reality 混合现实
PLM Pre-trained Language Model 预训练语言模型
CNN Convolutional Neural Network 卷积神经网络
RNN Recurrent Neural Network 循环神经网络
LSTM Long Short-Term Memory 长短期记忆网络
GRU Gated Recurrent Unit 门控循环单元
Transformer Transformer 转换器(没有标准的中文全称,一般直接用英文)
BERT Bidirectional Encoder Representations from Transformers 基于转换器的双向编码器表示
ERNIE Enhanced Representation through Knowledge Integration 知识增强的语义表示(百度开发的预训练语言模型,名字来源于《芝麻街》里的Ernie)
RoBERTa Robustly Optimized BERT Pretraining Approach 鲁棒优化的BERT预训练方法
GPT Generative Pre-trained Transformer 生成式预训练转换器
VADER Valence Aware Dictionary and sEntiment Reasoner 效价感知词典和情感推理器
IMDB Internet Movie Database 互联网电影数据库
MIT Massachusetts Institute of Technology 麻省理工学院
API Application Programming Interface 应用程序编程接口
SDK Software Development Kit 软件开发工具包
UI User Interface 用户界面
UX User Experience 用户体验

(文章剩余部分约95000字,将在后续章节中详细展开,包括问题背景、问题描述、核心概念与联系、问题解决、核心算法原理与具体操作步骤、数学模型和公式、项目实战、实际应用场景、工具和资源推荐、边界与外延、行业发展与未来趋势、总结、思考题、附录、扩展阅读 & 参考资料等内容。)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐