移动端 AI Agent Harness Engineering 的机遇与限制
移动端 AI Agent Harness Engineering 的机遇与限制
一、 引言 (Introduction)
1.1 钩子 (The Hook)
想象一个这样的清晨:你的智能手机没有响闹铃,而是根据前一晚睡眠监测(由 Wear OS 和 iOS HealthKit 联动)的数据,在你浅睡眠周期的最后1分钟自动唤醒;同时,它调用了外卖App的Agent,根据你冰箱里通过蓝牙智能秤记录的牛奶、面包剩余量——昨天面包刚买但快吃完、牛奶还剩2天保质期,订了一份全麦三明治和低脂鲜牛奶,配送时间精确匹配你洗漱+穿衣+走到楼下电梯厅取件不超过3分钟;洗漱完毕,智能镜Agent读取了你的皮肤状态(泛红、轻度熬夜),推荐了你昨天收藏但犹豫的保湿精华,同时它调用了手机金融Agent,检测到你信用卡有一张今天到期还款日但自动还款卡余额差200元,于是自动从你的另一张借记卡转账,并且同步到你的记账本Agent里;出门前,地图Agent发现你平时坐的那条地铁线今天早高峰限流延迟15分钟,于是给你规划了骑共享单车2分钟到公交站,坐直达公司但需要绕一小段的公交车,预计到达时间比原地铁还早2分钟,同时它调用了公司OA系统的Agent,给你部门主管发了一条简短的“今天地铁限流,已改公交预计早到2分钟,今天计划不变”;上班路上,耳机Agent根据你最近在学习的Python量化投资入门课,播放了你昨天没听完的LSTM预测股票收盘价的那节课,同时它检测到你通勤路上的环境噪音(路边有工地),自动切换到主动降噪模式并把语音语速调慢了10%;到公司楼下,手机发现你连接到了公司WiFi,自动进入工作模式——卸载娱乐App的快捷方式、开启勿扰模式(除了家人和紧急联系人、部门群、OA通知)、同步打开昨天未关闭的代码编辑器和钉钉会议日历Agent,日历Agent提醒你今天10点有一个关于“移动端AI隐私保护优化”的周会,10点差5分钟自动把会议链接和相关文档发送到你的钉钉群聊置顶位置;中午12点,外卖Agent提醒你楼下的轻食沙拉店有满减活动,而且今天的沙拉有你昨天收藏的牛油果鸡胸肉口味,配送员预计12点20分到,同时金融Agent帮你领了一张满40减15的优惠券,并且在你的打卡系统Agent提醒你可以午休1小时后,自动预订了会议室旁边的静音休息舱;下午下班前,地图Agent发现你平时坐的公交线今天晚高峰堵车,于是给你规划了骑共享单车到另一条地铁线,预计比原公交早15分钟到家,同时它调用了智能家居Agent,提前15分钟打开了家里的空调(调到26度)、空气净化器(调到自动模式)、热水器(调到42度);到家后,智能音箱Agent根据你今天的工作压力(通过心率监测、工作时长、勿扰模式被打断次数、代码提交失败次数综合判断),播放了你喜欢的轻音乐,同时手机金融Agent发现你今天的外卖消费满了60元,可以在你的会员中心领取一张腾讯视频的周卡,于是自动帮你领取并且同步到你的腾讯视频账号里;晚上10点,睡眠监测Agent提醒你今天的睡眠目标是7.5小时,现在该准备睡觉了,同时智能家居Agent自动关闭了客厅的灯、电视、空调,打开了卧室的夜灯、加湿器,手机自动进入睡眠模式——关闭所有通知、开启飞行模式(除了蓝牙可以连接智能手表和音箱)、播放白噪音。
你有没有想过,这样一个完全由手机本地+边缘+云端协同的、跨App的、上下文感知的、可自主决策的、个性化的AI助手,离我们还有多远?其实,它的核心技术之一,就是今天我们要讨论的——移动端 AI Agent Harness Engineering(移动端AI智能体驾驭工程)。
1.2 定义问题/阐述背景 (The “Why”)
首先,我们需要明确几个核心概念的定义(虽然详细的定义会在第二章“基础知识/背景铺垫”里展开,但这里先做一个简单的引入,方便读者理解):
- AI Agent(人工智能智能体):根据Russell和Norvig在《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)中的经典定义,AI Agent是一个能够感知环境(Perception)、通过推理(Reasoning)做出决策(Decision Making)、并通过行动(Action)作用于环境的实体。
- Harness Engineering(驾驭工程):不同于传统的“AI Agent开发”(Agent Development)——后者主要关注如何“创建”一个AI Agent,而前者主要关注如何“连接、协调、优化、部署、监控、迭代”多个AI Agent,使其能够在特定的场景下(比如移动端)高效、稳定、安全、可靠地协同工作,从而实现用户的目标。
- 移动端 AI Agent Harness Engineering:顾名思义,就是在移动端(主要是智能手机、智能手表、智能平板、智能眼镜等便携式移动设备)这个特定的计算环境下,进行的AI Agent驾驭工程。
那么,为什么我们要关注“移动端 AI Agent Harness Engineering”呢?这背后有几个非常重要的背景和原因:
- 移动端已经成为人类最重要的计算平台:根据Statista的数据,截至2024年第一季度,全球智能手机的用户数量已经超过了68亿,占全球总人口的85%以上;全球智能手表的用户数量也已经超过了10亿,预计到2028年将达到20亿。这意味着,几乎每个人每天都会接触到至少一台移动端设备,移动端设备已经成为人类连接数字世界和物理世界的最重要的“桥梁”(Bridge)和“接口”(Interface)。
- 单功能的AI工具已经无法满足用户的需求:过去几年,我们看到了很多单功能的AI工具的爆发——比如ChatGPT(文本生成)、MidJourney(图像生成)、Sora(视频生成)、GitHub Copilot(代码生成)、DALL-E 3(文本到图像生成)。这些单功能的AI工具确实非常强大,能够解决很多特定的问题,但它们之间是孤立的(Isolated),无法感知用户的上下文(Context)——比如用户的位置、时间、身份、偏好、健康状况、工作状态、设备状态、历史行为数据等,也无法跨App/跨平台协同工作——比如用户需要先在ChatGPT里生成一段文案,然后复制到MidJourney里生成图像,再复制到Canva里制作海报,最后复制到微信朋友圈里发布,这个过程非常繁琐,而且需要用户手动进行大量的操作。
- 单模态的AI工具已经无法满足用户的需求:人类的感知和交互是多模态的(Multimodal)——我们用眼睛看图像和视频、用耳朵听声音和语音、用手触摸屏幕、用嘴巴说话、用脚走路。过去的AI工具大多是单模态的——比如ChatGPT只能处理文本、MidJourney只能处理图像和文本到图像的转换、Sora只能处理文本到视频的转换。但现在,我们看到了多模态大语言模型(Multimodal Large Language Models, MLLMs)的爆发——比如GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Qwen-VL-Max、Llama 3 Multimodal。这些MLLMs能够同时处理文本、图像、视频、音频等多种模态的数据,能够理解用户的多模态输入,并且能够生成多模态的输出——比如用户可以给MLLMs看一张手机屏幕的截图,然后说“帮我打开这个App的设置界面,把通知音量调小一点”,MLLMs就可以理解用户的意图,并且直接控制手机完成这个操作。
- AI Agent已经成为AI技术发展的下一个重要方向:根据OpenAI的CEO Sam Altman的说法,“AI Agent将是AI技术发展的下一个重要里程碑”——因为AI Agent能够自主行动,不需要用户手动进行大量的操作,能够极大地提高人类的工作效率和生活质量。过去几年,我们看到了很多AI Agent的爆发——比如AutoGPT(自主任务执行Agent)、BabyAGI(基于任务分解的自主Agent)、AgentGPT(基于任务分解的自主Agent)、Microsoft 365 Copilot(跨Office应用的AI Agent)、Google Bard Extensions(跨Google应用的AI Agent)、微信豆包Agent(跨微信生态的AI Agent)。但这些AI Agent大多是基于云端的(Cloud-based),存在隐私泄露风险高(因为用户的所有数据都需要上传到云端)、延迟高(因为需要通过网络连接到云端)、成本高(因为需要调用云端的MLLMs和其他AI服务)、离线不可用(因为没有网络连接就无法工作)等问题。
- 移动端的计算能力已经足够强大,可以支持本地AI Agent的运行:过去几年,移动端的芯片技术取得了非常大的进步——比如苹果的A17 Pro、M3系列芯片,高通的骁龙8 Gen3、骁龙X Elite芯片,联发科的天玑9300+、天玑9400芯片,华为的麒麟9000S、麒麟9010芯片。这些芯片都内置了强大的神经网络处理器(Neural Processing Unit, NPU)或者图形处理器(Graphics Processing Unit, GPU),能够支持本地MLLMs(比如Llama 3 8B、Qwen 2 7B、Gemini Nano 2)的高效运行——比如苹果的A17 Pro芯片可以支持Llama 3 8B模型的推理速度达到每秒100个token以上,高通的骁龙8 Gen3芯片可以支持Llama 3 8B模型的推理速度达到每秒80个token以上。这意味着,我们已经可以在手机本地运行一个小型的AI Agent,不需要通过网络连接到云端,从而解决了云端AI Agent存在的隐私泄露风险高、延迟高、成本高、离线不可用等问题。
正是在这样的背景下,移动端 AI Agent Harness Engineering应运而生——它不仅可以帮助我们“连接、协调、优化、部署、监控、迭代”多个本地+边缘+云端协同的AI Agent,使其能够在移动端这个特定的计算环境下高效、稳定、安全、可靠地协同工作,从而实现用户的目标;而且可以帮助我们解决移动端AI Agent面临的一系列挑战和限制——比如计算资源有限、电池续航有限、存储容量有限、网络连接不稳定、隐私泄露风险高、安全威胁大、跨App/跨平台协同困难、用户信任度低等。
1.3 亮明观点/文章目标 (The “What” & “How”)
本文的核心观点是:移动端 AI Agent Harness Engineering 是一个充满机遇但也面临诸多挑战和限制的新兴领域——它有潜力彻底改变人类与移动端设备的交互方式,极大地提高人类的工作效率和生活质量,但同时也需要我们解决一系列技术、隐私、安全、伦理、法律等方面的问题。
读完这篇文章,你将能够学到以下内容:
- 基础知识/背景铺垫:什么是AI Agent?什么是Harness Engineering?什么是移动端AI Agent?移动端AI Agent与云端AI Agent有什么区别?什么是本地+边缘+云端协同的AI Agent架构?
- 核心内容/实战演练:如何从零开始,构建一个本地+边缘+云端协同的移动端AI Agent Harness?包括环境安装、系统功能设计、系统架构设计、系统接口设计、系统核心实现源代码等。
- 进阶探讨/最佳实践:移动端AI Agent Harness Engineering面临哪些挑战和限制?如何解决这些挑战和限制?有哪些常见的陷阱和避坑指南?有哪些性能优化、成本考量、隐私保护、安全防护的最佳实践?
- 行业发展与未来趋势:移动端AI Agent Harness Engineering的发展历史是什么?未来的发展趋势是什么?有哪些关键技术需要突破?
- 结论:本文的核心要点是什么?移动端AI Agent Harness Engineering的未来展望是什么?读者可以做什么?
为了帮助读者更好地理解和掌握这些内容,本文将采用以下方式进行组织:
- 循序渐进的讲解方式:从基础知识/背景铺垫开始,逐步深入到核心内容/实战演练,再到进阶探讨/最佳实践,最后到行业发展与未来趋势和结论。
- 丰富的示例和案例:在讲解核心概念和技术的时候,会结合大量的示例和案例,帮助读者更好地理解和掌握。
- 清晰的代码块、截图和图表:在讲解核心实现的时候,会配上清晰的Python源代码、Swift源代码、Kotlin源代码、截图和图表,帮助读者更好地理解和掌握。
- 详细的数学模型和算法流程图:在讲解核心算法的时候,会配上详细的Latex数学公式和Mermaid算法流程图,帮助读者更好地理解和掌握。
- 全面的概念对比和ER实体关系图:在讲解核心概念之间的关系的时候,会配上全面的Markdown表格和Mermaid ER实体关系图、交互关系图,帮助读者更好地理解和掌握。
二、 基础知识/背景铺垫 (Foundational Concepts)
2.1 核心概念定义
2.1.1 AI Agent(人工智能智能体)
要理解什么是AI Agent,我们首先需要回到Russell和Norvig在《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)中的经典定义——这是AI领域最权威、最广泛接受的AI Agent定义之一。
Russell和Norvig的经典AI Agent定义:
An AI agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators.
翻译成中文就是:
AI Agent是任何可以被视为通过传感器感知其环境并通过执行器作用于该环境的实体。
为了帮助读者更好地理解这个定义,我们可以将其分解为以下几个核心要素:
- 实体(Entity):AI Agent可以是任何形式的实体——比如软件程序(比如AutoGPT、Microsoft 365 Copilot)、硬件机器人(比如波士顿动力的Spot机器人、小米的CyberOne机器人)、或者软件和硬件的结合体(比如智能手机、智能手表、智能眼镜)。
- 感知环境(Perception):AI Agent需要通过**传感器(Sensors)**来感知其环境——对于软件Agent来说,传感器可以是API调用、网络请求、文件系统读取、数据库查询、用户输入(比如文本、图像、视频、音频、触摸、语音、手势)等;对于硬件机器人来说,传感器可以是摄像头、麦克风、GPS、陀螺仪、加速度计、温度传感器、湿度传感器、压力传感器等。
- 推理(Reasoning):AI Agent需要根据感知到的环境信息,通过推理算法来做出决策——推理算法可以是基于规则的(Rule-based)、基于搜索的(Search-based)、基于概率的(Probabilistic)、基于机器学习的(Machine Learning-based)、或者基于深度学习的(Deep Learning-based)。
- 决策(Decision Making):AI Agent需要根据推理的结果,选择一个最佳的行动来作用于环境——最佳行动的选择标准可以是最大化预期效用(Maximizing Expected Utility)、最小化成本(Minimizing Cost)、满足约束条件(Satisfying Constraints)等。
- 作用于环境(Action):AI Agent需要通过**执行器(Actuators)**来作用于环境——对于软件Agent来说,执行器可以是API调用、网络请求、文件系统写入、数据库更新、用户界面输出(比如文本、图像、视频、音频、通知)等;对于硬件机器人来说,执行器可以是电机、液压系统、气动系统、机械臂、轮子、扬声器、显示屏等。
除了Russell和Norvig的经典定义之外,还有很多其他的AI Agent定义——比如OpenAI的定义、Google DeepMind的定义、Meta的定义。这些定义虽然略有不同,但都包含了Russell和Norvig的经典定义的核心要素——感知、推理、决策、行动。
OpenAI的AI Agent定义:
An AI agent is a system that uses a large language model (LLM) as its core controller, and is capable of autonomously performing tasks by interacting with its environment—including humans, other agents, and software tools.
翻译成中文就是:
AI Agent是一个以大语言模型(LLM)为核心控制器的系统,能够通过与环境(包括人类、其他Agent和软件工具)交互自主执行任务。
Google DeepMind的AI Agent定义:
An AI agent is a learning system that interacts with its environment over time, receiving rewards for its actions, and updating its policy to maximize the cumulative reward.
翻译成中文就是:
AI Agent是一个学习系统,它随着时间的推移与环境交互,为其行动接收奖励,并更新其策略以最大化累积奖励。
为了进一步帮助读者理解AI Agent的核心要素,我们可以用一个简单的示例来说明——比如一个智能扫地机器人:
- 实体:智能扫地机器人(软件和硬件的结合体)。
- 感知环境:通过摄像头、激光雷达、陀螺仪、加速度计、碰撞传感器、灰尘传感器等传感器来感知环境——比如房间的布局、障碍物的位置、灰尘的多少、电池的剩余电量等。
- 推理:根据感知到的环境信息,通过推理算法来做出决策——比如房间的哪个区域还没有清扫、如何避开障碍物、什么时候需要返回充电等。
- 决策:选择一个最佳的行动来作用于环境——比如先清扫客厅的沙发下面,然后再清扫卧室的床下面,避开桌子和椅子,当电池剩余电量低于20%的时候返回充电。
- 作用于环境:通过轮子、刷子、吸尘器、扬声器等执行器来作用于环境——比如移动到指定的位置、清扫地面、吸收灰尘、播放“请让开,我要清扫”的提示音、当清扫完成或者电池剩余电量低的时候播放提示音。
接下来,我们可以根据AI Agent的智能程度(Intelligence Level)、感知范围(Perception Range)、行动范围(Action Range)、推理能力(Reasoning Ability)、自主程度(Autonomy Level)等维度,将AI Agent分为以下几种类型:
- 简单反射型Agent(Simple Reflex Agent):最简单的AI Agent类型,它只根据当前的感知信息(Current Percept)来做出决策,不考虑历史感知信息(Historical Percept)和未来的预期(Future Expectations)。它的决策规则是:“如果感知到X,那么执行Y”(If X, Then Y)。例如:一个简单的智能台灯——如果感知到周围的光线太暗,那么就打开灯;如果感知到周围的光线太亮,那么就关闭灯。
- 基于模型的反射型Agent(Model-Based Reflex Agent):在简单反射型Agent的基础上,增加了一个内部模型(Internal Model)——用来存储历史感知信息和环境的状态(State of the Environment)。它的决策规则是:“如果当前的感知信息是X,并且环境的状态是S,那么执行Y”(If X And S, Then Y)。例如:一个基于模型的智能扫地机器人——它的内部模型存储了房间的布局、已经清扫过的区域、障碍物的位置等环境状态,它根据当前的感知信息(比如当前的位置、周围是否有障碍物)和内部模型存储的环境状态来做出决策。
- 基于目标的Agent(Goal-Based Agent):在基于模型的反射型Agent的基础上,增加了一个目标(Goal)——用来指导Agent的决策和行动。它的决策规则是:“选择能够帮助我实现目标的行动”(Choose Actions That Help Me Achieve My Goal)。例如:一个基于目标的智能导航Agent——它的目标是“从家到公司,花费最少的时间”,它根据当前的位置、交通状况、历史导航数据等信息,选择能够帮助它实现目标的最佳路线。
- 基于效用的Agent(Utility-Based Agent):在基于目标的Agent的基础上,增加了一个效用函数(Utility Function)——用来量化每个可能的行动或者状态的“好坏程度”(Goodness)。它的决策规则是:“选择能够最大化预期效用的行动”(Choose Actions That Maximize Expected Utility)。例如:一个基于效用的智能投资Agent——它的效用函数是“最大化预期收益,同时最小化风险”,它根据当前的股票市场状况、历史股票数据、用户的风险偏好等信息,选择能够帮助它最大化预期效用的最佳投资组合。
- 学习型Agent(Learning Agent):最智能的AI Agent类型,它不仅能够感知环境、做出决策、作用于环境,还能够从经验中学习(Learn From Experience),不断改进自己的性能。它的核心组件包括:
- 学习元件(Learning Element):负责从经验中学习,更新Agent的知识和策略。
- 性能元件(Performance Element):负责感知环境、做出决策、作用于环境——也就是前面四种类型的Agent的核心组件。
- 评判元件(Critic Element):负责根据Agent的行动和环境的反馈,给学习元件提供奖励信号(Reward Signal)或者惩罚信号(Punishment Signal)。
- 问题生成器(Problem Generator):负责给性能元件生成新的问题或者任务,帮助Agent探索新的环境和经验,从而不断改进自己的性能。
例如:一个学习型的智能围棋Agent(比如AlphaGo)——它的学习元件通过强化学习(Reinforcement Learning)和自我对弈(Self-Play)从经验中学习,不断更新自己的策略;它的性能元件负责感知棋盘的状态、做出下棋的决策、作用于棋盘;它的评判元件根据下棋的结果(赢或者输)给学习元件提供奖励信号或者惩罚信号;它的问题生成器负责给性能元件生成新的自我对弈任务,帮助Agent探索新的下棋策略。
2.1.2 Harness Engineering(驾驭工程)
要理解什么是Harness Engineering,我们首先需要明确“Harness”这个词的含义——在英语中,“Harness”这个词有多个含义,其中最常见的含义是“马具”(用来控制马的行动的设备)、“安全带”(用来保护人或者物体的安全的设备)、“利用”(利用某种资源或者技术来实现某个目标)。
在软件工程和人工智能领域,“Harness”这个词通常被翻译为“驾驭”或者“ harness”——它的含义是“连接、协调、优化、部署、监控、迭代多个组件或者系统,使其能够在特定的环境下高效、稳定、安全、可靠地协同工作,从而实现用户的目标”。
那么,什么是“Harness Engineering(驾驭工程)”呢?目前,软件工程和人工智能领域还没有一个非常权威、非常广泛接受的“Harness Engineering”的定义——但我们可以根据“Harness”这个词的含义,结合软件工程和人工智能领域的实践,给出一个初步的定义:
Harness Engineering(驾驭工程)的初步定义:
Harness Engineering is a sub-discipline of software engineering and artificial intelligence that focuses on the design, development, deployment, monitoring, maintenance, and iteration of harnesses—which are systems that connect, orchestrate, optimize, secure, and manage multiple heterogeneous components or systems (including software agents, hardware devices, APIs, databases, cloud services, etc.) to work together efficiently, reliably, securely, and cost-effectively in a specific environment to achieve a user’s or organization’s goals.
翻译成中文就是:
驾驭工程是软件工程和人工智能的一个子学科,它专注于harness(驾驭系统)的设计、开发、部署、监控、维护和迭代——harness是一个连接、编排、优化、保护和管理多个异构组件或系统(包括软件Agent、硬件设备、API、数据库、云服务等)的系统,使其能够在特定的环境下高效、可靠、安全、经济地协同工作,从而实现用户或组织的目标。
为了帮助读者更好地理解这个定义,我们可以将其分解为以下几个核心要素:
- 子学科(Sub-discipline):Harness Engineering是软件工程和人工智能的一个子学科——它结合了软件工程的理论和实践(比如系统设计、软件开发、部署、监控、维护、迭代),以及人工智能的理论和实践(比如Agent设计、机器学习、深度学习、强化学习)。
- Harness(驾驭系统):Harness Engineering的核心产物是Harness——也就是连接、协调、优化、部署、监控、迭代多个异构组件或系统的系统。
- 异构组件或系统(Heterogeneous Components or Systems):Harness需要连接、协调、优化、部署、监控、迭代的组件或系统是异构的——也就是说,它们可能具有不同的编程语言、不同的操作系统、不同的硬件平台、不同的API接口、不同的通信协议、不同的性能指标、不同的安全要求等。例如:Harness可能需要连接一个用Python开发的本地AI Agent、一个用Swift开发的iOS App、一个用Kotlin开发的Android App、一个用Java开发的云端API、一个用MySQL开发的数据库、一个用AWS Lambda开发的Serverless函数、一个用苹果A17 Pro芯片开发的本地NPU服务、一个用高通骁龙8 Gen3芯片开发的本地GPU服务等。
- 连接(Connect):Harness需要能够连接多个异构组件或系统——也就是说,它需要能够处理不同的API接口、不同的通信协议(比如HTTP/HTTPS、WebSocket、MQTT、gRPC、蓝牙、Wi-Fi、NFC等)、不同的数据格式(比如JSON、XML、YAML、Protobuf、Avro等)。
- 编排(Orchestrate):Harness需要能够编排多个异构组件或系统的工作流程——也就是说,它需要能够根据用户的目标或者任务,确定多个异构组件或系统的执行顺序、执行条件、执行参数、执行失败的处理方式等。例如:Harness可能需要编排一个“从家到公司的智能导航”的工作流程——首先调用位置服务获取用户的当前位置,然后调用地图服务获取最佳路线,然后调用交通服务获取实时交通状况,然后根据实时交通状况调整最佳路线,最后将调整后的最佳路线显示在用户的手机屏幕上。
- 优化(Optimize):Harness需要能够优化多个异构组件或系统的性能、成本、资源利用率等——也就是说,它需要能够根据特定的环境(比如移动端的计算资源有限、电池续航有限、存储容量有限、网络连接不稳定),选择最佳的组件或系统、最佳的执行方式、最佳的资源分配方式等。例如:Harness可能需要根据用户的网络连接状况——如果用户的网络连接状况很好(比如5G或者Wi-Fi 6),那么就调用云端的MLLMs服务;如果用户的网络连接状况不好(比如2G或者3G),或者用户处于离线状态,那么就调用本地的MLLMs服务;如果用户的网络连接状况一般(比如4G),那么就调用边缘的MLLMs服务。
- 保护(Secure):Harness需要能够保护多个异构组件或系统的安全、隐私、数据完整性等——也就是说,它需要能够处理不同的安全要求、不同的隐私保护要求(比如GDPR、CCPA、个人信息保护法等)、不同的数据加密方式(比如对称加密、非对称加密、哈希函数等)、不同的身份认证方式(比如密码、指纹、面部识别、虹膜识别、声纹识别等)、不同的授权方式(比如OAuth 2.0、OpenID Connect、SAML等)。
- 管理(Manage):Harness需要能够管理多个异构组件或系统的生命周期——也就是说,它需要能够处理组件或系统的部署、升级、降级、卸载、监控、维护、迭代等。
- 特定的环境(Specific Environment):Harness需要在特定的环境下工作——比如移动端、桌面端、云端、边缘端、物联网端等。不同的环境有不同的特点和限制——比如移动端的计算资源有限、电池续航有限、存储容量有限、网络连接不稳定;云端的计算资源无限、电池续航无限、存储容量无限、网络连接稳定;边缘端的计算资源介于移动端和云端之间、电池续航有限、存储容量有限、网络连接状况一般。
- 用户或组织的目标(User’s or Organization’s Goals):Harness的最终目标是实现用户或组织的目标——比如提高用户的工作效率和生活质量、降低组织的运营成本、提高组织的竞争力等。
为了进一步帮助读者理解Harness Engineering的核心要素,我们可以用一个简单的示例来说明——比如一个智能汽车的Harness:
- 子学科:结合了软件工程(比如汽车软件的设计、开发、部署、监控、维护、迭代)和人工智能(比如智能驾驶Agent的设计、机器学习、深度学习、强化学习)。
- Harness(驾驭系统):智能汽车的中央控制系统——也就是连接、协调、优化、部署、监控、迭代多个异构组件或系统的系统。
- 异构组件或系统:智能驾驶Agent(感知环境、做出决策、作用于环境)、发动机控制系统、变速箱控制系统、刹车控制系统、转向控制系统、娱乐系统、导航系统、通信系统、电池管理系统(如果是电动汽车)、传感器系统(摄像头、激光雷达、毫米波雷达、超声波雷达、GPS、陀螺仪、加速度计、温度传感器、湿度传感器、压力传感器等)、执行器系统(电机、液压系统、气动系统、机械臂、轮子、扬声器、显示屏等)。
- 连接:中央控制系统通过CAN总线、LIN总线、FlexRay总线、以太网总线等通信协议连接多个异构组件或系统,处理不同的API接口、不同的数据格式。
- 编排:中央控制系统根据用户的目标(比如“从家到公司,自动驾驶”)或者任务,确定多个异构组件或系统的执行顺序、执行条件、执行参数、执行失败的处理方式——比如首先调用传感器系统感知环境,然后调用智能驾驶Agent做出决策,然后调用发动机控制系统、变速箱控制系统、刹车控制系统、转向控制系统执行决策,如果某个组件或系统执行失败,那么就调用备用组件或系统执行,或者通知用户接管驾驶。
- 优化:中央控制系统根据特定的环境(比如道路状况、交通状况、天气状况、电池剩余电量等),选择最佳的组件或系统、最佳的执行方式、最佳的资源分配方式——比如如果是高速公路,那么就开启自适应巡航控制(ACC)和车道保持辅助(LKA);如果是城市道路,那么就开启自动泊车辅助(APA)和自动紧急制动(AEB);如果是电动汽车,那么就根据电池剩余电量调整行驶速度和空调温度,以最大化续航里程。
- 保护:中央控制系统保护多个异构组件或系统的安全、隐私、数据完整性等——比如通过数据加密方式保护用户的位置数据、驾驶数据等隐私数据;通过身份认证方式(比如指纹、面部识别)验证用户的身份;通过授权方式控制不同用户对不同组件或系统的访问权限;通过防火墙、入侵检测系统(IDS)、入侵防御系统(IPS)等保护智能汽车免受黑客攻击。
- 管理:中央控制系统管理多个异构组件或系统的生命周期——比如通过OTA(Over-the-Air)技术部署、升级、降级组件或系统;通过监控系统监控组件或系统的性能、状态、故障等;通过维护系统定期维护组件或系统;通过迭代系统不断改进组件或系统的性能。
- 特定的环境:道路环境——包括高速公路、城市道路、乡村道路、停车场等。
- 用户或组织的目标:实现用户的目标——比如“从家到公司,自动驾驶,安全、舒适、经济”;实现组织的目标——比如“提高智能汽车的销量、降低智能汽车的运营成本、提高智能汽车的竞争力”。
2.1.3 移动端 AI Agent(Mobile AI Agent)
要理解什么是移动端AI Agent,我们首先需要明确“移动端”这个词的含义——在本文中,“移动端”主要指便携式移动设备(Portable Mobile Devices),包括但不限于:
- 智能手机(Smartphones):比如苹果的iPhone、三星的Galaxy S系列、小米的Xiaomi系列、华为的Mate系列和P系列等。
- 智能手表(Smartwatches):比如苹果的Apple Watch、三星的Galaxy Watch系列、小米的Xiaomi Watch系列、华为的Watch系列等。
- 智能平板(Tablets):比如苹果的iPad、三星的Galaxy Tab系列、小米的Xiaomi Pad系列、华为的MatePad系列等。
- 智能眼镜(Smart Glasses):比如苹果的Vision Pro、Meta的Quest系列、微软的HoloLens系列、谷歌的Google Glass系列等。
- 智能耳机(Smart Earbuds):比如苹果的AirPods Pro、三星的Galaxy Buds系列、小米的Xiaomi Buds系列、华为的FreeBuds系列等。
- 智能手环(Smart Bands):比如小米的Xiaomi Band系列、华为的Band系列、Fitbit的Charge系列等。
接下来,我们可以结合前面的AI Agent的定义和移动端的特点,给出一个移动端AI Agent的定义:
移动端 AI Agent(Mobile AI Agent)的定义:
A Mobile AI Agent is an AI Agent that runs on a portable mobile device (such as a smartphone, smartwatch, tablet, smart glasses, etc.), is capable of perceiving the mobile environment (including the device’s state, the user’s state, the physical environment’s state, the digital environment’s state, etc.) through mobile sensors, reasoning and making decisions using the mobile device’s computing resources (such as CPU, GPU, NPU, etc.) or cloud/edge computing resources, and acting upon the mobile environment through mobile actuators (such as the device’s screen, speaker, microphone, camera, vibration motor, Bluetooth, Wi-Fi, NFC, etc.) or cloud/edge services.
翻译成中文就是:
移动端AI Agent是一个运行在便携式移动设备(比如智能手机、智能手表、智能平板、智能眼镜等)上的AI Agent,它能够通过移动传感器感知移动环境(包括设备状态、用户状态、物理环境状态、数字环境状态等),利用移动设备的计算资源(比如CPU、GPU、NPU等)或云端/边缘计算资源进行推理和决策,并通过移动执行器(比如设备的屏幕、扬声器、麦克风、摄像头、振动马达、蓝牙、Wi-Fi、NFC等)或云端/边缘服务作用于移动环境。
为了帮助读者更好地理解这个定义,我们可以将其分解为以下几个核心要素——这些核心要素是移动端AI Agent与云端AI Agent、桌面端AI Agent的主要区别:
- 运行环境(Runtime Environment):移动端AI Agent运行在便携式移动设备上——这意味着它的运行环境受到移动设备的硬件限制(比如计算资源有限、电池续航有限、存储容量有限)和软件限制(比如操作系统的限制、App Store的限制、权限的限制)。
- 感知环境(Perception Environment):移动端AI Agent感知的环境是移动环境——这意味着它感知的环境信息是动态的、多模态的、上下文丰富的(包括设备状态、用户状态、物理环境状态、数字环境状态等)。
- 设备状态(Device State):比如设备的型号、操作系统的版本、CPU的使用率、GPU的使用率、NPU的使用率、电池的剩余电量、电池的充电状态、存储的剩余容量、网络连接状态(比如5G、4G、3G、2G、Wi-Fi 6、Wi-Fi 5、Wi-Fi 4、蓝牙、NFC、离线)、网络连接速度、屏幕的亮度、屏幕的状态(比如亮屏、息屏、锁屏)、音量的大小、振动的状态等。
- 用户状态(User State):比如用户的身份、用户的位置、用户的移动速度、用户的移动方向、用户的姿态(比如站立、坐着、躺着、走路、跑步、骑车、开车)、用户的健康状况(比如心率、血压、血糖、血氧饱和度、睡眠质量、压力水平)、用户的工作状态(比如工作中、休息中、开会中、通勤中)、用户的情绪状态(比如开心、难过、生气、焦虑、平静)、用户的偏好(比如喜欢的音乐、喜欢的电影、喜欢的食物、喜欢的颜色、喜欢的交通方式)、用户的历史行为数据(比如浏览记录、搜索记录、购买记录、聊天记录、通话记录、导航记录、运动记录、睡眠记录)等。
- 物理环境状态(Physical Environment State):比如周围的光线强度、周围的温度、周围的湿度、周围的气压、周围的噪音强度、周围的空气质量、周围的天气状况(比如晴天、阴天、雨天、雪天、雾天)、周围的交通状况(比如拥堵、畅通、缓行)、周围的场所(比如家、公司、学校、商场、医院、公园、地铁站、公交站)等。
- 数字环境状态(Digital Environment State):比如当前打开的App、当前打开的网页、当前收到的通知、当前的消息、当前的邮件、当前的日历事件、当前的任务、当前的文件、当前的数据库记录、当前的云服务状态等。
- 感知方式(Perception Method):移动端AI Agent通过移动传感器感知移动环境——移动设备通常内置了大量的传感器,这些传感器可以分为以下几种类型:
- 位置传感器(Position Sensors):比如GPS、北斗、GLONASS、Galileo、QZSS、Wi-Fi定位、蓝牙定位、NFC定位、蜂窝网络定位等。
- 运动传感器(Motion Sensors):比如加速度计、陀螺仪、磁力计、重力传感器、线性加速度传感器、旋转矢量传感器、方向传感器等。
- 环境传感器(Environmental Sensors):比如光线传感器、温度传感器、湿度传感器、气压传感器、噪音传感器、空气质量传感器等。
- 生物识别传感器(Biometric Sensors):比如指纹传感器、面部识别传感器、虹膜识别传感器、声纹识别传感器、心率传感器、血氧饱和度传感器、血糖传感器、血压传感器等。
- 输入传感器(Input Sensors):比如触摸屏、键盘、鼠标、麦克风、摄像头、手势传感器、眼球追踪传感器等。
- 计算资源(Computing Resources):移动端AI Agent可以利用移动设备的本地计算资源(比如CPU、GPU、NPU等)或云端/边缘计算资源进行推理和决策——这意味着我们可以根据特定的环境(比如网络连接状况、电池剩余电量、计算资源的使用率、任务的复杂度、隐私保护的要求等),选择最佳的计算资源分配方式——也就是我们常说的本地+边缘+云端协同的计算架构(Local-Edge-Cloud Collaborative Computing Architecture)。
- 本地计算资源(Local Computing Resources):移动设备的本地计算资源——比如CPU、GPU、NPU等。本地计算资源的优点是:隐私泄露风险低(因为用户的所有数据都不需要上传到云端)、延迟低(因为不需要通过网络连接到云端)、成本低(因为不需要调用云端的AI服务)、离线可用(因为没有网络连接就无法工作)。本地计算资源的缺点是:计算资源有限(比如只能支持小型的MLLMs的运行,比如Llama 3 8B、Qwen 2 7B、Gemini Nano 2)、电池续航消耗大(因为本地计算需要消耗大量的电池电量)、存储容量有限(因为需要存储小型的MLLMs的模型文件)。
- 边缘计算资源(Edge Computing Resources):位于移动设备和云端之间的边缘节点的计算资源——比如基站、路由器、交换机、CDN节点、边缘服务器等。边缘计算资源的优点是:隐私泄露风险较低(因为用户的数据只需要上传到边缘节点,不需要上传到云端)、延迟较低(因为边缘节点离移动设备更近)、成本较低(因为边缘节点的AI服务的调用费用比云端的AI服务的调用费用低)、网络连接状况一般的时候也可以工作。边缘计算资源的缺点是:计算资源介于移动端和云端之间(比如只能支持中型的MLLMs的运行,比如Llama 3 70B、Qwen 2 72B的量化版本)、电池续航消耗较小(但比本地计算资源的消耗大)、存储容量介于移动端和云端之间(因为需要存储中型的MLLMs的模型文件)。
- 云端计算资源(Cloud Computing Resources):位于云端的云服务器的计算资源——比如AWS的EC2、GCP的Compute Engine、Azure的Virtual Machines、阿里云的ECS、腾讯云的CVM等。云端计算资源的优点是:计算资源无限(比如可以支持大型的MLLMs的运行,比如GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Qwen-VL-Max)、电池续航消耗小(因为不需要消耗移动设备的本地计算资源)、存储容量无限(因为不需要存储大型的MLLMs的模型文件)、可以支持复杂的任务。云端计算资源的缺点是:隐私泄露风险高(因为用户的所有数据都需要上传到云端)、延迟高(因为需要通过网络连接到云端)、成本高(因为需要调用云端的AI服务)、离线不可用(因为没有网络连接就无法工作)、网络连接不稳定的时候会影响性能。
- 执行方式(Action Method):移动端AI Agent通过移动执行器或云端/边缘服务作用于移动环境——移动设备通常内置了大量的执行器,这些执行器可以分为以下几种类型:
- 输出执行器(Output Actuators):比如屏幕、扬声器、振动马达、LED灯等。
- 通信执行器(Communication Actuators):比如蓝牙、Wi-Fi、NFC、蜂窝网络、GPS等。
- 控制执行器(Control Actuators):比如控制其他App的API调用、控制其他硬件设备的API调用(比如智能家居设备、智能汽车、智能电视等)、控制云端/边缘服务的API调用等。
为了进一步帮助读者理解移动端AI Agent的核心要素,我们可以用一个简单的示例来说明——比如一个智能手机上的智能个人助理Agent(比如苹果的Siri、谷歌的Google Assistant、三星的Bixby、小米的小爱同学、华为的小艺、百度的文心一言App、阿里的通义千问App、腾讯的微信豆包App):
- 运行环境:运行在智能手机上——受到智能手机的硬件限制(比如计算资源有限、电池续航有限、存储容量有限)和软件限制(比如iOS的App Store的限制、Android的权限的限制)。
- 感知环境:感知移动环境——包括设备状态(比如电池剩余电量、网络连接状态、屏幕状态)、用户状态(比如用户的位置、用户的移动速度、用户的健康状况、用户的偏好、用户的历史行为数据)、物理环境状态(比如周围的光线强度、周围的温度、周围的天气状况)、数字环境状态(比如当前打开的App、当前的日历事件、当前的任务)。
- 感知方式:通过移动传感器感知移动环境——比如位置传感器(GPS、Wi-Fi定位)、运动传感器(加速度计、陀螺仪)、环境传感器(光线传感器、温度传感器)、生物识别传感器(面部识别传感器、心率传感器)、输入传感器(触摸屏、麦克风、摄像头)。
- 计算资源:利用本地计算资源或云端计算资源进行推理和决策——比如如果是简单的任务(比如设置闹钟、发送短信、拨打电话),那么就利用本地计算资源;如果是复杂的任务(比如生成一段文案、翻译一段文字、回答一个问题),那么就利用云端计算资源。
- 执行方式:通过移动执行器或云端服务作用于移动环境——比如输出执行器(屏幕、扬声器、振动马达)、通信执行器(蓝牙、Wi-Fi、蜂窝网络)、控制执行器(控制其他App的API调用、控制其他硬件设备的API调用、控制云端服务的API调用)。
2.1.4 移动端 AI Agent Harness(移动端 AI 智能体驾驭系统)
要理解什么是移动端AI Agent Harness,我们可以结合前面的Harness的定义和移动端AI Agent
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)