读智能涌现: AI时代的思考与探索03科学智能

1. 智能+X
1.1. 与应用结合是技术探索的锚点之一,在产业应用中证实自身价值是评判技术能力的关键标准
1.2. 深度学习之所以能够掀起又一轮AI创新的热潮,核心原因恰恰在于技术投射至应用层后被迅速且顺畅地变现
1.3. 深度学习依旧在技术和学理等层面存在不足,但它在一系列数据集测试中压倒性的表现,还是让各界不得不承认其具有广阔的价值空间
1.4. 小到每天解锁手机时使用的人脸识别,大到以AI技术赋能工业智能化发展、打造可实现城市精细化管理的城市大脑
1.5. 随着时间的推移,我们看到越来越多的技术演进趋势和产业跃升可能
1.6. 人类也很可能会在AI的辅佐下进化到与历代前人都不同的全新层次
1.7. 深度学习算法和AI技术正在由浅入深地改变着物理世界和数字世界
1.8. 从每个人的生存状态到整个世界都会变得更加智能,凡是有责任感的科技工作者都不会错过这样的历史性机遇
1.9. 创造出新的行业、新的职业、新的岗位
- 1.9.1. 行业、岗位乃至相关产业链在某种意义上都来自被AI激活并刷新的未来产业
1.10. 将AI作为赋能型技术,用以升级固有的信息技术基础设施,进而改造、优化各个行业的生产关系
1.11. AI有能力改变或塑造的应用场景将比比皆是、不计其数
-
1.11.1. 在仓储场景中,AI可以根据库存状况、货物位置与人员配置状况来优化仓储布局,从而大幅减少仓储工作人员的日均行走步数
-
1.11.2. 在工业质检场景中,AI可以替代传统的人工识别模式,自动且精准地检测工业产品的缺陷,这不仅能将质检工作人员从高强度的重复劳动中解放出来,还能带来比人工质检更高的准确率
1.12. AI还将大大加速各经典学科的新发现,尤其是生物、化学、环境和材料等科研领域,数字化与实验自动化的进程正飞速推进
2. NABC价值主张
2.1. N(Needs,需求):我们的研究能否填补行业或市场的巨大空白?
2.2. A(Approach,方法):我们的研究能否以独特且合理的方式满足客户或合作伙伴的需求,并创造出有竞争力的发展模式?
2.3. B(Benefits relative to costs,成本与效益):我们的研究能否为客户或合作伙伴提供清晰、领先的价值?
2.4. C(Competition,竞赛):我们的研究成果能否比同类机构的成果更具吸引力?
2.5. 科研方向必须使技术能够为企业、行业、社会带来真正的帮助,帮助他人、帮助更多人,这应是一切技术的起点与终点
2.6. 尽量选择具备重大产业变革意义的方向,集中产学资源深耕于此
2.7. 选择领军者自身擅长的方向,将多年所学、所专、所业、所精与时代潮流相结合
3. 科学智能
3.1. AI for Science
3.2. 科学意味着系统性地构建与组织知识,且将之运用于理解我们所处的宇宙
3.3. “新科学”之“新”,关键在于模型
3.4. 各个科学领域的知识体系即将被刷新,原有的体系内将会涌现出AI模型这一崭新的知识形式
3.5. AI尤为擅长理解高维度的数据,即具有大量特征或变量的数据集,能够轻松地从海量数据中探寻出结构、规律、模式、关系
-
3.5.1. 那些对人类而言极为艰巨、即便耗时良久也未必能找到答案的任务,对AI而言却没有那么难
-
3.5.2. 在新的科学智能时代,科学知识或许会由人类能理解的知识及AI模型两部分共同构成
3.6. AI对科学研究的作用很可能会出现从工具到基石的改变
-
3.6.1. 以往在科研过程中,AI通常被用于高性能计算或是数据分析
-
3.6.2. 随着AI的进化迭代,其在科学领域的地位必然会逐级提升
-
3.6.3. 基于AI独特的存在形式来探索科学问题,甚至借助其特有的能力来发现前辈科学家从未涉足的“无人区”
3.7. 生成式AI、超大模型、多模态预训练(Multimodal Pre-trained)、干湿闭环(Dry-lab and Wet-lab Loop)、自主学习(Autonomous AI)
3.8. 科学智能的新机遇涵盖了多层次、多方面
-
3.8.1. 在技术层面,大语言模型与生成式AI可轻松处理自然语言并挖掘、整合知识,基础模型能融合多模型结构,实现多智能体协作并发挥预训练优势
-
3.8.2. 在实验协同层面,湿实验室与干实验室结合,可优化实验设计并实时反馈调整
-
3.8.3. 在人机交互层面,人与AI的互动可为科学家提供辅助决策和知识共享学习
-
3.8.4. 在实验手段层面,实验室自动化与机器人技术可提升实验效率及精度
-
3.8.5. 在探索发现层面,自主AI可用于探索未知前沿、用于发现新规律
-
3.8.6. 在教育研究产业层面,大学教育与研究新时代的开启,有助于新型人才的培养、新兴产业的萌生
3.9. 生成式AI的用途绝不止于内容创作领域
- 3.9.1. 可以为创作者提供更便捷的创意变现途径
3.10. AI不仅具备颠覆互联网内容生产模式及相关生产力的潜力,还有可能在生物医药及其他科学领域发动一场改天换地般的变
3.11. 通过自然语言训练的领域内模型
3.12. 通过生物数据训练的科学模型
3.13. 插件技术和工具极大地提高了GPT在实际应用中的能力
3.14. 当研究者将自动化实验室和AI模型相结合,就能够实现干湿闭环
-
3.14.1. 由“干实验室”发起一个实验请求,再交由模型处理
-
3.14.2. 模型将处理结果反馈给自动化实验室,以执行相应的“湿实验”
-
3.14.3. 通过这种干湿闭环的方式,AI模型将可以更高效地开展科学研究,也能更精确地预测和改进实验结果
3.15. AI模型还可以与药学家进行交互式药物生成
3.16. “专家参与的循环”(Expert in the Loop)
- 3.16.1. 通过这种方式,药学家的专业知识得以和AI模型的超强学习能力深度融合,进而实现高效能、低费用的药物研发与生成
3.17. 在干湿闭环和专家可控药物生成之间,还需要一个药物基础大模型来持续积累数据和知识
- 3.17.1. 当干湿闭环、专家可控药物生成、药物基础大模型三者被结合运用,AI在医学科学方面的能力将得到空前的强化,而这又会反过来为药物研发创造更多的机遇与可能性
3.18. 过去数百年来无数生物学家积累的海量文献和知识图谱数据,它们都能够单独训练出一个庞大的知识表征模型,而且这些不同模态的数据里的分子信息又都相互关联,如果能将所有的信息统一压缩在一个大模型里,就能惠及未来所有的生物医药下游任务
4. AI创新
4.1. 蛋白质工程与抗体设计
-
4.1.1. 在早期对自然语言处理课题的推究过程中,语言学家先是设计了诸多规则来建模语言,随后又引入了统计学的方法来优化软件,直至当下的生成式AI出现,才终于在自然语言处理方面达到了人类的能力层级
-
4.1.2. 如果我们将蛋白质序列视作一种语言,就可以把蛋白质工程和自然语言处理进行比对
4.2. 小分子药物与酶设计
-
4.2.1. 小分子药物种类繁多,传统的高通量虚拟筛选通常成本昂贵且耗时耗力
-
4.2.2. 运用AI模型便极有希望大幅加速虚拟筛选的进程,所消耗的时间可能从年缩短至秒,这样的应用前景不能不让人振奋
4.3. 药物设计与酶设计是两个重大的课题
-
4.3.1. 前者是给定蛋白质,寻找能够作用于其上的小分子
-
4.3.2. 后者则是给定小分子,寻找能够催化其反应的蛋白质
4.4. 新材料设计
- 4.4.1. 随着柔性显示等技术的不断发展,有机半导体材料得到了越来越多的关注
4.5. 生物学、化学、材料科学、环境、农业等众多领域,都将实现由AI驱动的科学发现和技术创新
4.6. 需要政企学各界协力打造新的生态系统,而在这一过程中,五大支柱的构建至关重要
-
4.6.1. 开发和部署科学智能的开放平台与基础设施
-
4.6.2. 开展有关科学与AI深度融合的研究
-
4.6.3. 助力建设、完善全球学术网络和社区
-
4.6.4. 塑造世界领先的产业合作伙伴生态体系
-
4.6.5. 促进有利于产业发展与经济增长的孵化器及风险投资网络的快速成形
4.7. “AI+新科学”是一个新颖且前沿的领域
- 4.7.1. 借助AI的技术手段,科研人员能够处理规模更庞大、结构更复杂的数据,探索过去未能分辨的现象和规律,进而推动新的科学发现
5. 人工智能+生命科学
5.1. 健康计算(Health Computing)作为一种新型智能科学计算模式,是以AI和数据驱动为核心的第四研究范式
- 5.1.1. 将极大地助力人类对生命与健康问题的探究
5.2. 联邦学习
-
5.2.1. 横向联邦学习(Horizontal Federated Learning)
- 5.2.1.1. 面向具备相同特征空间但样本不同的场景,能够保证相同模态不同源头的数据之间的隐私性
-
5.2.2. 纵向联邦学习(Vertical Federated Learning)
- 5.2.2.1. 面向样本相同但特征不同的场景,能够保证多模态数据间的隐私性
-
5.2.3. 联邦迁移学习(Federated Transfer Learning)
- 5.2.3.1. 面向样本和特征都有部分重合的场景,结合了差分隐私和同态加密,能够保证在跨领域数据共享与模型训练过程中的隐私性
5.3. AI在蛋白质结构预测、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、AI辅助药物设计等多方面的研究业已成为国际前沿战略级研究热点
5.4. 想要更好地利用AI的能力、发现生命的奥秘,就需要构建出专注于生命科学课题的AI基础设施、数据平台与核心算法引擎,用以支撑生命科学前沿的研究任务
- 5.4.1. 通过打造旗舰级公开数据集、组织算法挑战竞赛、搭建智能+生命科学的众智平台等方式,加速培养跨界人才,壮大产业生态
5.5. AlphaFold2是智能+生命科学的一个典型成功案例
-
5.5.1. 过去这些年,科学家主要依靠冷冻电镜和高精度X射线来解析蛋白质结构
-
5.5.2. 实现了指数级的加速,彻底改变了从氨基酸序列到三维结构再到功能的研究方式
-
5.5.3. 任务的特殊性
-
5.5.3.1. 蛋白质结构预测可以被看作从序列到三维结构的一一映射问题,因此它是所谓的“Well-defined”(清晰无歧义)的AI问题
-
5.5.3.2. 要找到生命科学中意义重大但又能抽象为适合AI的研究任务
-
-
5.5.4. 模型的优越性
-
5.5.4.1. 在漫长周期内,一代代学者对生命科学的钻研积累了大规模的蛋白质结构数据
-
5.5.4.2. AlphaFold2的模型架构充分利用了数据驱动的端到端深度学习模型
-
5.5.4.3. 大数据与深度模型的结合恰恰是第四研究范式的突出特点
-
-
5.5.5. 在尝试进行智能+生命科学的研究时,要注重跨界破壁与第四研究范式的重要性
-
5.5.6. 蛋白质结构的精准预测为生命科学的研究者提供了高效的计算工具,也为基于AI的重大新发现创造出可能
5.6. AI模型将通过高通量、多轮湿实验的闭环验证和数据填充变得更加智能
5.7. 通过主动学习和强化学习等方式,AI能够主动规划湿实验的自动化执行,从而形成干湿闭环验证、迭代加速生命科学发现与产业落地应用
5.8. 就像盾构机在隧道掘进过程中破除厚壁,AI技术正在打通与其他专业领域之间的壁垒,通过结合与赋能,为其他产业带来巨变
-
5.8.1. 生物世界正处于数字化、自动化和智能科学计算的新变革浪潮中
-
5.8.2. 用计算的方法,即AI和数据驱动的第四研究范式来辅助人们探索并解决生命健康问题已成为一个重要的研究方向
6. AIR
6.1. 全球首个可商用多模态生物医药百亿参数大模型BioMedGPT-10B于2023年开源
6.2. 全球首个免费可商用、生物医药专用的Llama 2大语言模型BioMedGPT-LM-7B
6.3. DrugCLIP,首次实现了单机每日筛选百万亿小分子的成就,筛选结果在多类靶点上通过了生物学实验验证
6.4. AI抗体设计可以显著加速并优化抗体药物研发过程,提高设计精准度,降低研发成本
6.5. 智能体医院(Agent Hospital)
- 6.5.1. 2024年11月,世界第一个智能体医院上线,首批来自21个科室的42位AI医生正式亮相,定向邀请专业人士访问医院,对AI医生的疾病诊断能力进行内部测试
6.6. 以前,研发一款新药的平均周期通常为10~15年,将一种药物推向市场的成本则高达25亿美元
-
6.6.1. 周期漫长,成本高企
-
6.6.2. AI技术的引入,能够显著加速新药研发的某些阶段
6.7. 不但物理世界在数字化,整个生物世界也在数字化
-
6.7.1. 数字化的优势之一是积累大量真实、准确的数据
-
6.7.2. AI能够更好地助力数据处理和分析、模拟和预测、个性化医疗、自动化实验等工作
6.8. 基因科学与信息科学存在着某种堪称“玄妙”的关联
-
6.8.1. 两者都涉及复杂信息的存储、传递、处理与解码
-
6.8.1.1. 计算机采用0和1二进制系统来编码信息
-
6.8.1.2. DNA使用A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)四种碱基来编码与传递生物信息
-
-
6.8.2. 基因表达的规则与自然语言也具有一些相似性
-
6.8.2.1. 基因表达的过程也存在着“句法结构”,特定DNA序列的功能取决于它在序列中的位置和上下文
-
6.8.2.2. 基因表达中的一些“冗余”就类似于语言中的同义词和句法冗余
-
6.8.2.3. 基因表达的调控方式就好比自然语言中的语气或句法结构变化等
-
-
6.8.3. 基因可以说是生命科学的密码系统,而AI可以通过多种方式辅助人类破解密码,包括基因组分析、基因功能预测、生物系统建模、个性化医疗、基因编辑与合成生物学等等
6.9. “Gene”即基因
6.10. BERT(Bidirectional Encoder Representations from Transformers)即基于双向Transformer的编码表示,专为理解自然语言的上下文信息而设计,是许多大语言模型构建的基础
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)