AIDD扫盲 | 别再混淆这些概念了,必须要理解的机器学习的10种基本类型
上一篇文章中,我们介绍了机器学习、深度学习、生成式AI、判别式AI、模型、算法、特征、表征学习、泛化能力等基础概念。
但是,真正进入AIDD,也就是人工智能辅助药物发现之后,我们还会遇到另一组更常见的名词:监督学习、无监督学习、半监督学习、自监督学习、强化学习、迁移学习、多任务学习、主动学习、贝叶斯优化、自动机器学习。
这些词听起来像机器学习世界里的“门派”。其实,它们并不是彼此割裂的技术标签,而是机器在不同学习条件下形成规律的方式。
人学习世界,也不是只有一种方式。有人在老师指导下学习,有人自己观察世界,有人通过尝试和奖惩成长,有人把旧经验迁移到新问题,有人同时学习多项技能,也有人在不确定中主动提问。
机器学习也是如此。
一、监督学习:有标准答案的学习
监督学习是最容易理解的一类机器学习方法。它的核心是:给机器大量带有标准答案的数据,让机器学习输入和答案之间的关系。
生活中最典型的例子是学生做练习题。题目后面有标准答案,学生做错了就改,做对了就强化。经过大量训练,学生逐渐掌握解题规律。
在AIDD中,监督学习非常常见。比如我们有一批已知分子,每个分子都有实验测得的活性值。模型的任务就是学习“分子结构”和“活性结果”之间的关系。以后遇到一个新分子,模型就可以预测它是否可能有效。
例如:
一个分子是否能抑制某个靶点?
一个化合物是否具有肝毒性?
一个候选药物的溶解度大概是多少?
这些问题往往都可以用监督学习建模。
监督学习的优点是目标清楚,训练直接;缺点也很明显:它依赖高质量标注数据。药物研发中,真正可靠的实验数据往往昂贵、稀缺、分布不均。机器渴望答案,而现实世界并不慷慨。
二、无监督学习:没有答案时,让机器自己发现结构
无监督学习没有标准答案。我们只是把数据交给机器,让它自己寻找数据内部的规律。
生活中可以想象一个人第一次来到图书馆,没有人告诉他每本书属于什么类别。他只能观察书名、内容、主题和风格,然后慢慢把相似的书放在一起:医学类、文学类、历史类、技术类。这个过程不是“答题”,而是“归类”和“发现结构”。
在AIDD中,无监督学习常用于聚类、降维、相似性分析和数据探索。
比如,我们有几千个分子,但不知道它们可以分成哪些结构类别。无监督学习可以帮助我们把相似分子聚在一起,发现不同化学骨架。又比如,我们有大量蛋白质或细胞表达数据,也可以用无监督学习发现样本之间的潜在分组。
在药物发现中,无监督学习常常用于回答这类问题:
这些分子是否可以分成不同结构家族?
这些疾病样本是否存在不同亚型?
这些蛋白质口袋是否具有相似的空间特征?
这些生成分子是否集中在少数几个模式中?
无监督学习像一个沉默的观察者。它不告诉我们结论是否正确,但可以让我们看见原本隐藏在数据中的秩序。
三、半监督学习:少量答案,加上大量未标注数据
半监督学习介于监督学习和无监督学习之间。它的特点是:一部分数据有标签,大量数据没有标签,模型要同时利用这两类数据。
生活中的例子是,一个老师只批改了一小部分作业,剩下大量作业没有标准答案。学生不能完全靠老师,但也不能完全靠自己。他需要从已批改的题目中学习判断标准,再利用大量未批改题目巩固理解。
AIDD中非常适合半监督学习,因为药物数据天然存在“有标签数据少、无标签数据多”的问题。
已知活性数据可能只有几千个,但可获得的化合物结构可能有几百万甚至更多。实验测活性很贵,但收集分子结构相对容易。因此,半监督学习希望利用少量有实验结果的数据,再结合大量无实验标签的分子,提高模型表现。
比如:
少量分子有活性数据,大量分子只有结构信息;
少量蛋白质有功能注释,大量蛋白质只有序列;
少量疾病样本有明确诊断,大量样本信息不完整。
半监督学习的现实意义在于:它承认答案稀缺,但不因此放弃学习。
四、自监督学习:从数据本身构造学习任务
自监督学习是近年来非常重要的一类方法。它的核心思想是:不依赖人工标注,而是从数据自身构造训练任务,让模型学到有用表征。
生活中可以想象一个孩子读书。他并不需要每句话旁边都有老师批注。比如看到一句话缺了一个词,他可以根据上下文猜测缺失内容;看到一张拼图缺了一块,他可以根据周围图案推断缺口。这种“自己出题、自己学习”的方式,就是自监督学习的直觉。
在AI中,很多大模型都依赖自监督学习。例如语言模型通过预测被遮住的词,学习语言规律;蛋白质语言模型可以通过预测氨基酸序列中的缺失位置,学习蛋白质序列中的进化和结构信息。
在AIDD中,自监督学习非常重要,因为生命科学数据规模大,但高质量标注少。模型可以先在大量未标注数据上学习通用规律,再用于具体任务。
例如:
从大量分子SMILES中学习分子语法和结构规律;
从大量蛋白质序列中学习氨基酸共变、保守性和功能线索;
从大量分子图中学习原子和化学键的上下文关系;
从蛋白质结构中学习空间邻近、二级结构和局部几何模式。
自监督学习的意义在于,它不再等待人类把每一个答案都标出来。它从数据自身寻找训练信号,像一个在废墟中辨认秩序的人。
五、强化学习:通过奖惩学会决策
强化学习关注的不是一次性预测,而是连续决策。它的核心是:一个智能体在环境中不断尝试,根据奖励和惩罚调整行为策略。
生活中最典型的例子是训练宠物。狗做对动作,得到奖励;做错动作,没有奖励甚至受到纠正。经过多次尝试,它逐渐学会什么行为会带来更好的结果。
人类学习骑自行车也类似。没有人能靠看说明书直接学会骑车。身体必须在摔倒、调整、平衡、再尝试的过程中形成策略。
在AIDD中,强化学习常用于分子生成和分子优化。模型不是简单预测一个分子好不好,而是在“生成分子”的过程中不断调整策略,使生成结果更符合目标。
例如,我们希望设计一个分子,同时满足:
对靶点结合能力强;
毒性低;
溶解度合适;
合成可行;
结构新颖;
符合药物样性质。
这些目标往往彼此冲突。强化学习可以把这些要求转化为奖励函数,让模型在生成过程中不断优化。
不过,强化学习也有危险。如果奖励函数设计得不好,模型可能学会“钻空子”。它会生成一些在评分系统中看似很高、但在真实世界中毫无意义的分子。
所以,强化学习不是让模型自由奔跑,而是设计一套足够严谨的奖惩制度。制度若粗糙,聪明反而会成为灾难。
六、迁移学习:把旧问题中的经验用于新问题
迁移学习的核心是:把在一个任务或数据集上学到的知识,迁移到另一个相关任务中。
生活中,一个会拉小提琴的人学习中提琴,往往比完全没有音乐基础的人更快。一个会英语的人学习德语,也可能更容易理解某些词源和语法结构。因为旧经验并没有消失,而是成为新学习的基础。
在AIDD中,迁移学习非常常见。因为很多具体药物研发任务数据很少,无法从零训练一个强模型。于是,我们常常先让模型在大规模通用数据上学习,再迁移到特定任务。
例如:
模型先在大量分子数据上学习化学结构规律,再迁移到某个靶点的活性预测;
模型先在海量蛋白质序列上预训练,再迁移到蛋白功能预测或突变效应预测;
模型先在通用药物性质数据上学习,再针对某个疾病领域进行微调。
迁移学习的价值在于,它避免每一个新问题都从零开始。但它也有风险:旧经验未必总是适合新问题。一个在普通小分子数据上训练出的模型,未必能很好处理环肽、核酸药物或蛋白降解剂。
经验可以帮助我们,也可以束缚我们。迁移学习要解决的,正是“哪些经验值得迁移,哪些经验应当遗忘”。
七、多任务学习:同时学习多个相关任务
多任务学习是指模型同时学习多个任务,并希望这些任务之间可以互相促进。
生活中,一个医学生学习人体解剖、生理学、病理学、药理学,并不是为了把这些知识孤立地记住,而是为了在临床判断中综合使用。多个任务之间如果相关,联合学习反而能形成更完整的理解。
在AIDD中,一个分子是否值得进一步研究,通常不是由单一指标决定的。它可能需要同时考虑活性、选择性、毒性、代谢稳定性、溶解度、膜通透性、合成可行性等多个性质。
如果每个性质都单独训练一个模型,可能会浪费任务之间的共享信息。多任务学习则希望模型在共同学习中捕捉分子结构与多种性质之间的关系。
例如,一个模型可以同时预测:
分子活性;
细胞毒性;
水溶性;
脂溶性;
血脑屏障通透性;
代谢稳定性。
多任务学习的优点是能利用任务之间的相关性;难点是不同任务之间可能互相干扰。如果任务关系密切,它们可以互相帮助;如果任务差异过大,模型可能顾此失彼。
多任务学习像一个人同时承担多项工作。若结构合理,是协同;若安排混乱,就是内耗。
八、主动学习:让模型主动提出最值得实验的问题
主动学习的核心是:模型不只是被动接受数据,而是主动选择最有价值的数据进行标注或实验。
生活中的例子是,一个聪明的学生不会把所有题都平均做一遍。他会优先做自己最不确定、最容易暴露问题的题。因为这些题能最大程度提高学习效率。
在AIDD中,主动学习非常重要,因为实验资源有限。我们不可能把所有候选分子都合成并测试。主动学习希望模型从大量候选分子中挑出“最值得实验”的一批。
这些分子可能是:
模型预测活性高的;
模型非常不确定的;
代表新化学空间的;
可能帮助模型修正错误认知的;
在探索与利用之间取得平衡的。
例如,模型面对一万个候选分子,不是简单选择预测分数最高的前100个,而是综合考虑预测值、不确定性和结构多样性,挑选最能提升下一轮模型能力的分子进入实验验证。
主动学习承认一个事实:在药物研发中,数据不是免费的。每一个实验点都需要时间、金钱和人力。因此,真正重要的问题不是“能不能做实验”,而是“先做哪个实验”。
九、贝叶斯优化:在昂贵实验中寻找最优解
贝叶斯优化是一种常用于黑箱函数优化的方法,特别适合实验成本高、尝试次数有限的问题。它的核心是:在不确定中不断更新判断,用尽量少的尝试找到更优方案。
生活中可以想象调咖啡配方。你想找到最好喝的比例,但每试一次都要花时间和材料。你不会把所有糖、奶、咖啡浓度组合都试一遍,而是根据前几次结果推测哪里可能更好,然后优先尝试最有希望的区域。
在AIDD中,贝叶斯优化常用于分子优化、实验条件优化、模型超参数优化等场景。
例如:
如何选择分子生成模型的参数?
如何优化一个候选分子的结构修饰方向?
如何设计下一批实验分子?
如何在多个ADMET性质之间寻找最优平衡?
贝叶斯优化的特点是,它不仅关心哪里可能表现好,也关心哪里不确定性大。它在“利用已知高分区域”和“探索未知区域”之间做平衡。
药物研发常常不是缺少选择,而是选择太多。贝叶斯优化的意义在于,让我们在巨大的可能性中,不再像盲人摸象一样随机碰运气。
十、自动机器学习:让机器帮助人选择模型和参数
自动机器学习,也就是AutoML,目标是自动完成一部分机器学习流程,包括特征处理、模型选择、超参数调优、模型集成等。
生活中可以把它理解为一个“自动化装修顾问”。普通人装修房子,需要自己选材料、配颜色、安排施工流程;而自动化系统可以根据房屋结构、预算和风格偏好,自动给出多个方案并不断优化。
在机器学习中,研究者常常需要尝试不同模型、不同参数、不同特征组合。这个过程耗时、繁琐,也依赖经验。AutoML希望用自动化搜索和优化方法,提高建模效率。
在AIDD中,AutoML可以用于快速构建性质预测模型。例如,面对一个新的ADMET数据集,我们可以让AutoML自动比较随机森林、XGBoost、神经网络等模型,并搜索较优参数组合。
不过,AutoML并不意味着研究者可以不理解问题。它可以帮助我们节省重复劳动,却不能替代科学判断。因为药物研发中的关键问题往往不是“哪个模型分数最高”,而是“这个分数是否可信,这个数据是否合理,这个任务定义是否正确”。
自动化可以提高效率,但不能自动产生理解。
一个概念背后的主线:机器如何学习世界
现在,我们把这些概念串起来看。
如果数据有明确答案,我们使用监督学习;如果数据没有答案,我们使用无监督学习;如果只有少量答案,我们使用半监督学习;如果想从数据本身构造学习信号,我们使用自监督学习。
如果任务是连续决策和目标优化,可以使用强化学习;如果已有大模型或旧任务经验,可以使用迁移学习;如果多个任务相关,可以使用多任务学习。
如果实验成本高,我们可以用主动学习选择最值得做的实验;如果优化空间复杂,可以使用贝叶斯优化提高搜索效率;如果建模流程繁琐,可以使用自动机器学习提升效率。
这些方法不是互相排斥的。真实的AIDD流程中,它们常常组合出现。
例如,一个分子设计项目可能是这样的:
先用自监督学习在大规模分子数据上预训练模型;
再通过迁移学习把模型用于特定靶点;
用监督学习训练活性预测模型;
用生成模型或强化学习设计新分子;
用多任务学习同时评价活性、毒性和成药性;
用贝叶斯优化寻找更优结构;
用主动学习挑选最值得实验验证的一批分子;
最后用实验结果反哺模型,进入下一轮迭代。
这就是AIDD真正迷人的地方:它不是一个模型替代所有工作,而是一套由数据、模型、实验和人类判断共同构成的循环系统。
结语:机器学习的类型,实质是人类面对不确定性的方式
监督学习像课堂教育,有题目,也有答案。
无监督学习像独自观察世界,没有答案,只能寻找秩序。
半监督学习像在稀缺指导下成长,既依赖老师,也依赖自学。
自监督学习像从书本自身提问,在沉默的数据中寻找训练信号。
强化学习像试错人生,奖惩塑造行为。
迁移学习像经验复用,旧知识照亮新问题。
多任务学习像综合训练,不同能力彼此支撑。
主动学习像聪明提问,把有限资源用在关键处。
贝叶斯优化像谨慎探索,在不确定中逼近最优。
自动机器学习像工具进化,让繁琐流程部分自动化。
对于AIDD初学者来说,理解这些概念,不是为了记住术语,而是为了理解一个更根本的问题:机器到底是在怎样学习药物世界?
药物研发中的世界并不温顺。数据稀缺,噪声很多;实验昂贵,失败常见;生物系统复杂,机制并不总是清晰。AI并不能消除这些困难,它只是提供了新的观察方式、新的搜索方式和新的决策方式。
因此,AIDD不是一场轻松的捷径,也不是一台自动吐出新药的机器。它更像一套新的研究语言。掌握这套语言,我们不一定立刻找到答案,但至少能够更清楚地提出问题。
而在科学中,清楚地提出问题,往往已经是通往答案的第一步。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)