厦门大学：DeepSeek大模型赋能高校教学和科研（123页 PPT ）

炜宏资料库

594人浏览 · 2026-03-31 18:21:35

炜宏资料库 · 2026-03-31 18:21:35 发布

一、大模型：人工智能的前沿
大模型通常指的是大规模的人工智能模型，是一种基于深度学习技术，具有海量参数、强大的学习能力和泛化能力，能够处理和生成多种类型数据的人工智能模型。通常说的大模型的“大”的特点体现在：1、参数数量庞大；2、训练数据量大；3、计算资源需求高。
大模型的设计和训练旨在提供更强大、更准确的模型性能，以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律，具有更强的泛化能力和表达能力。在这里插入图片描述 人工智能与大模型的关系

人工智能包含了机器学习，机器学习包含了深度学习，深度学习可以采用不同的模型，其中一种模型是预训练模型，预训练模型包含了预训练大模型（可以简称为“大模型”），预训练大模型包含了预训练大语言模型（可以简称为“大语言模型”），预训练大语言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE ， ChatGPT是基于GPT开发的大模型产品，文心一言是基于文心ERNIE开发的大模型产品
在这里插入图片描述
大模型的分类

大模型的基本原理

大模型是基于Transformer架构的，这种架构是一种专门用于自然语言处理的“编码-解码器”架构。在训练过程中，大模型将输入的单词以向量的形式传递给神经网络，然后通过网络的编码解码以及自注意力机制，建立起每个单词之间联系的权重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算，并把相关性又编码叠加在每个单词中。这样，大模型能够更好地理解和生成自然文本，同时还能够表现出一定的逻辑思维和推理能力
在这里插入图片描述
二、大模型产品

ChatGPT是一种由OpenAI训练的大语言模型。它是基于Transformer架构，经过大量文本数据训练而成，能够生成自然、
流畅的语言，并具备回答问题、生成文本、语言翻译等多种功能。ChatGPT的应用范围广泛，可以用于客服、问答系统、对话生成、
文本生成等领域。它能够理解人类语言，并能够回答各种问题，提供相关的知识和信息。与其他聊天机器人相比，
ChatGPT具备更强的语言理解和生成能力，能够更自然地与人类交流，并且能够更好地适应不同的领域和场景。
ChatGPT的训练数据来自互联网上的大量文本，因此，它能够涵盖多种
Gemini是谷歌发布的大模型，它能够同时处理多种类型的数据和任务，覆盖文本、图像、音频、视频等多个领域。 Gemini
采用了全新的架构，将多模态编码器和多模态解码器两个主要组件结合在一起，以提供最佳结果。Gemini包括三种不同规模的模型：
Gemini Ultra、 Gemini Pro和Gemini Nano ，适用于不同任务和设备。 2023年12月6日，
Gemini的初始版本已在Bard中提供，开发人员版本可通过Google Cloud的API获得。
Gemini可以应用于Bard和Pixel 8Pro智能手机。 Gemini的应用范围广泛，包括问题回答、摘要生成、翻译、
字幕生成、情感分析等任务。然而，由于其复杂性和黑箱性质， Gemini的可解释性仍然是一个挑战
2024年2月16日， OpenAI再次震撼全球科技界，发布了名为Sora的文本生成视频大模型，只需输入文本就能自动生成视频。这一技术的诞生，
不仅标志着人工智能在视频生成领域的重大突破，更引发了关于人工智能发展对人类未来影响的深刻思考。随着Sora的发布，人工智能似乎正式踏入了通用人工智能（AGI： Artificial General Intelligence）的时代。
AGI是指能够像人类一样进行各种智能活动的机器智能，包括理解语言、识别图像、进行复杂推理等。 Sora大模型能够直接输出长达60秒的视频，并且视频中包含了高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这种能力已经超越了简单的图像或文本生成，开始触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信息上越来越强大，而且在动态内容的创造上也展现出了惊人的潜力
Sora根据文本自动生成的视频画面，一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上，抹了鲜艳唇彩的唇角微微翘起，即便带着墨镜也能看到她的微笑，地面的积水映出了她的身影和灯红酒绿的霓虹灯，热闹非凡的唐人街正在进行舞龙表演，熙熙攘攘的人群目光都聚焦在跃动的彩龙身上，整个环境的喜庆氛围仿佛令人身临其境
国内的大模型产品

三、大模型的应用领域
大模型的应用领域非常广泛，涵盖了自然语言处理、计算机视觉、语音识别、推荐系统、医疗健康、金融风控、工业制造、生物信息学、自动驾驶、气候研究等多个领域

四、高校本地部署DeepSeek大模型

DeepSeek满血版R1 ，参数高达6710亿（ 671B），相当于一个 “超级大脑” ，能处理复杂数学题、编程、长文本分析等高难度任务。部署本地DeepSeek- R1（ 671B）满血版模型，支持校园办公自动化、科研项目辅助、学术资源分析等多领域应用
在这里插入图片描述

2025年2月19日，郑州大学国家超级计算中心、计算机与人工智能学院、信息化办公室携手攻坚，成功在超算中心设备上部署本地化“满血版” DeepSeek-R1大模型（ 671B）。在多个关键应用领域， DeepSeek-R1大模型展现出强大的实力
在这里插入图片描述

郑州大学DeepSeek-R1系列大模型正在对接学校统一身份认证平台，近期将面向全校师生开放试用。同时，将根据学校各学科具体需求与硬件条件，以具体化、针对性、私有化、学科专用或实验室专用的方式将进一步将70B、 32B、 14B、 8B、 7B等不同版本的DeepSeek-R1大模型部署到学科内部，并接入本地知识库（如学术资源、课程资源、实验数据等），后期学校将根据具体需求及资源占用情况提供差异化服务，构建 “A I +学科 ”垂直领域解决方案，为学科交叉创新发展提供有力支撑

五、基于大模型的智能体
在这里插入图片描述

过去的嵌入式工具型 AI助手型工具（例如siri、小度、小愛音箱），只完成和人之间的问答会话。
目前各类 AI Copilot 不再是机械地完成人类指令，而是可以参与人类工作流，为诸如编写代码、策划活动、优化流程等事项提供建议
，与人类协同。
AI Agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动，它会根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建 prompt ，来实现目标。

2025年2月3日， OpenAI发布了一款新的智能体产品——Deep Research。 Deep Research由OpenAI o3模型的一个版本提供支持，该模型针对网页浏览和数据分析进行了优化，它利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF ，并根据需要根据遇到的信息做出调整。 Deep Research具有以下四大核心技术：
在这里插入图片描述
【案例】上海海事大学超级智能体
采取自建大模型+引用AI服务模式，A I编排流程使多个智能体综合协作，由一颗大脑（ LLM）进行自主支配运行，能够根据人的要求，自主判断、决策、分解子任务，自行与业务系统、专业知识库、海事垂直大模型及互联网交互分析，构建校级统一AI服务平台，最终输出任务结果，从而助学、助教、助研、助管和助国际交流
在这里插入图片描述
篇幅有限，仅展示了部分内容。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从0到1：企业级AI项目迭代日记 Vol.19｜两个环节 vs 十几个环节：Hermes厉害在哪里？

AtomGit开源社区

模型，模型训练，模型微调

对于图片来说，我们CNN的前几层学习到的都是低级的特征，比如，点、线、面，这些低级的特征对于任何图片来说都是可以抽象出来的，所以我们将他作为通用数据，只微调这些低级特征组合起来的高级特征即可，例如，这些点、线、面，组成的是园还是椭圆，还是正方形，这些代表的含义是我们需要后面训练出来的。当然，自己训练好的模型也可以当做预训练模型，然后再在自己的数据集上进行训练，来使模型适用于自己的场景、自己的任务。