深度学习 Skill 技能说明书

数据来源:SkillsBot AI Skill技能库 · 深度学习分类
整理时间:2026-03-17


页面截图

在这里插入图片描述


技能速览表

Skill 名称 功能描述 痛点解决 下载地址
PyTorch 模型训练器 完整自定义训练循环、梯度管理、GPU 优化、混合精度训练,集成学习率调度、检查点与多 GPU 分布式训练 手搭训练流程繁琐、梯度爆炸难控制、分布式配置复杂 skill/464
TensorFlow 模型训练器 自动化训练/评估/部署,支持 Keras API、分布式策略、TensorBoard 可视化和 SavedModel/TFLite 导出 训练部署链路断裂、跨平台迁移麻烦、可视化配置困难 skill/469
CUDA 图捕获与优化 图化 GPU 工作流程,减少内核启动开销,提升 AI 推理和批处理效率 高频推理内核启动开销大、CPU 侧调度延迟高 skill/2085
稳定基线 3 PyTorch 强化学习库,提供 PPO/SAC/DQN 等算法,支持自定义环境、回调函数和向量化并行采样 RL 算法实现易出 Bug、环境接口不统一、训练效率低 skill/7705
单细胞基因组学深度学习工具 单细胞基因组数据深度生成模型,支持批效应校正、多模态集成与差异表达分析 批效应干扰大、多组学整合难、传统方法精度不足 skill/7709
TensorFlow 物理机器学习 构建 PINN/NNP/GNN,将 TensorFlow 应用于物理科学仿真与分子动力学建模 传统数值方法计算成本高、高维问题无法处理 skill/1733
cublas-cudnn 集成 cuBLAS 与 cuDNN,提供张量核心配置、GEMM 优化、深度学习层实现及混合精度支持 手调 CUDA 库门槛高、算法选型与内存管理复杂 skill/2083
CUDA 工具包技能 CUDA 内核开发、nvcc 编译优化、PTX/SASS 汇编分析及 GPU 内存管理 CUDA 开发曲线陡峭、调试工具链难用、性能瓶颈难定位 skill/2086
cutlass-triton 使用 CUTLASS 和 Triton 生成优化 GPU 内核,实现高性能矩阵计算和自定义算子 手写高性能 GPU 内核难度极高,缺乏自动化优化工具 skill/2087
NCCL 多 GPU 通信库集成 集成 NCCL,支持全归约/全收集/广播,针对 NVLink/PCIe 拓扑优化多节点集群通信 多 GPU 梯度同步配置繁琐、带宽利用率低 skill/2091
Nsight 性能分析专家 NVIDIA GPU 性能瓶颈诊断、内核优化、内存带宽分析与线程束效率评估,支持屋顶线模型 GPU 程序优化无从下手、瓶颈定位依赖经验 skill/2092
PyTorch Lightning 组织和自动化 PyTorch 项目,支持多 GPU/TPU 训练、分布式策略、实验跟踪与模块化代码结构 训练代码冗余、多卡配置复杂、实验管理混乱 skill/10680

技能详细说明

1. PyTorch 模型训练器 (pytorch-trainer)

  • 评分:⚡ 4.5  安装量:2+
  • 详情页:https://www.skillsbot.cn/skill/464

功能描述
专注于深度学习模型训练的专业技能工具。提供完整的自定义训练循环、高效的梯度管理(裁剪和累积)、GPU 优化加速以及混合精度训练支持,集成学习率调度、检查点管理、多 GPU 分布式训练和早停机制,并能与主流实验跟踪系统无缝对接。

痛点解决

  • 手动搭建 PyTorch 训练循环代码冗余、容易出错
  • 梯度爆炸/消失问题难以统一管理
  • 多 GPU 分布式训练配置门槛高
  • AutoML 流水线编排缺乏标准化接口

2. TensorFlow 模型训练器 (tensorflow-trainer)

  • 评分:⚡ 4.5  安装量:1+
  • 详情页:https://www.skillsbot.cn/skill/469

功能描述
自动化深度学习模型训练、评估和部署的专业技能。支持 Keras API 和自定义训练循环,集成分布式训练策略、TensorBoard 可视化、回调函数管理以及生产环境模型导出功能(SavedModel/TFLite),覆盖数据加载到边缘部署的完整流水线。

痛点解决

  • 训练与部署链路断裂,模型无法平滑导出到生产/边缘环境
  • TensorBoard 可视化配置复杂
  • 分布式训练策略选型困难
  • Keras API 与 TF 底层 API 混用导致代码难以维护

3. CUDA 图捕获与优化 (cuda-graphs)

  • 评分:⚡ 4.5  安装量:1+
  • 详情页:https://www.skillsbot.cn/skill/2085

功能描述
专注于减少 CUDA 内核启动开销和优化执行模式,通过图化工作流程(CUDA Graphs)提升 AI 推理和批处理效率。将重复的 GPU 操作序列预先捕获为执行图,消除运行时调度开销。

痛点解决

  • 高频推理场景下 GPU 内核启动开销占比大
  • CPU 侧调度 GPU 操作存在不可忽略的延迟
  • 批处理任务中大量重复操作缺乏优化机制

4. 稳定基线 3 (stable-baselines3)

  • 评分:⚡ 4.5  安装量:1+
  • 详情页:https://www.skillsbot.cn/skill/7705

功能描述
基于 PyTorch 的强化学习库,提供 PPO、SAC、DQN 等主流 RL 算法的可靠实现,支持快速训练 RL 智能体、创建自定义环境、实现回调函数和优化工作流程,并支持向量化环境进行并行采样。

痛点解决

  • 从零实现 PPO/SAC 等算法易出 Bug,调试困难
  • 自定义环境与标准库对接接口不统一
  • 超参搜索和实验管理效率低下
  • 单环境采样速度慢,训练耗时长

5. 单细胞基因组学深度学习工具 (scvi-tools)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/7709

功能描述
基于 Python 的单细胞基因组学深度生成模型框架,应用变分推断对高维基因表达数据建模,支持批效应校正、多模态数据集成(scRNA-seq、ATAC-seq、空间转录组学)和差异表达分析。

痛点解决

  • 单细胞测序数据批效应干扰严重,影响分析结论
  • 多组学数据整合缺乏统一工具
  • 传统统计方法对高维稀疏矩阵处理能力不足
  • 差异表达分析中假阳性率高

6. TensorFlow 物理机器学习 (tensorflow-physics-ml)

  • 评分:⚡ 4.5  安装量:1+
  • 详情页:https://www.skillsbot.cn/skill/1733

功能描述
将 TensorFlow 机器学习技术应用于物理科学领域,核心功能包括构建物理信息神经网络(PINN)、训练神经网络势能(NNP)、使用图神经网络(GNN)处理分子系统,实现科学机器学习建模。

痛点解决

  • 传统数值方法(有限元/差分)求解 PDE 计算成本极高
  • 物理模拟无法处理高维参数空间
  • 分子动力学势函数精度与效率难以兼顾
  • 纯数据驱动模型无法内嵌物理约束

7. cublas-cudnn (cublas-cudnn)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/2083

功能描述
专注于 NVIDIA GPU 加速数学库集成,提供专家级 cuBLAS(线性代数)和 cuDNN(深度神经网络)调用能力。涵盖张量核心操作配置、优化 GEMM 调用生成、深度学习层(卷积/池化/归一化)集成、GPU 内存管理以及 FP16/TF32/INT8 混合精度全面支持。

痛点解决

  • 直接调用 cuBLAS/cuDNN C API 门槛极高
  • 卷积算法选择需手动基准测试,耗时耗力
  • 混合精度操作类型转换容易出错
  • GPU 工作空间内存分配缺乏统一管理策略

8. CUDA 工具包技能 (cuda-toolkit)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/2086

功能描述
专门用于 NVIDIA GPU 并行计算的开发工具,提供 CUDA 内核开发、nvcc 编译优化、PTX/SASS 汇编分析、内存层次结构管理(共享/全局/寄存器)和错误处理功能,支持多种 GPU 计算能力(sm_XX)。

痛点解决

  • CUDA 编程学习曲线陡峭,内核开发调试困难
  • nvcc 编译参数繁多、PTX 汇编难以阅读分析
  • GPU 内存层次使用不当导致性能差
  • 不同 GPU 架构(sm_xx)兼容性问题频发

9. cutlass-triton (cutlass-triton)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/2087

功能描述
专门用于生成优化 GPU 内核的技能,通过 CUTLASS 模板库和 Triton DSL 实现高性能矩阵运算和自定义算子,覆盖从算法设计到内核代码生成的完整流程,大幅降低编写高性能 GPU 内核的门槛。

痛点解决

  • 手写高性能 GEMM 等矩阵运算内核极为复杂
  • CUTLASS 模板元编程抽象层次高,上手困难
  • 自定义算子性能无法轻松逼近手工优化水平
  • 缺乏 Triton DSL 使用最佳实践指引

10. NCCL 多 GPU 通信库集成 (nccl-communication)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/2091

功能描述
集成 NVIDIA 集体通信库(NCCL),提供多 GPU 环境下全归约(AllReduce)、全收集(AllGather)、广播(Broadcast)等集体操作,支持单节点与多节点集群,并针对 NVLink、PCIe 等硬件拓扑进行性能优化,兼容 MPI 与 RCCL。

痛点解决

  • 多 GPU 数据并行训练中梯度同步配置繁琐
  • NCCL 与 MPI 集成缺乏清晰参考
  • NVLink vs PCIe 拓扑下通信策略选择复杂
  • 多节点集群网络(RDMA/InfiniBand)配置困难

11. Nsight 性能分析专家 (nsight-profiler)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/2092

功能描述
专门用于 NVIDIA GPU 应用程序性能分析和优化的专业工具。提供 GPU 性能瓶颈诊断、内核优化、内存带宽分析、线程束效率评估等核心功能,支持屋顶线模型(Roofline)分析,帮助开发者深度优化 CUDA 程序性能。

痛点解决

  • GPU 程序性能优化无从下手,缺乏系统化方法
  • 性能瓶颈定位完全依赖经验,效率极低
  • 内存带宽利用率、占用率等关键指标难以量化
  • 屋顶线模型分析需要复杂的手动计算

12. PyTorch Lightning (pytorch-lightning)

  • 评分:⚡ 4.5  安装量:0
  • 详情页:https://www.skillsbot.cn/skill/10680

功能描述
用于组织和自动化 PyTorch 深度学习项目的框架,支持多 GPU/TPU 训练、分布式策略(DDP/FSDP)、数据管道管理、实验跟踪(W&B/MLflow)和模块化代码结构,将 PyTorch 研究代码工程化。

痛点解决

  • PyTorch 训练代码重复冗余(训练循环到处复制粘贴)
  • 多卡/多节点训练配置复杂,容易出错
  • 实验管理混乱,难以复现结果
  • 研究代码与生产代码结构差异大,迁移困难

技术方向分类

🏋️ 模型训练框架

Skill 链接
PyTorch 模型训练器 https://www.skillsbot.cn/skill/464
TensorFlow 模型训练器 https://www.skillsbot.cn/skill/469
PyTorch Lightning https://www.skillsbot.cn/skill/10680

🎮 GPU 底层加速

Skill 链接
CUDA 图捕获与优化 https://www.skillsbot.cn/skill/2085
cublas-cudnn https://www.skillsbot.cn/skill/2083
CUDA 工具包技能 https://www.skillsbot.cn/skill/2086
cutlass-triton https://www.skillsbot.cn/skill/2087
NCCL 多 GPU 通信库集成 https://www.skillsbot.cn/skill/2091
Nsight 性能分析专家 https://www.skillsbot.cn/skill/2092

🤖 强化学习

Skill 链接
稳定基线 3 https://www.skillsbot.cn/skill/7705

🔬 科学计算与生物信息学

Skill 链接
单细胞基因组学深度学习工具 https://www.skillsbot.cn/skill/7709
TensorFlow 物理机器学习 https://www.skillsbot.cn/skill/1733

在这里插入图片描述

数据截取自 SkillsBot 技能库

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐