深度学习 —— 神经网络

激活函数	输出范围	是否梯度消失	速度	是否解决死亡 ReLU	适用位置
Sigmoid	(0,1)	严重饱和	慢	×	二分类输出层
Tanh	(-1,1)	饱和	慢	×	传统 RNN
ReLU	[0,+∞)	不饱和	极快	×（会死亡）	CNN / 全连接隐藏层（主流）
Leaky ReLU	(-∞,+∞)	不饱和	快	✅	改进 ReLU
GELU	(-∞,+∞)	不饱和	中等	✅	Transformer / 大模型
Softmax	(0,1) 和为 1	-	中等	-	多分类输出层

1.Sigmoid

2.ReLU

3.GELU （大模型）

4.Softmax

输出和为1的概率分布，用于多分类问题的输出层

Xi. 的 i 通常为 -1 ，也就是特征轴

运算 y = torch.softmax (x, dim = -1) 或 y = F.softmax(x, dim = -1)

一次计算后 -> 下图1 概率分布图概率最大的那个类别也就是模型预测类别

二次计算后 -> 下图2 不改变数据之间大小关系，多次计算后会均匀分布。精度溢出。

总结：

激活函数的选择方法

隐藏层：优先级

Relu ——> Leaky Relu / PReLu / GELU ——> （Tanh）

输出层:

多分类问题选择 softmax

二分类问题选择 sigmoid 或 softmax

回归问题多数选择 identity (就是没有激活函数)，正数ReLu，区间Sigmoid / Tanh

SoftMax 和 Sigmoid 用于二分类的区别：

1.softmax 输出两个概率，对应负类和正类

2.sigmoid 输出一个概率，对应正类概率，负类概率 = 1 - 正类概率

三、参数初始化

是什么？？创建神经网络时，初始化网络层的参数

作用： 1. 防止梯度消失或梯度爆炸

2. 提高收敛速度

3. 打破对称性:

如果所有神经元的参数都一样，则输出数据经过前向传播，再反向传播时，得到的梯度相同。

W新 = W旧 - 学习率 lr * 梯度 grad，结果都一样。模型就无法训练网络

注意：通常采用pytorch默认参数初始化方式，特殊情况下，才需要手动设置

w 和 b 初始化

初始化的方法：

1. 均匀分布初始化

# 1.定义一个线性层，输入维度3，输出维度5
linear = nn.Linear(3,5)
# 2.对权重w进行初始化
nn.init.uniform_(linear.weight)
# 3.对偏置b进行初始化
nn.init.uniform_(linear.bias)
# 4.打印权重和偏置
print(f"w:{linear.weight}, shape: {linear.weight.shape}")
print(f"b:{linear.bias}, shape: {linear.bias.shape}")

2. 正态分布初始化

# 1.定义一个线性层，输入维度3，输出维度5
linear = nn.Linear(3,5)
# 2.对权重w进行初始化
nn.init.normal_(linear.weight)
# 3.对偏置b进行初始化
nn.init.normal_(linear.bias)

3.全0 初始化

nn.init.zeros_(linear.bias)

4.全1 初始化

5.固定值初始化

nn.init.constant_(linear.bias,val=0.5)

6. kaiming 初始化，也叫做 HE 初始化偏置是全0

nn.init.kaiming_normal_(linear.weight)

7. Xavier 初始化，也叫做 Glorot 初始化

nn.init.xavier_normal_(linear.weight)

极少数场景，需要手动参数初始化：

权重W：

relu网络： kaiming

非relu网络：xavier

偏置：全0：（简单，计算快）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ThinkPHP3.X：经典PHP框架的全面解析

ThinkPHP3.X是一款经典的PHP MVC框架，具有以下核心特性：采用MVC架构实现业务分离，支持PATHINFO路由和REST风格URL；提供强大的数据库ORM操作，支持多种数据库和链式查询；内置模板引擎、缓存机制及调试模式；具备自动验证、关联模型等高级功能，同时提供扩展机制和安全防护。该版本虽功能全面且易上手，但已停止维护，建议升级至5.X/6.X等新版框架。

AtomGit开源社区

【场景生成与研究】考虑时序相关性MC的场景生成与削减研究（Matlab代码实现）

随着风电装机容量的迅猛发展，风电并网规模逐渐增加[1]，风电出力不确定性对电力系统运行调度和控制的影响不可忽视。而现阶段的风电功率预测精度[2]依然不尽如人意，风电大规模并网对电力系统安全运行提出了更高的要求。常规的确定性优化调度模型已经不再适用于大规模风电并网系统，场景法作为随机优化调度模型的一种，能够对风电不确定变量进行抽样产生可能出现的场景，通过多个确定性场景来表征不确定变量。因此，基于场