样本选择
- Bagging：训练集是在原始集中有放回抽取的，从原始集中选出的各训练集之间是相互独立的。
- Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化，而权重是根据上一轮的分类结果进行调整。
样例权重
- Bagging：使用均匀取样，每个样例的权重相等。
- Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。
预测函数
- Bagging：所有预测函数的权重相等。
- Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会用更大的权重。
并行计算
- Bagging：各个计算函数可以并行生成。
- Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

五、集成学习模型的实现类库

Python中有多个库可以实现集成学习，以下是其中比较常用的几个库：

NumPy：NumPy是Python科学计算的基础包，其中包含了线性代数、随机数生成等功能，可以用于实现集成学习。
scikit-learn：scikit-learn是Python中常用的机器学习库，其中也包含了集成学习。
TensorFlow：TensorFlow是Google开发的深度学习框架，其中也包含了线性集成学习。
PyTorch：PyTorch是另一个常用的深度学习框架，其中也包含了集成学习。
Keras：Keras是一个高级神经网络API，可以在多个深度学习框架上运行，其中也包含了集成学习。

以上这些库都提供了丰富的接口和功能，可以满足不同场景下的需求。需要注意的是，在使用这些库时，需要根据具体情况选择合适的模型、参数和评估指标，以获得更好的预测效果。

六、集成学习模型的评价指标

集成学习可以进行回归和分类的建模。

1. 回归模型的评价指标有：

均方误差（Mean Squared Error，MSE）是预测值与真实值之间差值的平方的平均值，用来衡量模型的预测精度，MSE 越小，说明模型的预测结果越准确。
均方根误差（Root Mean Squared Error，RMSE）是均方误差的平方根，用来衡量模型的预测精度，RMSE 越小，说明模型的预测结果越准确。
平均绝对误差（Mean Absolute Error，MAE）是预测值与真实值之间差值的绝对值的平均值，用来衡量模型的预测精度，MAE 越小，说明模型的预测结果越准确。
决定系数（Coefficient of Determination，R-squared）用来衡量模型对数据的拟合程度，取值范围为 0~1，R-squared 越接近 1，说明模型对数据的拟合程度越好。

2. 分类模型的评价指标有：

准确率（Accuracy）是指分类正确的样本数占总样本数的比例，用来衡量模型的分类准确度。
精确率（Precision）是指分类为正类的样本中，实际为正类的样本数占分类为正类的样本数的比例，用来衡量模型对正类的分类准确度。
召回率（Recall）是指实际为正类的样本中，被分类为正类的样本数占实际为正类的样本数的比例，用来衡量模型对正类的识别能力。
F1 分数（F1-score）是精确率和召回率的调和平均数，用来综合衡量模型的分类准确度和识别能力。
ROC 曲线和 AUC 值是用来评估二元分类器性能的常用指标。ROC 曲线是以假正率（False Positive Rate，FPR）为横轴，真正率（True Positive Rate，TPR）为纵轴，绘制出来的曲线。AUC 值是 ROC 曲线下面积的大小，取值范围为 0~1，AUC 值越大，说明分类器的性能越好。

七、类库scikit-learn实现集成学习的例子

Bagging、Boosting和Stacking是三种常见的集成学习方法。下面是三种方法的建模示例

1. Bagging（自举汇聚法）：
Bagging通过随机有放回地从原始数据集中抽取样本，构建多个独立的基本模型，并通过投票或平均来进行预测。下面是使用随机森林（Random Forest）进行Bagging的建模过程和代码示例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
X, y = load_dataset()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=100)

# 使用Bagging进行训练
rf.fit(X_train, y_train)

# 预测
y_pred = rf.predict(X_test)

# 模型评价
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

2. Boosting（提升法）：
Boosting通过逐步训练多个弱学习器，并根据前一个模型的结果调整样本权重，以便更好地拟合错误分类的样本。下面是使用AdaBoost进行Boosting的建模过程和代码示例：


from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
X, y = load_dataset()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建AdaBoost分类器
ada = AdaBoostClassifier(n_estimators=100)

# 使用Boosting进行训练
ada.fit(X_train, y_train)

# 预测
y_pred = ada.predict(X_test)

# 模型评价
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

3. Stacking（堆叠法）：
Stacking通过将多个不同的基本模型的预测结果作为输入，训练一个元模型来进行最终的预测。下面是使用Stacking进行建模的示例代码：

from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
X, y = load_dataset()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建基本模型
model1 = DecisionTreeClassifier()
model2 = LogisticRegression()

# 创建Stacking分类器
stacking = StackingClassifier(estimators=[('dt', model1), ('lr', model2)], final_estimator=LogisticRegression())

# 使用Stacking进行训练
stacking.fit(X_train, y_train)

# 预测
y_pred = stacking.predict(X_test)

# 模型评价
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

八、集成学习的模型参数

1. RandomForestClassifier（随机森林分类器）：

n_estimators：决策树的数量。
criterion：用于衡量特征重要性的评估准则，例如"gini"或"entropy"。
max_depth：决策树的最大深度。
min_samples_split：拆分内部节点所需的最小样本数。
min_samples_leaf：叶节点上所需的最小样本数。
max_features：寻找最佳分割时要考虑的特征数量。

2. AdaBoostClassifier（自适应增强分类器）：

base_estimator：基础分类器，例如决策树。
n_estimators：基础分类器的数量。
learning_rate：每个分类器的权重缩减率。

3. StackingClassifier（堆叠分类器）：

estimators：一个由元组组成的列表，每个元组包含一个字符串标识符和一个分类器对象。
final_estimator：用于整合基础分类器预测结果的元分类器。

这些参数只是这些模型中的一部分，每个模型还有其他可用参数。您可以根据具体情况调整参数值以优化模型性能。

总结

本文主要简单介绍了集成学习的基本概念，优缺点，应用场景，实现方法，以及bagging, boosting, 堆叠法三种集成学习的建模过程,示例和模型参数等。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m