1、数据划分方法 和 评估指标 调研

[1] Wang Y , Wang S , Bai R B ,et al.Prediction performance and reliability evaluation of three ginsenosides in Panax ginseng using hyperspectral imaging combined with a novel ensemble chemometric model[J].Food Chemistry, 2023.DOI:10.1016/j.foodchem.2023.136917.1区-人参皂苷含量

项目 详细内容
数据集规模 400 个人参样本;按种植年限分8组:园参2/3/4/5年、林下参10/14/21/25年,每组50个样本
数据集划分方法 SPXY法(基于联合x-y距离的样本划分)
划分比例 训练集:测试集 = 7:3(训练集280个,测试集120个)
是否分组独立划分 ,整体数据集统一划分,不按年份/种植模式单独分组划分
评估指标 1. 点预测指标:决定系数R2R^2R2、均方根误差RMSE、相对分析误差RPD
2. 不确定性(区间预测)指标:预测区间覆盖率PICP、平均宽度百分比MWP、覆盖宽度准则CWC

[2] Wang B , Han J , Liu C ,et al.Flaxseed protein content prediction based on hyperspectral wavelength selection with fractional order ant colony optimization[J].FRONTIERS IN NUTRITION, 2025, 12(000).DOI:10.3389/fnut.2025.1551029.1区-亚麻籽蛋白质含量

项目 详细内容
数据集规模 90 个样本;来自西北30个亚麻品种,每个品种3次重复采集
数据集划分方法 SPXY法(基于联合x-y距离的样本集划分)
划分比例 校正集:预测集 = 2:1(校正集60个,预测集30个)
是否分组独立划分 ,整体数据集统一划分,不按品种/产地单独分组划分
评估指标 1. 决定系数 R2R^2R2(校正集Rc2R^2_cRc2、预测集Rp2R^2_pRp2
2. 均方根误差 RMSE
3. 相对预测偏差 RPD
4. 平均绝对误差 MAE

[3] Yang H E , Kim N W , Lee H G ,et al.Prediction of protein content in paddy rice (Oryza sativa L.) combining near-infrared spectroscopy and deep-learning algorithm[J].Frontiers in Plant Science, 2024, 15(000):14.DOI:10.3389/fpls.2024.1398762.2区-水稻蛋白质含量

项目 准确内容
数据集规模 带壳稻谷:360 样本 → 1800 条光谱
糙米:120 样本 → 1200 条光谱
划分方法 分层随机抽样划分训练集/独立测试集
训练集内部做 10 折交叉验证 调参
划分比例 训练集 : 独立测试集 = 7 : 3
10 折 CV 只是训练集内部按 9:1 反复验证
是否分组独立划分 ,稻谷、糙米分别单独划分、单独建模
评估指标 决定系数 R2R^2R2Rc2R_c^2Rc2Rv2R_v^2Rv2Rp2R_p^2Rp2
均方根误差 RMSE(RMSEC、RMSEV、RMSEP)
偏差 bias

[4] Deng Y , Xiao L , Shi Y .Enhanced Hyperspectral Forest Soil Organic Matter Prediction Using a Black-Winged Kite Algorithm-Optimized Convolutional Neural Network and Support Vector Machine[J].Applied Sciences (2076-3417), 2025, 15(2).DOI:10.3390/app15020503.3区-土壤有机质测量

项目 详细内容
数据集规模 总样本量 206 个,来自广西雅长国有林场、黄冕国有林场
数据集划分方法 SPXY算法(联合光谱x与有机质y距离划分)
划分比例 训练集∶验证集 = 4∶1(训练集164个,验证集42个)
是否分组独立划分 ,整体数据集统一划分,不按林场/地区单独分组划分
评估指标 1. 决定系数 R2R^2R2
2. 均方根误差 RMSE
3. 平均绝对误差 MAE
4. 平均绝对相对误差 MARE
5. 平均偏差误差 MBE
6. 四分位数间距性能比 RPIQ

[5] Li X , Li Z , Qiu H ,et al.Multi-scale spatial and spectral feature fusion for soil carbon content prediction based on hyperspectral images[J].Ecological Indicators, 2024, 160(000):13.DOI:10.1016/j.ecolind.2024.111843.1区-土壤碳含量

项目 详细内容
数据集规模 内陆(Inland):164个
鳌山湾(Aoshan Bay):120个
胶州湾(Jiaozhou Bay):134个
总计:418个
划分方法 1. 按样本序号顺序划分
2. Kennard‑Stone(KS)法
3. SPXY法
划分比例 校正集∶预测集 = 2∶1
是否分组独立划分 ,按地区(内陆/鳌山湾/胶州湾) 分别独立进行样本划分与建模
评估指标 1. 决定系数 R2R^2R2Rc2R_c^2Rc2Rp2R_p^2Rp2
2. 均方根误差 RMSE(RMSEC、RMSEP)
3. 相对分析误差 RPD

2、常见评估指标介绍

评估指标 计算公式 核心计算逻辑 要解决的核心问题 计算设计的解决原理(为什么这样算) 核心优点
决定系数 R2R^2R2 R2=1−∑i=1n(yi−y^i)2∑i=1n(yi−yˉ)2\displaystyle R^2=1-\frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{\sum_{i=1}^n (y_i-\bar{y})^2}R2=1i=1n(yiyˉ)2i=1n(yiy^i)2 残差变异/总变异的占比,衡量模型解释数据变异的比例 无法量化模型解释力、不同数据集/单位无法直接对比拟合效果 以“变异比例”消除单位与量级差异,用1减去未解释变异,直观反映拟合度 无量纲、取值0~1、跨数据集可对比、直观反映解释能力
均方根误差 RMSERMSERMSE RMSE=1n∑i=1n(yi−y^i)2\displaystyle RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2}RMSE=n1i=1n(yiy^i)2 误差平方→平均→开平方,放大并惩罚大误差 需要量化绝对预测精度,且识别模型的严重错误预测 平方操作放大大误差,开平方恢复原始单位,精准反映整体预测偏差 带物理单位、对异常值敏感、可直观衡量预测精准度
平均绝对误差 MAEMAEMAE MAE=1n∑i=1n∣yi−y^i∣\displaystyle MAE=\frac{1}{n}\sum_{i=1}^n \vert y_i-\hat{y}_i \vertMAE=n1i=1nyiy^i 误差取绝对值后直接平均,等权对待所有误差 RMSE受异常值干扰,无法客观评价模型平均稳定性 用绝对值替代平方,不放大极端误差,真实反映平均偏差水平 抗异常值、计算稳定、客观衡量模型预测稳健性
相对分析误差 RPDRPDRPD RPD=SDRMSEP,SD=1n−1∑i=1n(yi−yˉ)2\displaystyle RPD=\frac{SD}{RMSEP}, SD=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (y_i-\bar{y})^2}RPD=RMSEPSD,SD=n11i=1n(yiyˉ)2 数据标准差/预测误差,误差相对数据波动的比值 单一RMSE受数据分布影响,无法判定模型实际应用价值 用比值消除数据自身波动差异,直接衡量误差相对于数据的可控程度 无量纲、跨研究可比、有明确判定阈值、直接评估模型可用性

3、数据预处理

4、训练

5、推理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐