高光谱化学成分预测

中年妇女の友

345人浏览 · 2026-04-23 23:26:10

中年妇女の友 · 2026-04-23 23:26:10 发布

1、数据划分方法和评估指标调研

[1] Wang Y , Wang S , Bai R B ,et al.Prediction performance and reliability evaluation of three ginsenosides in Panax ginseng using hyperspectral imaging combined with a novel ensemble chemometric model[J].Food Chemistry, 2023.DOI:10.1016/j.foodchem.2023.136917.1区-人参皂苷含量

项目	详细内容
数据集规模	共 400 个人参样本；按种植年限分8组：园参2/3/4/5年、林下参10/14/21/25年，每组50个样本
数据集划分方法	SPXY法（基于联合x-y距离的样本划分）
划分比例	训练集:测试集 = 7:3（训练集280个，测试集120个）
是否分组独立划分	否，整体数据集统一划分，不按年份/种植模式单独分组划分
评估指标	1. 点预测指标：决定系数 $R^2$ 、均方根误差RMSE、相对分析误差RPD 2. 不确定性（区间预测）指标：预测区间覆盖率PICP、平均宽度百分比MWP、覆盖宽度准则CWC

[2] Wang B , Han J , Liu C ,et al.Flaxseed protein content prediction based on hyperspectral wavelength selection with fractional order ant colony optimization[J].FRONTIERS IN NUTRITION, 2025, 12(000).DOI:10.3389/fnut.2025.1551029.1区-亚麻籽蛋白质含量

项目	详细内容
数据集规模	共 90 个样本；来自西北30个亚麻品种，每个品种3次重复采集
数据集划分方法	SPXY法（基于联合x-y距离的样本集划分）
划分比例	校正集:预测集 = 2:1（校正集60个，预测集30个）
是否分组独立划分	否，整体数据集统一划分，不按品种/产地单独分组划分
评估指标	1. 决定系数 $R^2$ （校正集 $Rc2R^2_c$ 、预测集 $Rp2R^2_p$ ） 2. 均方根误差 RMSE 3. 相对预测偏差 RPD 4. 平均绝对误差 MAE

[3] Yang H E , Kim N W , Lee H G ,et al.Prediction of protein content in paddy rice (Oryza sativa L.) combining near-infrared spectroscopy and deep-learning algorithm[J].Frontiers in Plant Science, 2024, 15(000):14.DOI:10.3389/fpls.2024.1398762.2区-水稻蛋白质含量

项目	准确内容
数据集规模	带壳稻谷：360 样本 → 1800 条光谱糙米：120 样本 → 1200 条光谱
划分方法	分层随机抽样划分训练集/独立测试集；训练集内部做 10 折交叉验证调参
划分比例	训练集 : 独立测试集 = 7 : 3 10 折 CV 只是训练集内部按 9:1 反复验证
是否分组独立划分	是，稻谷、糙米分别单独划分、单独建模
评估指标	决定系数 $R^2$ （ $R_c^2$ 、 $R_v^2$ 、 $R_p^2$ ）均方根误差 RMSE（RMSEC、RMSEV、RMSEP）偏差 bias

[4] Deng Y , Xiao L , Shi Y .Enhanced Hyperspectral Forest Soil Organic Matter Prediction Using a Black-Winged Kite Algorithm-Optimized Convolutional Neural Network and Support Vector Machine[J].Applied Sciences (2076-3417), 2025, 15(2).DOI:10.3390/app15020503.3区-土壤有机质测量

项目	详细内容
数据集规模	总样本量 206 个，来自广西雅长国有林场、黄冕国有林场
数据集划分方法	SPXY算法（联合光谱x与有机质y距离划分）
划分比例	训练集∶验证集 = 4∶1（训练集164个，验证集42个）
是否分组独立划分	否，整体数据集统一划分，不按林场/地区单独分组划分
评估指标	1. 决定系数 $R^2$ 2. 均方根误差 RMSE 3. 平均绝对误差 MAE 4. 平均绝对相对误差 MARE 5. 平均偏差误差 MBE 6. 四分位数间距性能比 RPIQ

[5] Li X , Li Z , Qiu H ,et al.Multi-scale spatial and spectral feature fusion for soil carbon content prediction based on hyperspectral images[J].Ecological Indicators, 2024, 160(000):13.DOI:10.1016/j.ecolind.2024.111843.1区-土壤碳含量

项目	详细内容
数据集规模	内陆(Inland)：164个鳌山湾(Aoshan Bay)：120个胶州湾(Jiaozhou Bay)：134个总计：418个
划分方法	1. 按样本序号顺序划分 2. Kennard‑Stone(KS)法 3. SPXY法
划分比例	校正集∶预测集 = 2∶1
是否分组独立划分	是，按地区(内陆/鳌山湾/胶州湾) 分别独立进行样本划分与建模
评估指标	1. 决定系数 $R^2$ （ $R_c^2$ 、 $R_p^2$ ） 2. 均方根误差 RMSE（RMSEC、RMSEP） 3. 相对分析误差 RPD

2、常见评估指标介绍

评估指标	计算公式	核心计算逻辑	要解决的核心问题	计算设计的解决原理（为什么这样算）	核心优点
决定系数 $R^2$	$R2=1−∑i=1n(yi−y^i)2∑i=1n(yi−yˉ)2\displaystyle R^2=1-\frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{\sum_{i=1}^n (y_i-\bar{y})^2}$	用残差变异/总变异的占比，衡量模型解释数据变异的比例	无法量化模型解释力、不同数据集/单位无法直接对比拟合效果	以“变异比例”消除单位与量级差异，用1减去未解释变异，直观反映拟合度	无量纲、取值0~1、跨数据集可对比、直观反映解释能力
均方根误差 $R M S E$	$RMSE=1n∑i=1n(yi−y^i)2\displaystyle RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2}$	误差平方→平均→开平方，放大并惩罚大误差	需要量化绝对预测精度，且识别模型的严重错误预测	平方操作放大大误差，开平方恢复原始单位，精准反映整体预测偏差	带物理单位、对异常值敏感、可直观衡量预测精准度
平均绝对误差 $M A E$	$MAE=1n∑i=1n∣yi−y^i∣\displaystyle MAE=\frac{1}{n}\sum_{i=1}^n \vert y_i-\hat{y}_i \vert$	误差取绝对值后直接平均，等权对待所有误差	RMSE受异常值干扰，无法客观评价模型平均稳定性	用绝对值替代平方，不放大极端误差，真实反映平均偏差水平	抗异常值、计算稳定、客观衡量模型预测稳健性
相对分析误差 $R P D$	$RPD=SDRMSEP,SD=1n−1∑i=1n(yi−yˉ)2\displaystyle RPD=\frac{SD}{RMSEP}, SD=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (y_i-\bar{y})^2}$	数据标准差/预测误差，误差相对数据波动的比值	单一RMSE受数据分布影响，无法判定模型实际应用价值	用比值消除数据自身波动差异，直接衡量误差相对于数据的可控程度	无量纲、跨研究可比、有明确判定阈值、直接评估模型可用性

3、数据预处理

4、训练

5、推理

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【无标题】

NovelForge是一个AI小说创作平台，采用单体架构设计，核心功能包括六阶段创作流水线、多模型路由和流式输出。系统基于FastAPI+Vue3技术栈，后端使用LangGraph进行AI流程编排，支持8个LLM提供商。数据库采用PostgreSQL存储结构化数据，Qdrant处理向量记忆。平台强调人机协作，用户可控制创作流程的每个环节。安全设计包含JWT认证、数据隔离和API限流。开发采用敏捷模