【2026金地杯】C题深度解析：核桃油品质分析特征提取、筛选与多维评价模型

茜茜数模

424人浏览 · 2026-05-27 09:39:48

茜茜数模 · 2026-05-27 09:39:48 发布

针对2026年“金地杯”山西省大学生数学建模挑战赛 C题：核桃油品质分析特征提取筛选与评价，这道题目是典型的数据挖掘与综合评价类赛题。我们在解决此题时，可以跳出传统的统计学框架，引入高维特征选择、流形学习以及深度评价网络等前瞻性思路，使论文在“逻辑深度”和“模型创新”上达到获奖水准。

引言

核桃油作为“植物油之王”，其品质评价涉及脂肪酸组成、理化指标、风味物质及营养成分等多个高维变量。山西作为核桃主产区，建立科学的核桃油品质评价体系对产业升级具有重要意义。

2026年“金地杯”C题的核心在于：如何在海量的理化特征中剔除冗余、提取关键信息，并构建一个能够客观反映核桃油优劣的数学评价量尺。本文将结合机器学习与综合评价理论，给出全套解决方案。

一、数据预处理：构建稳健的科研基石

在面对实验室测得的核桃油数据时，第一步并非建模，而是数据清洗。

异常值检测与修正： 采用 $3\sigma$ 原则 或 箱线图 (Boxplot) 识别实验误差导致的离群点。
缺失值插补： 针对理化指标的微量缺失，不建议直接删除，而是采用 多重插补 (Multiple Imputation) 或 随机森林回归插补，以保持样本分布的完整性。
数据标准化： 消除量纲影响。

$$z = \frac{x - \mu}{\sigma}$$

由于核桃油指标中既有“越大越好”的极大型指标（如不饱和脂肪酸含量），也有“越小越好”的极小型指标（如过氧化值），需进行正向化处理。

二、特征提取：从高维到关键

核桃油的特征往往存在高度的共线性（例如，几种脂肪酸的含量加和为1）。直接建模会导致模型失真。

2.1 基于主成分分析 (PCA) 的降维

通过特征分解，将数十个理化指标转化为少数几个互不相关的主成分。

设协方差矩阵为 $\Sigma$，求解特征值 $\lambda_i$ 和特征向量：

$$\Sigma \mathbf{v}_i = \lambda_i \mathbf{v}_i$$

我们选取累计贡献率超过 85% 的前 $k$ 个主成分作为后续评价的输入。

2.2 融合 Spearman 相关系数的热图分析

利用相关系数矩阵分析各指标间的内在关联。若两指标相关性 $>0.9$，则可考虑合并，减少特征冗余。

三、特征筛选：寻找品质的“生物标志物”

为了筛选出对品质贡献最大的特征，我们引入递归特征消除 (RFE) 与 Lasso 回归。

Lasso 回归的目标函数：

$$\min_{\beta} \left( \|y - X\beta\|_2^2 + \lambda \|\beta\|_1 \right)$$

通过 $L_1$ 正则化，使得不重要的特征系数缩减为0，从而筛选出如亚麻酸比例、酸价、维生素E含量等核心关键指标。

四、综合评价模型：构建品质“评分卡”

我们推荐采用 熵权法 (Entropy Weight Method) 结合 TOPSIS 算法，这是一种兼具客观性与科学性的评价方案。

4.1 熵权法确定指标权重

熵反映了信息的无序程度。熵值越小，说明该指标在不同样本间的差异越大，提供的有用信息越多，权重应越高。

指标 $j$ 的熵值 $e_j$ 定义为：

$$e_j = -k \sum_{i=1}^{n} p_{ij} \ln(p_{ij})$$

最终得到权重向量 $\mathbf{W} = [w_1, w_2, \dots, w_m]^T$。

4.2 TOPSIS 优劣解距离法

通过计算评价对象与最优解 (Ideal Solution) 及 最劣解 (Negative-Ideal Solution) 的欧几里得距离来评分。

$$D_i^+ = \sqrt{\sum_{j=1}^{m} w_j (z_{ij} - z_j^+)^2}$$

$$C_i = \frac{D_i^-}{D_i^+ + D_i^-}$$

$C_i$ 值越接近1，说明该核桃油品质越优。

五、算法实战：Python 代码实现

Python

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt

# 1. 模拟加载核桃油实验数据
data = pd.read_csv("walnut_oil_data.csv") 

# 2. 相关性热图分析
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title("Correlation Map of Walnut Oil Features")
plt.show()

# 3. PCA降维提取特征
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data.drop(columns=['Sample_ID']))
pca = PCA(n_components=0.90) # 保留90%的方差
principal_components = pca.fit_transform(scaled_data)

# 4. 熵权法计算权重 (核心函数)
def get_entropy_weights(df):
    # 归一化
    p = df / df.sum(axis=0)
    # 计算熵值
    e = -1 / np.log(len(df)) * (p * np.log(p + 1e-9)).sum(axis=0)
    # 计算权重
    weights = (1 - e) / (1 - e).sum()
    return weights

weights = get_entropy_weights(pd.DataFrame(scaled_data))
print(f"各指标权重分布: {weights}")

六、深度讨论与模型创新（获奖关键）

作为博主和研究者，我们需要在论文中展示更深层次的思考：

非线性评价的引入：

传统的线性加权可能无法捕捉成分间的化学交互作用。我们可以提议使用模糊综合评价法 (Fuzzy Synthetic Evaluation)，处理品质评价中的“模糊性”（如：什么是“优”？什么是“良”？）。
聚类分析辅助分类：

利用 K-means++ 或 层次聚类，将市面上的核桃油分为“高营养型”、“长保质期型”和“普通消费型”，这能为企业生产提供更具体的建议。
医学人工智能的交叉视角：

在文字说明中，可以提到核桃油中 $n-3$ 与 $n-6$ 脂肪酸的比例对预防心脑血管疾病的影响。这种跨学科的论述（结合你的 PhD 背景）会显著提升论文的独特性和说服力。