贝叶斯分类算法详解

Hisaxx

293人浏览 · 2026-03-21 10:55:44

Hisaxx · 2026-03-21 10:55:44 发布

贝叶斯分类算法详解 - 乳腺癌自动诊断分析

1. 算法介绍

1.1 朴素贝叶斯算法原理

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的分类算法，它假设特征之间相互独立，因此被称为"朴素"。其核心思想是通过先验概率和似然概率计算后验概率，从而对样本进行分类。

贝叶斯定理：

$\frac{P(x|y)P(y)}{P(x)}$

其中：

$P (y ∣ x)$ ：后验概率，给定特征x时类别y的概率
$P (x ∣ y)$ ：似然概率，类别y下特征x的概率
$P (y)$ ：先验概率，类别y的概率
$P (x)$ ：证据概率，特征x的概率

1.2 高斯朴素贝叶斯

高斯朴素贝叶斯（GaussianNB）是朴素贝叶斯的一种变体，适用于连续特征。它假设特征服从高斯分布，通过计算样本在不同类别下的高斯概率密度来进行分类。

2. 项目背景

乳腺癌是女性最常见的恶性肿瘤之一，早期诊断对提高治愈率至关重要。本项目使用贝叶斯分类算法对乳腺癌数据集进行分析，实现自动诊断系统。

2.1 数据集介绍

本项目使用的乳腺癌数据集包含569个样本，每个样本有30个特征和1个标签。特征包括肿块的各种属性，如半径、纹理、周长等，标签表示诊断结果（良性或恶性）。

3. 代码实现详解

3.1 环境准备

import pandas as pd
import numpy as np
import scipy
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
print("库导入成功!")

3.2 数据读入与预处理

# 读取数据集
df = pd.read_csv("bc_data.csv")
print(f"数据维度: {df.shape}")

# 移除第一行（列名行）
df = df.iloc[1:].reset_index(drop=True)

# 标签编码：M->1, B->0
encoder = LabelEncoder()
df['diagnosis'] = encoder.fit_transform(df['diagnosis'])
print("标签编码完成: M->1, B->0")

# 准备特征和标签
x = df.iloc[:,2:]
y = df['diagnosis']

# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.3, random_state=40, stratify=y
)

print(f"训练集维度: {x_train.shape}")
print(f"测试集维度: {x_test.shape}")

3.3 模型训练

# 初始化并训练高斯朴素贝叶斯模型
gnb_clf = GaussianNB()
gnb_clf.fit(x_train, y_train)
print("高斯朴素贝叶斯模型训练完成!")

3.4 模型评价

# 预测测试集
gnb_ypred = gnb_clf.predict(x_test)

# 计算评估指标
accuracy = accuracy_score(y_test, gnb_ypred)
precision = precision_score(y_test, gnb_ypred)
recall = recall_score(y_test, gnb_ypred)
f1 = f1_score(y_test, gnb_ypred)

print("默认参数模型评估结果:")
print(f"准确率: {accuracy:.6f}")
print(f"精确率: {precision:.6f}")
print(f"召回率: {recall:.6f}")
print(f"F1值: {f1:.6f}")

3.5 模型调参

# 定义参数网格
params = {'var_smoothing': [1e-7, 1e-8, 1e-9, 1e-10, 1e-11, 1e-12]}

# 使用GridSearchCV进行参数调优
gnb_grid_clf = GridSearchCV(GaussianNB(), params, cv=5, verbose=2)
gnb_grid_clf.fit(x_train, y_train)

print(f"\n最佳参数: {gnb_grid_clf.best_params_}")
print(f"最佳交叉验证分数: {gnb_grid_clf.best_score_:.6f}")

3.6 调参后模型评价

# 使用最佳参数模型进行预测
tuned_ypred = gnb_grid_clf.best_estimator_.predict(x_test)

# 计算调参后模型的评估指标
tuned_accuracy = accuracy_score(y_test, tuned_ypred)
tuned_precision = precision_score(y_test, tuned_ypred)
tuned_recall = recall_score(y_test, tuned_ypred)
tuned_f1 = f1_score(y_test, tuned_ypred)

print("调参后模型评估结果:")
print(f"准确率: {tuned_accuracy:.6f}")
print(f"精确率: {tuned_precision:.6f}")
print(f"召回率: {tuned_recall:.6f}")
print(f"F1值: {tuned_f1:.6f}")

3.7 结果对比

print("\n模型性能对比:")
print("-" * 50)
print(f"{'指标':<12} {'默认参数':<15} {'调参后':<15} {'提升':<15}")
print("-" * 50)
print(f"{'准确率':<12} {accuracy:<15.6f} {tuned_accuracy:<15.6f} {tuned_accuracy-accuracy:+.6f}")
print(f"{'精确率':<12} {precision:<15.6f} {tuned_precision:<15.6f} {tuned_precision-precision:+.6f}")
print(f"{'召回率':<12} {recall:<15.6f} {tuned_recall:<15.6f} {tuned_recall-recall:+.6f}")
print(f"{'F1值':<12} {f1:<15.6f} {tuned_f1:<15.6f} {tuned_f1-f1:+.6f}")
print("-" * 50)