【NLP实战】用BERT进行文本情感分析：从理论到实践

南屹川

1093人浏览 · 2026-05-11 09:46:42

南屹川 · 2026-05-11 09:46:42 发布

【NLP实战】用BERT进行文本情感分析：从理论到实践

引言

文本情感分析是自然语言处理领域的重要任务，广泛应用于舆情分析、产品评论分析、客户反馈处理等场景。BERT（Bidirectional Encoder Representations from Transformers）是Google在2018年提出的预训练语言模型，在多个NLP任务上取得了突破性的成果。本文将详细介绍如何使用BERT进行文本情感分析，包括模型原理、实现步骤和实战技巧。

一、BERT模型概述

1.1 BERT的核心思想

BERT的核心思想是通过预训练获得通用的语言表示，然后通过微调（Fine-tuning）将这些表示应用到特定任务中。

预训练阶段：

使用大量无标注文本进行预训练
采用Masked Language Model（MLM）和Next Sentence Prediction（NSP）任务

微调阶段：

在预训练模型基础上添加任务特定的输出层
使用少量标注数据进行微调

1.2 BERT的架构

BERT基于Transformer架构，由多个Transformer编码器层堆叠而成：

输入层 → 嵌入层（Token Embedding + Segment Embedding + Position Embedding）
        → Transformer Encoder × N
        → 输出层

1.3 BERT的变体

BERT-base：12层Transformer，768维隐藏层，12个注意力头，110M参数
BERT-large：24层Transformer，1024维隐藏层，16个注意力头，340M参数
BERT-Chinese：针对中文优化的预训练模型

二、情感分析任务定义

2.1 任务描述

情感分析任务的目标是判断一段文本的情感倾向，常见的分类包括：

二分类：正面（positive）、负面（negative）
三分类：正面、负面、中性（neutral）
多分类：更细粒度的情感分类

2.2 数据集选择

本文使用中文情感分析数据集（如酒店评论、电商评论等）进行演示：

import pandas as pd

# 加载数据集
data = pd.read_csv('sentiment_data.csv')
print(f"数据集大小: {len(data)}")
print(f"类别分布:\n{data['label'].value_counts()}")

# 查看示例数据
print("\n示例数据:")
print(data.head())

2.3 数据预处理

import re
import string

def clean_text(text):
    """文本清洗函数"""
    # 转换为小写
    text = text.lower()
    
    # 移除HTML标签
    text = re.sub(r'<.*?>', '', text)
    
    # 移除标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # 移除数字
    text = re.sub(r'\d+', '', text)
    
    # 移除多余空格
    text = ' '.join(text.split())
    
    return text

# 应用清洗函数
data['cleaned_text'] = data['text'].apply(clean_text)

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

三、BERT微调实现

3.1 安装依赖

pip install transformers torch pandas scikit-learn

3.2 加载预训练模型

from transformers import BertTokenizer, BertForSequenceClassification

# 加载中文BERT模型
model_name = 'bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)

3.3 数据准备

import torch
from torch.utils.data import Dataset, DataLoader

class SentimentDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        text = str(self.texts[idx])
        label = self.labels[idx]
        
        # 编码文本
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            return_token_type_ids=False,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt'
        )
        
        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

# 创建数据集和数据加载器
train_dataset = SentimentDataset(
    train_data['cleaned_text'].values,
    train_data['label'].values,
    tokenizer
)

test_dataset = SentimentDataset(
    test_data['cleaned_text'].values,
    test_data['label'].values,
    tokenizer
)

BATCH_SIZE = 16
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE)

3.4 训练模型

import torch.nn as nn
from torch.optim import AdamW
from tqdm import tqdm

# 设备配置
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

# 优化器和损失函数
optimizer = AdamW(model.parameters(), lr=2e-5)
criterion = nn.CrossEntropyLoss()

# 训练函数
def train_epoch(model, dataloader, optimizer, criterion, device):
    model.train()
    total_loss = 0
    correct = 0
    total = 0
    
    for batch in tqdm(dataloader, desc="Training"):
        optimizer.zero_grad()
        
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)
        
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        logits = outputs.logits
        
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        predictions = torch.argmax(logits, dim=1)
        correct += (predictions == labels).sum().item()
        total += labels.size(0)
    
    avg_loss = total_loss / len(dataloader)
    accuracy = correct / total
    
    return avg_loss, accuracy

# 评估函数
def evaluate(model, dataloader, criterion, device):
    model.eval()
    total_loss = 0
    correct = 0
    total = 0
    
    with torch.no_grad():
        for batch in tqdm(dataloader, desc="Evaluating"):
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            logits = outputs.logits
            
            total_loss += loss.item()
            predictions = torch.argmax(logits, dim=1)
            correct += (predictions == labels).sum().item()
            total += labels.size(0)
    
    avg_loss = total_loss / len(dataloader)
    accuracy = correct / total
    
    return avg_loss, accuracy

# 训练循环
NUM_EPOCHS = 3

for epoch in range(NUM_EPOCHS):
    print(f"\nEpoch {epoch+1}/{NUM_EPOCHS}")
    
    train_loss, train_acc = train_epoch(model, train_loader, optimizer, criterion, device)
    print(f"Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.4f}")
    
    val_loss, val_acc = evaluate(model, test_loader, criterion, device)
    print(f"Val Loss: {val_loss:.4f} | Val Acc: {val_acc:.4f}")

四、模型优化与调参

4.1 学习率调整

# 使用学习率调度器
from torch.optim.lr_scheduler import ReduceLROnPlateau

scheduler = ReduceLROnPlateau(optimizer, mode='max', factor=0.1, patience=1)

# 在训练循环中更新学习率
for epoch in range(NUM_EPOCHS):
    train_loss, train_acc = train_epoch(model, train_loader, optimizer, criterion, device)
    val_loss, val_acc = evaluate(model, test_loader, criterion, device)
    
    scheduler.step(val_acc)  # 根据验证集准确率调整学习率

4.2 超参数搜索

from sklearn.model_selection import ParameterGrid

# 定义超参数网格
param_grid = {
    'learning_rate': [1e-5, 2e-5, 5e-5],
    'batch_size': [16, 32],
    'num_epochs': [3, 5]
}

# 网格搜索
best_acc = 0
best_params = {}

for params in ParameterGrid(param_grid):
    print(f"\nTesting params: {params}")
    
    # 重新初始化模型
    model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2).to(device)
    optimizer = AdamW(model.parameters(), lr=params['learning_rate'])
    
    # 训练
    for epoch in range(params['num_epochs']):
        train_loss, train_acc = train_epoch(model, train_loader, optimizer, criterion, device)
    
    # 评估
    val_loss, val_acc = evaluate(model, test_loader, criterion, device)
    
    if val_acc > best_acc:
        best_acc = val_acc
        best_params = params
        torch.save(model.state_dict(), 'best_model.pt')
    
    print(f"Accuracy: {val_acc:.4f}")

print(f"\nBest params: {best_params}")
print(f"Best accuracy: {best_acc:.4f}")

五、模型评估与分析

5.1 混淆矩阵

from sklearn.metrics import confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# 获取预测结果
def get_predictions(model, dataloader, device):
    model.eval()
    predictions = []
    labels = []
    
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            label = batch['labels'].to(device)
            
            outputs = model(input_ids, attention_mask=attention_mask)
            preds = torch.argmax(outputs.logits, dim=1)
            
            predictions.extend(preds.cpu().numpy())
            labels.extend(label.cpu().numpy())
    
    return predictions, labels

# 计算混淆矩阵
predictions, labels = get_predictions(model, test_loader, device)
cm = confusion_matrix(labels, predictions)

# 绘制混淆矩阵
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Negative', 'Positive'],
            yticklabels=['Negative', 'Positive'])
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

# 分类报告
print(classification_report(labels, predictions, target_names=['Negative', 'Positive']))

5.2 错误分析

def analyze_errors(model, dataloader, tokenizer, device, n_examples=5):
    """分析错误样本"""
    model.eval()
    errors = []
    
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            
            outputs = model(input_ids, attention_mask=attention_mask)
            predictions = torch.argmax(outputs.logits, dim=1)
            
            # 找出错误预测的样本
            for i in range(len(labels)):
                if predictions[i] != labels[i]:
                    # 解码文本
                    text = tokenizer.decode(input_ids[i], skip_special_tokens=True)
                    errors.append({
                        'text': text,
                        'predicted': int(predictions[i].item()),
                        'actual': int(labels[i].item()),
                        'confidence': torch.softmax(outputs.logits[i], dim=0).max().item()
                    })
                
                if len(errors) >= n_examples:
                    return errors
    
    return errors

# 分析错误样本
errors = analyze_errors(model, test_loader, tokenizer, device)

print("\n错误样本分析:")
for i, error in enumerate(errors, 1):
    print(f"\n示例 {i}:")
    print(f"文本: {error['text']}")
    print(f"预测: {'Positive' if error['predicted'] == 1 else 'Negative'} (置信度: {error['confidence']:.4f})")
    print(f"实际: {'Positive' if error['actual'] == 1 else 'Negative'}")

六、模型部署与应用

6.1 模型保存与加载

# 保存模型
torch.save(model.state_dict(), 'bert_sentiment_model.pt')

# 加载模型
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)
model.load_state_dict(torch.load('bert_sentiment_model.pt'))
model = model.to(device)
model.eval()

6.2 构建推理API

from flask import Flask, request, jsonify

app = Flask(__name__)

def predict_sentiment(text):
    """预测情感"""
    encoding = tokenizer.encode_plus(
        text,
        add_special_tokens=True,
        max_length=128,
        return_token_type_ids=False,
        padding='max_length',
        truncation=True,
        return_attention_mask=True,
        return_tensors='pt'
    )
    
    input_ids = encoding['input_ids'].to(device)
    attention_mask = encoding['attention_mask'].to(device)
    
    with torch.no_grad():
        outputs = model(input_ids, attention_mask=attention_mask)
        prediction = torch.argmax(outputs.logits, dim=1).item()
        confidence = torch.softmax(outputs.logits, dim=1).max().item()
    
    return {
        'sentiment': 'positive' if prediction == 1 else 'negative',
        'confidence': float(confidence)
    }

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json()
    text = data.get('text', '')
    
    if not text:
        return jsonify({'error': 'No text provided'}), 400
    
    result = predict_sentiment(text)
    return jsonify(result)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

6.3 API测试

import requests

# 测试API
response = requests.post(
    'http://localhost:5000/predict',
    json={'text': '这家餐厅的服务非常好，菜品也很美味！'}
)

print(response.json())
# 输出: {'sentiment': 'positive', 'confidence': 0.985}

七、进阶技巧

7.1 使用更强大的模型

# 使用RoBERTa模型
from transformers import RobertaTokenizer, RobertaForSequenceClassification

roberta_tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
roberta_model = RobertaForSequenceClassification.from_pretrained('roberta-base', num_labels=2)

7.2 数据增强

import random

def augment_text(text):
    """文本增强"""
    words = text.split()
    
    # 随机交换相邻词
    if len(words) > 1:
        idx = random.randint(0, len(words)-2)
        words[idx], words[idx+1] = words[idx+1], words[idx]
    
    # 随机删除词（10%概率）
    words = [word for word in words if random.random() > 0.1]
    
    return ' '.join(words)

# 对训练数据进行增强
train_data['augmented_text'] = train_data['cleaned_text'].apply(augment_text)

7.3 集成学习

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer

# 提取BERT特征
def extract_features(model, dataloader, device):
    model.eval()
    features = []
    
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            
            outputs = model(input_ids, attention_mask=attention_mask)
            # 使用[CLS] token的输出作为特征
            cls_output = outputs.hidden_states[-1][:, 0, :]
            features.extend(cls_output.cpu().numpy())
    
    return features

# 提取特征
train_features = extract_features(model, train_loader, device)
test_features = extract_features(model, test_loader, device)

# 训练分类器
lr = LogisticRegression()
lr.fit(train_features, train_data['label'].values)

# 预测
predictions = lr.predict(test_features)
accuracy = (predictions == test_data['label'].values).mean()
print(f"集成模型准确率: {accuracy:.4f}")

八、实战经验总结

8.1 常见问题与解决方案

问题	解决方案
过拟合	使用Dropout、增加训练数据、早停策略
训练速度慢	使用更大的batch size、混合精度训练、分布式训练
内存不足	减小batch size、使用梯度累积、选择更小的模型
类别不平衡	使用加权损失、数据增强、过采样/欠采样

8.2 性能优化建议

# 混合精度训练
scaler = torch.cuda.amp.GradScaler()

for batch in train_loader:
    optimizer.zero_grad()
    
    with torch.cuda.amp.autocast():
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
    
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()