知识体系篇-数据标注与处理（06）模型测试与评估：边界案例（Edge Case）设计与测试

白话机器学习

353人浏览 · 2026-05-28 17:04:34

白话机器学习 · 2026-05-28 17:04:34 发布

一、什么是边界案例？

边界案例（Edge Case）定义：
  出现在输入空间"边缘"或"角落"的罕见情况，
  模型在这些输入上往往表现不稳定甚至完全失效。

普通用例 vs 边界案例

  普通用例（Happy Path）          边界案例（Edge Case）
  ┌────────────────────┐         ┌────────────────────┐
  │ 正常合法输入        │         │ 极端/异常/歧义输入  │
  │ 模型训练时见过       │         │ 训练时几乎没见过    │
  │ 占总流量的 80%+     │         │ 占总流量的 <5%      │
  │ 模型表现稳定        │         │ 模型极易出错        │
  └────────────────────┘         └────────────────────┘

为什么重要？
  "99%的时候都没问题" ≠ 安全可靠
  边界案例往往对应最严重的业务风险
  自动驾驶中：罕见天气/障碍物 = 致命事故
  金融风控中：极端市场条件 = 重大损失

二、边界案例的六大分类

边界案例分类框架（IEVN-UT）

  I - Input Extremes      输入极值
  E - Empty/Null          空/空值
  V - Value Boundaries    数值边界
  N - Near-threshold      近阈值样本
  U - Unusual Format      异常格式
  T - Typo/Adversarial    错误/对抗

类型	定义	文本示例	图像示例
输入极值	超长/超短/极大/极小	1字或10000字文本	1×1像素或32K分辨率图片
空/空值	空输入、null、全空格	“”、" "、None	全黑/全白图片
数值边界	刚好在决策边界上	置信度0.5时的输入	灰色地带的识别目标
近阈值样本	正负类交界处的模糊样本	情感中性偏正的句子	模糊难辨的图像
异常格式	格式不符合预期	HTML标签、代码片段	非正常通道图片
对抗/错误	人工构造的欺骗样本	错别字、混合语言	FGSM对抗图像

三、系统化边界案例设计方法

3.1 等价类划分 + 边界值分析

以情感分类任务为例：

等价类划分：
  正常类 A：明确正面（"非常满意，5星好评"）
  正常类 B：明确负面（"质量极差，退款"）
  正常类 C：明确中性（"包裹已收到"）

边界类（重点测试！）：
  边界 A→B：先扬后抑（"服务很好，但产品有瑕疵"）
  边界 A→C：弱正面（"还不错"、"凑合用"）
  边界 B→C：弱负面（"一般般，说不上好也说不上差"）

极端情况：
  极端 A+：连续感叹号夸赞（"太棒了！！！超级喜欢！！！"）
  极端 B+：激烈投诉（夹带脏话/侮辱性词汇）
  异常输入：乱码、代码、纯数字、纯Emoji

3.2 六步边界案例设计流程

Step 1: 需求分析
  明确模型的输入类型、输出类型、业务约束

Step 2: 正常案例梳理
  整理 Happy Path 的典型用例

Step 3: 边界识别
  针对每个输入维度，找出边界条件

Step 4: 生成测试案例
  每个边界至少3条用例（刚超过、刚到达、刚低于）

Step 5: 设计预期输出
  每条用例明确期望的输出或行为（可以是"不崩溃"）

Step 6: 执行与记录
  执行测试，记录实际输出，标注是否通过

四、边界案例测试代码库

import pytest
import numpy as np
from typing import Any, List, Dict, Optional

# =========================================
# 通用边界案例测试套件
# =========================================
class EdgeCaseTestSuite:
    """
    可复用的边界案例测试套件
    适配任意分类/回归模型
    """
    
    def __init__(self, model, model_type: str = "text_classification"):
        self.model = model
        self.model_type = model_type
        self.results: List[Dict] = []
    
    # ── 文本边界案例 ──────────────────────────────────
    def test_empty_string(self):
        """空字符串"""
        try:
            result = self.model.predict([""])
            self._record("empty_string", "✅ 不崩溃", 
                         f"输出: {result}")
        except ValueError as e:
            self._record("empty_string", "✅ 合理报错", str(e))
        except Exception as e:
            self._record("empty_string", "❌ 意外崩溃", str(e))
    
    def test_whitespace_only(self):
        """纯空格"""
        try:
            result = self.model.predict(["   \t\n  "])
            self._record("whitespace_only", "✅ 不崩溃", f"输出: {result}")
        except Exception as e:
            self._record("whitespace_only", "❌ 崩溃", str(e))
    
    def test_single_character(self):
        """单字符"""
        for char in ["好", "A", "1", "！"]:
            try:
                result = self.model.predict([char])
                self._record(f"single_char_{char}", "✅", f"输出: {result}")
            except Exception as e:
                self._record(f"single_char_{char}", "❌", str(e))
    
    def test_very_long_text(self, max_chars: int = 10000):
        """超长文本"""
        long_text = "这是一条很长的测试文本。" * (max_chars // 10)
        try:
            result = self.model.predict([long_text])
            self._record("very_long_text", "✅ 不崩溃", 
                         f"长度{len(long_text)}，输出: {result}")
        except Exception as e:
            self._record("very_long_text", "❌", str(e))
    
    def test_special_characters(self):
        """特殊字符"""
        special_cases = {
            "html_injection":   "<script>alert(1)</script>",
            "sql_injection":    "' OR 1=1; DROP TABLE users;--",
            "unicode_mixed":    "Hello 世界 🌍 مرحبا",
            "control_chars":    "正常文本\x00\x01\x02隐藏字符",
            "full_width":       "ＡＢＣＤ１２３４",
            "emoji_only":       "😂😭🔥💯👍",
            "zero_width":       "零\u200b宽\u200c字\u200d符",
            "repeated_char":    "啊" * 200,
        }
        for name, text in special_cases.items():
            try:
                result = self.model.predict([text])
                self._record(f"special_{name}", "✅", f"输出: {result}")
            except Exception as e:
                self._record(f"special_{name}", "❌", str(e))
    
    def test_near_threshold(self, threshold_samples: Optional[List] = None):
        """近阈值样本（模糊/争议性输入）"""
        if threshold_samples is None:
            threshold_samples = [
                "产品质量还可以，价格稍贵",   # 偏中性
                "不算太好，但也没很差",         # 争议
                "中规中矩，不好不坏",           # 中性
            ]
        
        for text in threshold_samples:
            result = self.model.predict([text])
            confidence = getattr(result[0], 'confidence', None)
            if confidence and 0.45 <= confidence <= 0.55:
                self._record(f"near_threshold_{text[:10]}", 
                             "⚠️ 置信度低", f"置信度{confidence:.3f}")
            else:
                self._record(f"near_threshold_{text[:10]}", 
                             "✅", f"输出: {result}")
    
    def test_mixed_language(self):
        """混合语言"""
        mixed_cases = [
            "This product is 非常好用 and I love it",
            "很好 very good 프로덕트",
            "产品OK，service一般般",
        ]
        for text in mixed_cases:
            try:
                result = self.model.predict([text])
                self._record(f"mixed_lang_{text[:15]}", "✅", str(result))
            except Exception as e:
                self._record(f"mixed_lang_{text[:15]}", "❌", str(e))
    
    def run_all(self) -> List[Dict]:
        """运行所有边界案例测试"""
        self.test_empty_string()
        self.test_whitespace_only()
        self.test_single_character()
        self.test_very_long_text()
        self.test_special_characters()
        self.test_near_threshold()
        self.test_mixed_language()
        self.print_summary()
        return self.results
    
    def _record(self, name: str, status: str, detail: str = ""):
        self.results.append({
            "test": name,
            "status": status,
            "detail": detail
        })
    
    def print_summary(self):
        """打印测试摘要"""
        passed = sum(1 for r in self.results if "✅" in r["status"])
        warned = sum(1 for r in self.results if "⚠️" in r["status"])
        failed = sum(1 for r in self.results if "❌" in r["status"])
        total = len(self.results)
        
        print(f"\n{'='*55}")
        print(f"边界案例测试摘要  通过:{passed} 警告:{warned} 失败:{failed} 共:{total}")
        print(f"{'='*55}")
        for r in self.results:
            print(f"  {r['status']:<6} {r['test']:<40} {r['detail'][:30]}")
        print(f"{'='*55}")

4.2 数值型模型边界案例

# =========================================
# 数值型输入的边界案例（如回归/分类模型）
# =========================================

class NumericalEdgeCases:
    """数值型特征的边界案例生成器"""
    
    def __init__(self, feature_specs: dict):
        """
        feature_specs: {"age": {"min": 0, "max": 120, "type": "int"}, ...}
        """
        self.specs = feature_specs
    
    def generate_boundary_cases(self) -> List[Dict]:
        """生成所有特征的边界案例"""
        cases = []
        
        for feature, spec in self.specs.items():
            min_val = spec["min"]
            max_val = spec["max"]
            
            cases.extend([
                {feature: min_val,       "case_type": f"{feature}_min"},
                {feature: max_val,       "case_type": f"{feature}_max"},
                {feature: min_val - 1,   "case_type": f"{feature}_below_min"},
                {feature: max_val + 1,   "case_type": f"{feature}_above_max"},
                {feature: 0,             "case_type": f"{feature}_zero"},
                {feature: -1,            "case_type": f"{feature}_negative"},
                {feature: float('inf'),  "case_type": f"{feature}_inf"},
                {feature: float('nan'),  "case_type": f"{feature}_nan"},
            ])
        
        return cases
    
    def test_model(self, model, cases: List[Dict]):
        """测试模型对边界数值的处理"""
        results = []
        for case in cases:
            try:
                pred = model.predict([case])
                results.append({
                    "case": case,
                    "status": "✅",
                    "output": pred
                })
            except (ValueError, TypeError) as e:
                results.append({
                    "case": case,
                    "status": "✅ 合理报错",
                    "output": str(e)
                })
            except Exception as e:
                results.append({
                    "case": case,
                    "status": "❌ 意外崩溃",
                    "output": str(e)
                })
        return results

# 使用示例
feature_specs = {
    "age":         {"min": 0,  "max": 120},
    "income":      {"min": 0,  "max": 10_000_000},
    "credit_score":{"min": 300,"max": 850},
}
edge_gen = NumericalEdgeCases(feature_specs)
cases = edge_gen.generate_boundary_cases()
print(f"生成边界案例数: {len(cases)}")

五、边界案例管理最佳实践

5.1 边界案例文档模板

每条边界案例应记录以下信息：

┌──────────────────────────────────────────────┐
│ 用例ID:        EC-TXT-001                     │
│ 类型:          空输入                          │
│ 输入:          ""（空字符串）                   │
│ 预期行为:      抛出ValueError或返回空结果       │
│ 实际行为:      ✅ 抛出ValueError: "输入不能为空"│
│ 优先级:        P1（高）                        │
│ 发现时间:      2026-04-01                      │
│ 状态:          已修复                           │
│ 关联Bug:       #1023                           │
└──────────────────────────────────────────────┘

5.2 边界案例优先级矩阵

              发生频率低          发生频率高
              ──────────────────────────────
影响严重       P1（必须修复）      P0（阻断发布）
影响轻微       P3（可延期）        P2（发布前修复）

优先级	定义	处理策略
P0	高频+严重：导致数据丢失/安全漏洞	立即修复，阻断发布
P1	低频+严重：小概率但严重的错误	当前版本修复
P2	高频+轻微：频繁出现但影响小	下个迭代修复
P3	低频+轻微：极少发生且影响可忽略	Backlog

六、考试重点总结

6.1 核心概念

概念	关键点
边界案例	输入空间边缘的罕见情况，模型易失效
等价类划分	将输入空间划分为若干等价类，每类取代表测试
边界值分析	重点测试边界值：最小、最大、刚超过最大
IEVN-UT框架	极值/空值/数值边界/近阈值/异常格式/对抗
P0~P3优先级	按频率×严重程度矩阵划分修复优先级

6.2 高频选择题

Q: 边界案例测试的主要目的是什么？
A: 发现模型在极端/罕见输入下的失效情况 ✅

Q: 以下哪个属于边界案例测试中的"空/空值"类型？
A: 输入为空字符串"" ✅（而非普通错别字，那属于自然扰动）

Q: 等价类划分的优势是？
A: 减少测试用例数量，同时保证每类情况都有覆盖 ✅

Q: 边界值分析中，对于范围[0, 100]的数值，应重点测试哪些值？
A: -1, 0, 1, 99, 100, 101（边界附近的值）✅

6.3 简答题模板

题目：设计一个文本情感分类模型的边界案例测试集，列出至少5类场景及测试目的。

答题模板：

文本情感分类边界案例测试集设计：

① 空输入（"", "   "）
   目的：验证模型对空值的健壮处理，不崩溃或给出提示

② 超长文本（>5000字）
   目的：验证长文本不会导致OOM或性能下降

③ 近阈值样本（"还不错"、"中规中矩"）
   目的：检验模型在情感模糊时的稳健性和置信度

④ 特殊字符/Emoji（"😂😭🔥"、HTML标签）
   目的：验证特殊字符不导致崩溃或解析错误

⑤ 混合语言（"product非常好"）
   目的：验证多语言混合时分类结果合理

⑥ 对抗/错别字（"这个产晶很好用"）
   目的：验证错别字不影响最终分类