11 从 MLP 到 LeNet：为什么图像不能简单当成普通向量来处理？

阿钱￥

418人浏览 · 2026-04-02 22:33:17

阿钱￥ · 2026-04-02 22:33:17 发布

为什么图像不能简单当成普通向量来处理？

很多人第一次接触图像分类时，都会有一个很自然的想法：

图片不就是一堆数字吗？
既然神经网络本来就能处理数字输入，那把图片转成数字后，直接送进模型不就行了吗？

这个想法不算错。
因为从数据形式上看，图片确实可以表示成数值矩阵，进一步也可以 reshape 或 flatten 成一串向量。

但问题在于：

能输入模型，不等于这种处理方式最适合图像。

图像任务真正难的地方，从来不只是“图片能不能变成数字”，而是：

这些数字之间是什么关系？
图像和普通表格数据到底有什么不同？
把图片直接展平之后，模型到底失去了什么？

这篇文章就专门把这个问题讲清楚。

1. 图片当然可以变成数字，但这只是开始

机器并不是像人一样“看懂图片”，而是把图片当成一组数值，再通过训练去学习这些数值模式和类别之间的对应关系。

比如一张灰度图，本质上就是一个二维数组：

每个位置是一个像素
每个像素对应一个数值
这些数值共同组成整张图像

所以如果只问一句：

图片能不能作为模型输入？

答案当然是能。

但如果继续追问：

只要图片能表示成数字，分类是不是就和普通数值任务一样了？

答案就不是了。因为图片虽然本质上也是数字，但这些数字之间有空间关系、局部结构和形状模式，正因为这种结构复杂，才需要更合适的模型去处理。

换句话说：

图像不是普通数字，它是“有结构的数字”。

2. 先看一个最简单的小实验：图片确实可以 flatten

先别急着谈卷积，我们先用一个最简单的例子看一下：

import numpy as np

img = np.array([
    [1, 1, 0, 0],
    [1, 1, 0, 0],
    [0, 0, 2, 2],
    [0, 0, 2, 2]
])

print("原始图像矩阵：")
print(img)
print("shape:", img.shape)

flat = img.flatten()
print("\nflatten 后的向量：")
print(flat)
print("shape:", flat.shape)

输出：

原始图像矩阵：
[[1 1 0 0]
 [1 1 0 0]
 [0 0 2 2]
 [0 0 2 2]]
shape: (4, 4)

flatten 后的向量：
[1 1 0 0 1 1 0 0 0 0 2 2 0 0 2 2]
shape: (16,)

这个小实验至少能说明两件事：

图片确实可以被转成向量
flatten 后，数值一个都没少

所以，从“能不能输入模型”这个角度说，答案是完全没问题的。

但真正的问题不是“能不能 flatten”，而是：

flatten 之后，图像原本的结构还剩下多少？

3. 图像和普通表格数据，真正的区别在哪里？

先看普通表格数据。

假设你做一个分类任务，输入特征是：

年龄
身高
收入
是否已婚

这类数据通常是“字段式”的。每一列是一个特征，每一行是一个样本。
这些特征当然也可能彼此有关，但整体上更像一组并列字段。

而图像不是这样。

一张图像里的像素值虽然也是数字，但它们不是随意摆放的，而是天然处在一个二维网格中：

左右相邻的像素通常有关联
上下相邻的像素通常也有关联
一小块区域往往会组成边缘、角点、纹理或者局部形状

这也是图像任务和普通表格任务的重要区别。
任务本质上是在定义：给定什么输入，希望得到什么输出。而一旦输入从普通字段变成图像，模型设计思路也不能完全照搬原来的方式。

所以图像和表格数据最大的不同，不在于“是不是数字”，而在于：

表格数据更像特征集合
图像数据更像一个有空间结构的整体

4. flatten 到底丢掉了什么？

这里最容易混淆的一点是：

很多人看到 flatten 后，会说：

“像素值不是都还在吗？那到底丢了什么？”

这个问题问得很好。

flatten 没有丢掉像素值本身

原来有多少个像素，flatten 后还是多少个。
数值没有消失，数据量也没有凭空变少。

flatten 弱化的是空间结构

问题不在“数值没了”，而在“组织方式变了”。

原来图像是二维结构：

有左边、右边
有上面、下面
有邻接关系
有局部区域

flatten 之后，这些信息不再以原来的形式出现。
模型看到的是一长串数字，而不是一张“有空间布局的图”。

这就是为什么说：

flatten 丢掉的不是像素值本身，而是这些像素之间原本的空间组织方式。

5. 再用一段代码，看清楚二维结构和一维向量的区别

下面再来看一段更直观的代码：

import numpy as np

img = np.arange(1, 10).reshape(3, 3)

print("原始矩阵：")
print(img)

flat = img.flatten()
print("\nflatten 后：")
print(flat)

print("\n二维中 (0,0) 右边的像素是：", img[0, 1])
print("二维中 (0,0) 下方的像素是：", img[1, 0])
print("flatten 后索引 0 附近的数据：", flat[0:4])

输出：

原始矩阵：
[[1 2 3]
 [4 5 6]
 [7 8 9]]

flatten 后：
[1 2 3 4 5 6 7 8 9]

二维中 (0,0) 右边的像素是： 2
二维中 (0,0) 下方的像素是： 4
flatten 后索引 0 附近的数据： [1 2 3 4]

在二维图像里：

(0,0) 右边是谁，很明确
(0,0) 下边是谁，也很明确

但 flatten 后，模型直接面对的是一维顺序。
它当然还能看到这些数字，但“右边”和“下边”这种空间关系，已经不再以图像本来的形式存在了。

这也是为什么图像虽然能表示成数字，但这些数字之间有空间关系、局部结构和形状模式，不能简单当成普通向量来理解。

6. 为什么空间结构这么重要？

因为图像任务里，很多真正有用的信息，恰恰就藏在局部区域里。

比如一张手写数字图片，人能认出它是 3、5 还是 8，不是因为你记住了每个像素编号，而是因为你看到了：

某些区域有弯曲的边缘
某些位置形成了封闭结构
某些笔画之间有特定连接关系

机器当然不是像人一样理解图像，但它如果想学会分类，也必须学会利用这些像素模式。

而这些模式通常不是靠某一个单独像素决定的，而是由一小片区域共同决定的。比如：

一条边缘，需要多个相邻像素共同形成
一个角点，需要局部区域一起判断
一段笔画，也不可能只靠一个像素识别出来

所以图像中的关键信息，很多都不是“某个值是多少”，而是：

一小块区域里的像素，是怎样组织起来的。

这就是为什么图像不能被简单看成一长串普通数字。

7. 如果想更直观一点，还可以把二维图像画出来

如果你希望把这件事看得更直观，可以直接把刚才的小矩阵可视化一下：

import numpy as np
import matplotlib.pyplot as plt

img = np.array([
    [1, 1, 0, 0],
    [1, 1, 0, 0],
    [0, 0, 2, 2],
    [0, 0, 2, 2]
])

plt.imshow(img, cmap="gray")
plt.title("Original 2D Image")
plt.colorbar()
plt.show()

这段代码的意义不在于复杂，而在于提醒我们：

图像首先是一个二维结构。

你看到的不只是一些数字，而是一个带空间布局的局部模式。
这恰恰是图像和普通表格数据非常不一样的地方。

8. 全连接网络不是不能处理图像，而是不够自然

说到这里，有人可能会问：

那是不是全连接网络完全不能做图像任务？

也不是。

把图片 flatten 后送进全连接网络，这种做法当然是可以训练的。
在一些简单任务上，它甚至也能得到结果。

问题不在于“能不能做”，而在于“这种做法是不是顺着图像结构来的”。

很多时候，模型效果不够好，不只是因为参数不够，而是因为模型本身的表达方式不够适合这个问题。即使参数增加了，只要模型本质上仍然是线性的，它的表达能力边界依然存在。而多层网络的关键，也不只是“更大”，而是能形成中间表示和更复杂的组合关系。

对应到图像任务上也是一样：

不是说模型能吃进一串像素值就够了
更重要的是，模型有没有真正利用图像中的空间关系和局部模式

全连接层更像是在面对“一长串数字”，而不是“一张有空间结构的图”。
所以它不是完全不能处理图像，而是不够自然，也不够贴合图像这种输入形式。

9. 真正该问的问题是什么？

到这里，其实可以把这篇文章压缩成一句话：

图片当然可以表示成数字，也可以展平成向量输入模型；但图像不是普通无结构特征，它包含空间关系、局部结构和形状模式，直接 flatten 虽然保留了数值，却弱化了这些结构在输入中的自然表达。

所以，图像任务真正该问的问题不是：

图片能不能输入模型？

而是：

模型有没有真正利用图像的结构？

这也是卷积网络出现的核心动机。
因为卷积并不是凭空发明出来的“更高级层”，它首先是在回答一个非常具体的问题：

既然图像有空间结构，网络能不能也按图像的特点来设计？

这就是下一篇要讲的内容。

小结

这篇文章主要讲清楚了三件事：

图片当然可以变成数字输入模型
机器处理图像，本质上是在处理一组数值，并通过训练学习这些像素模式和类别之间的映射关系。
图像和普通表格数据不一样
图像里的数字不是孤立排列的，它们有空间关系、局部结构和形状模式。
直接 flatten 不是不行，而是不够自然
它保留了像素值，但弱化了二维结构在输入中的自然表达，因此不一定是最适合图像的处理方式。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

CLI 工具简介

CLI（命令行界面）是通过文本命令与计算机交互的高效方式，相比GUI更节省资源且支持自动化。封装CLI工具可大幅降低用户认知负担，提升可读性和错误处理能力。CLI在AI领域尤为流行，因其既符合开发者高效工作流（零切换、组合能力强），又便于AI Agent解析和操作（结构化输出、易集成到自动化流程）。本质上，CLI在人类易用性与机器可操作性间找到了最佳平衡。