第2章高频文件操作命令与Vim编辑器实操

数厘

528人浏览 · 2026-03-28 15:49:30

数厘 · 2026-03-28 15:49:30 发布

第2章高频文件操作命令与Vim编辑器实操

2.1 文件操作命令在电商数据分析中的核心用处

我刚做数据分析的时候，每天上班第一件事就是登录服务器，找到昨天的订单文件，复制一份到分析目录，打开看看数据有没有异常——比如有没有缺失的订单字段、金额格式对不对。下班前最后一件事，还要把处理完的报表压缩归档，方便后续追溯。这些看似简单的操作，全靠文件操作命令支撑。

说实话，电商数据分析师在Linux上80%的时间，都在和文件打交道，尤其是处理大促期间的海量数据时，这些命令就是提高效率的关键：

找文件：订单明细、用户日志、商品信息分布在不同的目录，比如服饰类目的订单在/data/orders/fashion/，生鲜类目的在/data/orders/fresh/，需要快速定位，不能靠手动翻找；
看文件：拿到数据后，先确认数据格式、字段是否完整，判断能不能直接用于分析，避免白费功夫；
搬文件：原始数据要复制到自己的工作目录，避免误改原始数据，处理完的结果还要归档到备份目录，符合公司数据管理规范；
改文件：有时候需要微调分析脚本的参数、修改配置文件，或者给数据文件重命名，统一格式方便后续批量处理。

学会这章的内容，你就能独立完成这些日常操作，不用每次都找运维帮忙，节省下来的时间能多做一份数据分析，效率直接翻倍。

2.2 Linux文件系统基础认知

2.2.1 目录结构（只讲实操要用的）

Windows有C盘、D盘，Linux只有一个根目录/，所有文件和目录都挂在这个根目录下面。电商公司常用的几个目录，你记牢就行，不用记太多无关的，够用就好：

目录	用途	电商场景
`/home/用户名`	个人目录	放自己的测试脚本、临时处理文件，比如我自己的目录`/home/zhangsan`，里面全是我日常用的脚本
`/data`	数据目录（很多公司自己创建的）	订单明细、用户日志、分析报表都存在这里，是我们最常访问的目录
`/tmp`	临时目录，重启后自动清空	放中间处理文件，比如数据清洗时的临时结果，不用手动清理，省不少事
当前所在位置：用`pwd`命令查看，新手一定要养成随时查看当前位置的习惯，避免操作错目录

pwd
# 输出示例：/home/zhangsan

切换目录：用cd命令，这是最常用的命令之一，记住几个常用用法：

cd /data/orders     # 进入订单目录，绝对路径，不容易出错
cd ..               # 返回上一级目录，比如从/data/orders回到/data
cd ~                # 快速回到个人目录，不用输完整路径

2.2.2 文件类型（看一眼就行）

用ls -l命令查看目录内容时，第一列的第一个字符就表示文件类型，我们只需要记住两种，其他类型数据分析师基本用不到，不用浪费时间记：

-：普通文件，比如订单csv文件、分析脚本py文件、日志txt文件，我们处理的大部分数据都是这种类型；
d：目录（也就是文件夹），用来存放文件和子目录，比如20251128这样的日期目录。

2.3 文件导航与查看命令

2.3.1 列出目录内容：ls

ls是最基础、最常用的命令，核心就是查看当前目录下有哪些文件和目录，搭配不同参数能满足不同需求：

基础用法

ls                  # 列出当前目录所有文件和目录，只显示名称
ls -l               # 列出详细信息，包括权限、大小、修改时间，判断文件是否最新
ls -lh              # 加h参数，文件大小显示为K、M、G，一眼能看出文件多大
ls -la              # 显示所有文件，包括隐藏文件（以.开头的文件，比如配置文件）

电商场景：查看店铺每日订单文件夹

假设公司的订单按日期和类目分类，存放在/data/orders/2025/fashion/下，我要查看11月份的所有日期文件夹：

cd /data/orders/2025/fashion
ls -lh

输出示例：

drwxr-xr-x 2 root root 4.0K Nov 28 10:00 20251101
drwxr-xr-x 2 root root 4.0K Nov 28 10:01 20251102
-rw-r--r-- 1 root root  12M Nov 28 10:05 order_summary_202511.csv

一眼就能看出，前两个是以d开头的日期文件夹，最后一个是以-开头的11月份订单汇总文件，大小12M，修改时间是11月28日。

2.3.2 查看文件内容：cat、less、head、tail

拿到数据文件后，我们需要查看内容确认格式，不同文件大小对应不同命令，用对命令能避免很多麻烦，整理成表格更清晰：

命令	用途	适用场景
`cat 文件名`	一次性显示全部内容	文件很小，几十行以内，比如配置文件、小型脚本
`less 文件名`	分页浏览，按空格翻页，按q退出	大文件，比如几百万行的订单明细，慢慢查看不会卡死
`head -n 10 文件名`	显示前10行（n可以替换成任意数字）	看文件格式、字段名，确认数据是否符合预期
`tail -n 10 文件名`	显示最后10行	看最新数据，比如当天的订单是否正常写入
`tail -f 文件名`	实时追踪文件末尾	看正在写入的日志、实时订单数据，大促期间特别有用
电商场景：查看订单文件格式

拿到服饰类目11月28日的订单文件，先看前5行，确认字段分隔符、列名是否正确，避免后续分析出错：

# 先看前5行，确认字段分隔符、列名
head -5 /data/orders/2025/fashion/20251128/order_detail.csv

输出示例：

order_id|user_id|shop_id|amount|create_time
ORD001|u1001|s2001|89.00|2025-11-28 10:23:45
ORD002|u1002|s2001|125.00|2025-11-28 10:25:12
ORD003|u1003|s2002|69.90|2025-11-28 10:26:30
...

一眼就能确认，文件是用|分隔的，有5个字段，分别是订单ID、用户ID、店铺ID、金额、创建时间，数据格式没问题，可以用于后续分析。

电商场景：实时监控订单写入

双11、618大促期间，运营会让我实时监控订单是否正常写入，避免出现数据丢失的情况，这时候就用tail -f命令：

tail -f /data/orders/20251111/order_realtime.log

屏幕会实时显示新追加的订单记录，能看到每一笔订单的写入时间和基本信息，确认数据正常，按Ctrl+C就能退出实时监控。

实操避坑提醒：千万不要用cat打开几百MB、几GB的大文件，会把终端卡死，甚至影响服务器正常运行。我刚入行时，不懂这个，用cat打开一个2GB的订单文件，终端卡了十几分钟，还被运维大哥提醒了一顿，后来一直用less或head查看片段，再也没踩过这个坑。

2.4 新建与复制命令

2.4.1 创建目录：mkdir

分析数据时，我们需要创建专门的目录存放原始数据、处理中数据和最终报表，避免文件混乱，mkdir就是创建目录的命令：

基础用法

mkdir 目录名                 # 创建单个目录，比如mkdir test
mkdir -p 目录1/目录2/目录3    # 一次性创建多级目录，不用逐级创建

电商场景：创建月度分析目录

每月初，我都会创建一个月度分析目录，里面再分三个子目录，分别存放原始数据、处理中数据和最终报表，方便后续管理：

mkdir -p /data/analysis/202511/{raw,processed,reports}

这个命令会一次性创建三个子目录：raw（原始数据）、processed（处理中数据）、reports（最终报表），不用手动创建三次，节省时间。

2.4.2 创建空文件：touch

touch命令很简单，核心用途就是创建空文件，或者更新已有文件的修改时间，在电商数据分析中，常用它创建标记文件：

基础用法

touch 文件名

如果文件不存在，就创建一个空文件；如果文件已经存在，就更新它的修改时间，不会改变文件内容。

电商场景：创建处理标记文件

每天的数据处理完后，我都会创建一个标记文件，表示当天的数据已经处理完成，避免重复处理，也方便同事查看进度：

touch /data/analysis/202511/processed_flag_20251128.txt

这个标记文件不用写任何内容，只要存在，就说明2025年11月28日的数据已经处理完成，后续查看时一目了然。

2.4.3 复制文件：cp

复制文件是日常操作中最常用的命令之一，核心是把原始数据复制到工作目录，避免误改原始数据，cp命令的关键参数一定要记牢：

基础用法

cp 源文件 目标路径           # 复制单个文件到指定路径
cp -r 源目录 目标目录         # 复制整个目录（包括里面的所有文件）
cp -i 源文件 目标路径         # 覆盖文件前会询问，建议新手每次都加这个参数，避免误覆盖

电商场景：备份昨天的订单数据

原始订单数据非常重要，处理前一定要备份，避免操作失误导致数据丢失，我每天都会备份前一天的订单数据：

# 先创建当天的备份目录，按日期命名，方便后续查找
mkdir -p /data/backup/20251128
# 复制前一天的所有订单csv文件到备份目录
cp -i /data/orders/20251128/*.csv /data/backup/20251128/

加-i参数，万一备份目录里有同名文件，会提示是否覆盖，避免误删已有的备份数据。

实操避坑提醒：复制目录时，必须加-r参数（递归复制），不然会报错“omitting directory”（忽略目录），复制失败。我当初就是忘了加-r，想复制整个订单目录，结果提示报错，以为是命令写错了，重复操作了好几次，后来问了运维才知道，少加了一个-r参数，新手一定要记住这个细节。

2.5 移动与删除命令

2.5.1 移动或重命名：mv

mv命令有两个核心用途：移动文件/目录，或者给文件/目录重命名，用法简单，但是在电商场景中非常实用，尤其是批量处理文件时：

基础用法

mv 源文件 目标路径      # 移动文件到指定路径
mv 旧文件名 新文件名      # 重命名文件（在同一目录下，目标路径和源路径一致）

电商场景：归档处理完的报表

每天的分析报表处理完后，需要移动到专门的归档目录，避免和未处理的文件混淆：

mv /data/to_process/shop_*.csv /data/processed/

用shop_*.csv匹配所有以shop_开头的csv报表文件，一次性移动到/data/processed/归档目录，不用逐个移动。

电商场景：修正文件名

运营发来的数据文件，经常命名不规范，比如1118_data.csv，没有明确日期和类目，后续查找很麻烦，我都会统一改成标准格式：

mv /data/to_process/1118_data.csv /data/to_process/shop_01_20251118.csv

标准格式是shop_店铺ID_日期.csv，后续不管是自己查找，还是同事协作，都能一眼知道文件对应的店铺和日期。

2.5.2 删除文件：rm（重点避坑）

rm命令是删除文件/目录的命令，也是最容易踩坑的命令，尤其是rm -rf，一旦用错，可能导致数据丢失，甚至影响整个服务器，我就因为这个命令踩过一个大坑。

基础用法

rm 文件名               # 删除单个文件，默认会询问（部分系统需要加-i）
rm -r 目录名            # 删除整个目录，包括里面的所有文件
rm -f 文件名            # 强制删除，不询问，慎用！
rm -rf 目录名           # 强制删除目录，不询问，极其慎用！

我的踩坑经历：入行第二个月，帮运营清理临时文件。运营让我删除/tmp/order_temp/下的所有临时文件，我当时手忙脚乱，敲命令时多打了一个空格，把命令写成了：

就是这个多余的空格，让命令变成了“删除/tmp/order_temp/目录，再删除根目录下所有文件”。系统卡了几秒后，大量文件被清空，我当时手心全是汗，以为自己要被开除了。还好公司有数据备份，运维大哥加班到凌晨，才把数据恢复过来，从那以后，我对rm命令有了阴影，也给自己定了三条规矩，新手一定要记住：

删除前先用ls看一眼：比如要删除/data/temp/下的文件，先执行ls /data/temp/，确认里面的文件确实是可以删除的临时文件；
能用rmdir删空目录，就不用rm -r：rmdir只能删除空目录，就算命令写错，也不会删除文件，更安全；
重要数据先备份，再删除：不管是删除文件还是目录，只要涉及电商订单、用户数据，一定要先备份，确认备份成功后，再执行删除操作。

rm -rf /tmp/order_temp/ * # 注意那个空格！

电商场景：清理临时文件

清理临时文件时，一定要按步骤来，避免出错：

# 第一步：先确认临时目录里有什么文件，避免删错
ls /tmp/order_temp/
# 第二步：确认无误后，再删除整个临时目录
rm -r /tmp/order_temp/

实操避坑提醒：强烈建议在rm命令后加-i参数，删除前会询问确认，就算不小心敲错命令，也有挽回的机会。我后来在自己的账号配置里设置了别名：alias rm='rm -i'，这样每次输入rm，都会自动加上-i参数，再也没误删过文件。

2.6 搜索与查找命令

电商服务器上的文件非常多，手动翻找文件效率极低，find和grep两个命令，能帮我们快速定位文件和文件内容，是数据分析的效率神器。

2.6.1 查找文件：find

find命令的核心是按条件查找文件/目录，比如按名称、按类型、按修改时间，最常用的就是按名称查找：

基础用法

find 路径 -name "文件名模式"      # 按名称查找，支持通配符*
find 路径 -type f               # 只查找文件，不找目录
find 路径 -type d               # 只查找目录，不找文件

电商场景：找双11当天的所有订单文件

双11结束后，需要汇总当天的所有订单文件，分布在不同的类目目录下，用find命令一键查找：

find /data/orders/ -name "*20251111*.csv"

命令解释：在/data/orders/目录下，查找所有文件名包含20251111（双11日期）且后缀为.csv的文件，输出所有匹配的文件路径，不用手动逐个目录翻找。

电商场景：找最近3天修改过的文件

有时候需要查找最近更新的分析报表，确认是否是最新版本，用-mtime参数就能实现：

find /data/analysis/ -mtime -3 -type f

-mtime -3表示修改时间在3天以内，-type f表示只查找文件，这样就能快速找到最近3天更新的所有分析文件。

2.6.2 内容搜索：grep

grep命令的核心是在文件中搜索指定关键词，比如在订单文件中查找某个用户的订单、在日志中搜索“退款”相关记录，非常实用：

基础用法

grep "关键词" 文件名              # 在单个文件中搜索关键词
grep -r "关键词" 目录             # 递归搜索目录下所有文件中的关键词
grep -n "关键词" 文件名           # 搜索关键词，并显示对应的行号，方便定位

电商场景：在订单文件中查找某个用户的订单

运营反馈用户u10086的订单有异常，需要快速找到该用户的所有订单记录：

grep "u10086" /data/orders/20251128/order_detail.csv

会输出所有包含u10086的订单记录，快速定位该用户的所有订单，方便排查异常。

电商场景：搜索包含“退款”的日志

大促期间，需要排查退款相关的问题，快速搜索所有包含“退款”的日志：

grep -r "退款" /data/logs/202511/

递归搜索/data/logs/202511/目录下所有文件，找到所有包含“退款”的日志记录，不用逐个打开日志文件查看。

2.7 压缩与解压命令

电商数据文件通常很大，比如几十万、几百万条订单的csv文件，传输和存储都不方便，压缩和解压命令就非常重要，最常用的就是tar和zip两种格式，tar用于服务器内部压缩归档，zip用于跨平台传输（比如发给运营）。

2.7.1 tar打包压缩（服务器常用）

tar命令是Linux上最常用的压缩打包命令，核心是将多个文件或目录打包成一个文件，再进行压缩，节省存储空间：

打包并压缩（常用组合）

tar -czf 压缩包名.tar.gz 要打包的目录

参数解释：

-c：创建压缩包（create）；
-z：用gzip格式压缩，减小文件体积；
-f：指定压缩包文件名，必须放在最后。

解压

tar -xzf 压缩包名.tar.gz

参数解释：

-x：解压压缩包（extract）；
-z：解压gzip格式的压缩包；
-f：指定要解压的压缩包文件名。

电商场景：压缩活动报表发给运营

618、双11活动结束后，需要把分析报表压缩后发给运营，方便运营查看和保存：

tar -czf /data/reports/double11_report_20251128.tar.gz /data/reports/double11/

将/data/reports/double11/目录下的所有报表文件，打包压缩成double11_report_20251128.tar.gz，生成压缩包后，用FinalShell下载到本地，再发给运营即可。

电商场景：解压运营发来的数据包

运营发来的数据包通常是压缩包格式，需要解压到指定目录进行分析：

tar -xzf /data/from_operation/shop_data_20251128.tar.gz -C /data/to_process/

-C参数指定解压目录，将压缩包解压到/data/to_process/目录下，避免解压到当前目录，导致文件混乱。

2.7.2 zip格式（跨平台常用）

如果需要将文件发给Windows系统的运营，zip格式更合适，Windows系统可以直接解压，不用安装额外软件：

# 压缩目录（加-r参数，递归压缩）
zip -r 压缩包名.zip 目录名

# 解压zip文件
unzip 压缩包名.zip

实操避坑提醒：用tar压缩时，-z参数很容易漏。我刚开始用的时候，经常打成tar -cf，结果只打包没压缩，文件体积还是很大，白忙活一场。记住：tar -czf是打包+压缩，tar -xf是解压（不用加z，系统会自动识别压缩格式），新手可以记口诀：“打包压缩czf，解压只需xf”。

2.8 Vim编辑器核心操作

在Linux服务器上，我们经常需要修改分析脚本、配置文件、数据文件，Vim编辑器是默认的文本编辑器，虽然刚开始用起来很别扭，但学会后效率很高，新手只要搞懂三种模式，就能应对大部分操作。

2.8.1 三种模式（必须搞懂，否则会崩溃）

Vim最让新手崩溃的就是模式切换——打开文件后敲键盘，要么没反应，要么乱跳字符，其实就是因为模式没搞对。Vim有三种核心模式，记住下表，就能快速上手：

模式	用途	怎么进入	怎么退出
普通模式	浏览文件、删除内容、复制粘贴	打开Vim后，默认就是普通模式	按`i`键，进入编辑模式
编辑模式	输入文字、修改内容	普通模式下，按`i`键（insert，插入）	按`ESC`键，回到普通模式
命令模式	保存文件、退出Vim、查找替换	普通模式下，按`:`键（冒号）	执行完命令后，自动返回普通模式
最崩溃的时刻：打开Vim不知道怎么退出，敲键盘没反应，急得满头大汗。记住这个救命口诀，新手必记：按`ESC`键（确保回到普通模式），输入`:wq`回车，保存并退出；如果不想保存修改，输入`:q!`回车，强制退出，不保存任何修改。

2.8.2 分步操作：编辑分析脚本（电商场景实操）

日常工作中，最常用Vim编辑分析脚本，比如修改脚本中的数据路径、参数配置，分步操作如下，新手跟着做就能上手：

步骤1：打开文件

vim /data/scripts/618_analysis.py

打开618_analysis.py这个分析脚本，进入Vim普通模式，左下角没有任何提示。

步骤2：进入编辑模式

按i键，左下角会显示-- INSERT --，说明已经进入编辑模式；
现在可以正常输入文字、修改内容，和普通编辑器一样，用方向键移动光标，删除、输入即可。

步骤3：修改内容（电商场景）

假设需要把脚本中的数据路径，改成/data/analysis/618/fashion/order_detail.csv：

用方向键移动光标，找到数据路径配置那一行（比如data_path = "/data/old_path/order.csv"）；
删除旧路径，输入新路径，修改后为data_path = "/data/analysis/618/fashion/order_detail.csv"。

步骤4：保存退出

按ESC键，左下角的-- INSERT --消失，回到普通模式；
输入:wq，按回车键；
文件保存成功，自动退出Vim，回到终端界面。

步骤5：不保存退出

如果修改错了，不想保存，就按以下步骤：

按ESC键，回到普通模式；
输入:q!，按回车键；
放弃所有修改，强制退出Vim，文件内容不会有任何变化。

2.8.3 查找与替换（实用功能，提高效率）

编辑大文件、长脚本时，手动查找内容很麻烦，Vim的查找与替换功能能节省大量时间：

查找内容：

普通模式下，按/键（斜杠）；
输入要查找的词，比如shop_id，按回车键；
光标会自动跳到第一个匹配的位置；
按n键（next），找下一个匹配处；按N键，找上一个匹配处。

批量替换（命令模式下执行）：

:%s/旧内容/新内容/g

参数解释：

%：表示整个文件；
s：表示替换（substitute）；
g：表示全局替换（global），不加g，只替换每一行的第一个匹配项。

示例：把脚本里所有order替换成order_new：

:%s/order/order_new/g

2.8.4 我常用的几个小技巧（新手必学）

这些小技巧是我日常用Vim总结的，能大幅提高编辑效率，新手可以慢慢熟悉：

显示行号：命令模式输入:set nu，会显示每一行的行号，调试脚本时特别有用，能快速定位错误行；
快速移动：gg（连续按两次g）跳到文件开头，G（大写G）跳到文件末尾，不用一直按方向键；
快速删除/复制：dd（连续按两次d）删除当前行，yy（连续按两次y）复制当前行，p（小写p）粘贴复制的内容。

实操避坑提醒：Vim打开文件后，千万别急着敲键盘。先确认左下角有没有-- INSERT --，如果没有，说明还在普通模式，敲键盘会执行各种操作（比如删除、移动），导致文件内容被改得一塌糊涂。我当初就是因为不知道模式切换，在普通模式下乱敲，把一个重要的分析脚本改得面目全非，还好有备份，不然又要加班重写。

2.9 综合实操案例：服饰类目618活动订单数据处理

业务场景：618活动结束后，运营发来一个压缩包fashion_618_orders.tar.gz，里面是服饰类目所有店铺的订单明细。我需要完成以下操作：解压数据包、查看数据格式、复制一份到分析目录、用Vim微调分析脚本的参数、最后把原始数据压缩备份，确保数据安全，为后续分析做准备。

全程按步骤操作，新手跟着做，就能独立完成电商数据的基础文件处理：

步骤1：解压运营发来的数据包

cd /data/from_operation/  # 进入运营发送文件的目录
tar -xzf fashion_618_orders.tar.gz  # 解压压缩包

预期结果：当前目录下出现fashion_618_orders文件夹，里面包含服饰类目618活动的所有订单明细文件。

步骤2：查看数据格式，确认数据可用

cd fashion_618_orders  # 进入解压后的文件夹
ls -lh  # 查看文件夹内的文件
head -3 order_detail.csv  # 查看前3行，确认数据格式

预期结果：看到order_detail.csv订单明细文件，前几行显示字段名，确认分隔符是逗号，字段包含order_id,user_id,shop_id,amount,create_time，数据格式正确，可用于分析。

步骤3：创建专门的分析目录，避免文件混乱

mkdir -p /data/analysis/618/fashion  # 一次性创建多级分析目录

步骤4：复制数据到分析目录，避免误改原始数据

cp order_detail.csv /data/analysis/618/fashion/  # 复制订单文件到分析目录

步骤5：用Vim修改分析脚本的参数，适配新的数据路径

vim /data/scripts/618_analysis.py  # 打开分析脚本

进入Vim后，按以下步骤修改：

按/，输入data_path，按回车键，找到数据路径配置那一行；
按i进入编辑模式，把旧路径改成/data/analysis/618/fashion/order_detail.csv；
按ESC回到普通模式，输入:wq，按回车键保存退出。

步骤6：压缩备份原始数据，确保数据安全

cd /data/from_operation/  # 回到运营发送文件的目录
# 压缩备份原始数据，文件名包含当天日期，方便后续查找
tar -czf backup_fashion_618_orders_$(date +%Y%m%d).tar.gz fashion_618_orders/

$(date +%Y%m%d)会自动生成当天的日期，比如20251128，压缩包名就是backup_fashion_618_orders_20251128.tar.gz。
预期结果：原始数据已备份，分析目录有副本，脚本已配置好，可以运行分析了。

2.10.2 电商数据合规提示
删除操作需审批：涉及用户订单数据、个人信息的文件，删除前确认是否有保留期限要求，做好备份记录
压缩包密码管理：通过外部渠道传输数据时，压缩包应设密码，密码通过其他方式告知接收方，不要随文件一起发送
敏感数据不上传：用Vim编辑文件时，注意不要在个人笔记、博客中粘贴含有真实用户数据的示例
备份留存：原始数据压缩备份后，保留至少3个月，方便追溯和恢复

下一章预告
下一章讲权限管理命令，包括怎么给文件夹设置访问权限、修改文件所有者，以及我总结的数据权限设置规范。”

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年简历模板网站深度测评：5款在线简历制作工具，谁更值得用？

AtomGit开源社区

基于机器学习方法的二手车价格预测研究

二手车交易具有车辆个体差异大、信息不对称与经验定价占比高等特点，同款车型在不同车况下的价格波动明显。随着平台侧挂牌与交易数据规模不断扩大，利用机器学习方法构建价格预测模型，有助于为消费者提供估价参考，并为车商与平台提供定价辅助，从而提升交易效率与透明度。本文以天池二手车数据集为研究对象，面向二手车价格回归预测任务，设计并实现了可复现的端到端建模流程。数据层面，对缺失值与异常值进行规则化处理，并基于

AtomGit开源社区

sdu软件学院创新实训（二）

本文介绍了SDU软件学院创新实训（二）中基于RAG（检索增强生成）技术开发的老年便秘知识AI助手原型系统。系统采用PyMuPDF解析医学PDF文档，使用ChromaDB进行向量存储，并集成通义千问3.5模型进行回答生成。通过Prompt注入方式确保回答准确性和可追溯性，测试显示系统能实现基本功能，但存在响应延迟（约10秒）问题。下一步将扩充知识库、优化分块策略、增加意图识别功能，并计划集成语音交互