手动复制看似简单，真正难的是保持数据一致

云边有个稻草人

272人浏览 · 2026-06-04 15:49:41

云边有个稻草人 · 2026-06-04 15:49:41 发布

之前做过一次招聘市场分析，需要整理多个公开招聘页面上的岗位名称、城市、薪资范围、经验要求、学历要求、发布时间和公司信息。刚开始我以为这个任务并不复杂：打开页面，复制内容，粘贴到表格里，再做汇总分析就可以了。但真正执行后才发现，手动整理消耗人的不是时间，而是持续保持字段一致性的注意力。

同一个岗位字段，在不同页面里的写法经常不一样。比如经验要求，有的写“3-5年”，有的写“三年以上”，还有的写“经验不限”；薪资字段也不统一，有些是月薪，有些是年薪，有些写区间，有些只写“面议”。页面布局也不是固定的，复制到表格后很容易出现错列，城市、薪资和公司名称混在一起。更麻烦的是，初版数据整理完后，需求方又希望增加“岗位关键词”和“公司规模”两个字段，于是大量页面需要重新打开，再整理一遍。

那次报告虽然交付了，但比预期晚了不少。复盘时我意识到，这类工作并不适合依赖人工。人工更适合做字段判断、样本审核和业务解释，而不是一条一条处理重复信息。真正需要标准化的，是前面的数据准备流程。

后来再做类似任务，我会先把公开页面中的信息整理成结构化结果，再进入分析环节。这个过程中用到过 Dataify 的数据整理服务，它比较适合把公开页面里的信息按字段提取出来，减少手动复制导致的错列、漏列和重复返工。对我来说比较实用的地方主要有两个：一是可以提前规划字段，二是结果能导出为 JSON、CSV 或表格文件，后续接入 Python、BI 工具或内部分析流程会顺很多。

一个岗位信息汇总流程：先定义字段，再做样例校验

我现在处理这类任务，一般会先把流程拆成四步，而不是直接开始整理。

第一步是定义字段结构。比如招聘岗位分析里，通常会设置 title、city、salary、experience、education、company、publish_time、detail_url 这些字段。如果后面要做岗位趋势分析，还可以增加 keyword、company_size、industry 等字段。字段越早确定，后面的清洗和统计越稳定。

第二步是建立任务范围。把需要整理的公开列表页加入任务中，确认页面范围、字段规则和执行频率。如果只是做一次短期报告，执行一次即可；如果要持续观察岗位数量变化、薪资波动或城市分布，可以设置周期任务，让数据按固定节奏更新。

第三步是检查样例结果。这个步骤很重要，不建议一开始就大批量导出。可以先查看几十条样例，确认岗位名称没有和公司名称混在一起，薪资没有被截断，城市字段没有出现多余字符，详情链接也能对应到原始页面。样例检查通过后，再进入正式导出。

第四步是导出并做二次清洗。结构化结果并不代表可以直接用于分析，还需要统一格式，比如把薪资区间拆成最低值和最高值，把城市名称标准化，把发布时间转换成统一日期格式，把岗位标题里的无关词去掉。

下面是一个简化示例，用来演示结果导出后的清洗过程：

import pandas as pd
import re

df = pd.read_csv("jobs_from_dataify.csv")

# 去除重复岗位
df = df.drop_duplicates(subset=["title", "company", "city", "detail_url"])

# 基础字段标准化
df["city"] = df["city"].astype(str).str.strip()
df["title"] = df["title"].astype(str).str.replace("急招", "", regex=False)
df["publish_time"] = pd.to_datetime(df["publish_time"], errors="coerce")

# 简单岗位关键词分类
def classify_title(title):
    if "算法" in title or "AI" in title:
        return "AI相关"
    if "数据" in title:
        return "数据相关"
    if "后端" in title or "Java" in title:
        return "后端开发"
    if "产品" in title:
        return "产品岗位"
    return "其他"

df["keyword"] = df["title"].apply(classify_title)

# 薪资字段示例处理：提取数字，便于后续统计
def parse_salary(salary):
    nums = re.findall(r"\d+", str(salary))
    if len(nums) >= 2:
        return int(nums[0]), int(nums[1])
    if len(nums) == 1:
        return int(nums[0]), int(nums[0])
    return None, None

df[["salary_min", "salary_max"]] = df["salary"].apply(
    lambda x: pd.Series(parse_salary(x))
)

# 按城市和岗位类型汇总
summary = (
    df.groupby(["city", "keyword"])
      .size()
      .reset_index(name="job_count")
      .sort_values("job_count", ascending=False)
)

summary.to_csv("job_summary.csv", index=False)
print(summary.head())

这段代码并不复杂，重点在于前面的数据已经有稳定字段。如果数据来自手动复制的表格，常见问题会很多，比如空行、错列、合并单元格、字段命名不一致、来源链接缺失。相比之下，前期把字段结构规划好，再导出统一格式，后面的清洗逻辑会清楚很多。