亚马逊数据决策框架：用 Scrape API 打通 BSR + 广告位 + ABA 的数据孤岛

devnullcoffee

351人浏览 · 2026-04-01 12:55:41

devnullcoffee · 2026-04-01 12:55:41 发布

前言：最近 Sif 关键词 2.0 上线，社区里掀起了一波关于数据碎片化的讨论。本文从数据基础设施建设者的视角，分析亚马逊运营的"数据溺水"现象，并给出一套结构化的数据架构方案，帮助技术团队用 API 打通数据孤岛，支撑运营决策。

问题背景

亚马逊运营的数据困境，从技术视角看是一个典型的数据孤岛问题：

BSR 数据：来自亚马逊产品详情页和榜单页，页面结构相对固定
ABA 数据：后台 Brand Analytics 报表，需要手动下载 CSV
广告报表：Seller Central Advertising Console，数据延迟 24-48 小时

三个数据源的时效性、字段格式、更新频率完全不统一，导致运营团队在做 BSR 下跌原因分析时，必须手动对比三份来源不同的数据——这是认知负担的主要来源，也是决策质量下降的根因。

本文的方案思路是：以 Pangolinfo Scrape API 作为统一的数据采集层，采集 BSR 数据、关键词 SERP 数据（含 SP 广告位）、评论数据，统一存入时序数据库，再通过可视化工具输出"三线合一"的运营看板。

框架设计

在搭建技术方案之前，先明确业务问题。亚马逊运营的核心决策命题只有三个，数据管道的设计必须围绕这三个命题反向推导：

核心命题	业务目标	所需数据维度
盘子今天稳不稳？	异常诊断	BSR 变化 + 核心词自然排名 + SP 广告位占比
敌人弱点在哪里？	竞品博弈	竞品 BSR 趋势 + 价格动态 + Review 速度
增长飞轮怎么转？	策略逆向	竞品流量词结构 + 关键词权重建立路径

以第一个命题"盘子今天稳不稳"为例，运营需要在同一个时间轴上看到三条曲线：

自己 ASIN 的 BSR 变化（日颗粒度）
核心词的自然排名变化
核心词首页 SP 广告位的竞争占比变化

当三条数据时间对齐之后，BSR 下跌的原因从"说不清"变成"一看就知道"。

架构设计

数据采集层（Scrape API）
    ├── Amazon Product API → ASIN 快照（BSR、价格、Review）
    ├── Keyword SERP API → 关键词排名 + SP 广告位分布
    └── Reviews API → 评论速度、评分变化

数据存储层（PostgreSQL / ClickHouse）
    ├── asin_snapshots 表 → 时序 ASIN 数据
    ├── keyword_snapshots 表 → 时序关键词数据
    └── competitor_snapshots 表 → 竞品数据

调度层（Celery + Redis / GitHub Actions）
    └── 定时任务：核心词每 6 小时，竞品 BSR 每天两次

可视化层（Grafana / Metabase / Google Data Studio）
    └── 三线合一看板：BSR + 关键词排名 + SP 占比

代码实现

环境准备

pip install requests python-dotenv psycopg2-binary pandas

核心数据采集模块

"""
amazon_data_pipeline.py
亚马逊数据决策框架 - 统一数据采集模块
使用 Pangolinfo Scrape API 构建三维数据管道

Author: Pangolinfo Tech Team
"""

import os
import requests
import json
import logging
from datetime import datetime
from typing import Optional, Dict, Any, List
from dataclasses import dataclass, asdict

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

API_KEY = os.getenv("PANGOLINFO_API_KEY")
BASE_URL = "https://api.pangolinfo.com/v1/amazon"


@dataclass
class AsinSnapshot:
    """ASIN 快照数据结构，对应 asin_snapshots 表"""
    asin: str
    marketplace: str
    bsr_main: Optional[int]           # 大类 BSR 排名
    bsr_sub: Optional[int]            # 小类 BSR 排名
    bsr_category: Optional[str]       # BSR 所在类目
    price: Optional[float]            # 当前售价
    review_count: Optional[int]       # 总评论数
    rating: Optional[float]           # 平均评分
    collected_at: str                 # 采集时间戳（ISO 格式）


@dataclass
class KeywordSnapshot:
    """关键词快照数据结构，对应 keyword_snapshots 表"""
    keyword: str
    marketplace: str
    target_asin: Optional[str]        # 监控的目标 ASIN
    organic_rank: Optional[int]       # 自然排名（未出现在首页则为 None）
    sp_positions_count: int           # 首页 SP 广告坑位总数
    target_sp_rank: Optional[int]     # 目标 ASIN 的 SP 排名
    total_results: Optional[int]      # 总搜索结果数
    collected_at: str


class AmazonDataCollector:
    """统一数据采集器 - 封装所有 Scrape API 调用"""

    def __init__(self, api_key: str, base_url: str = BASE_URL):
        self.headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }
        self.base_url = base_url

    def get_asin_snapshot(self, asin: str, marketplace: str = "US") -> AsinSnapshot:
        """
        采集 ASIN 产品快照
        涵盖：BSR（大类+小类）、价格、评论数、评分
        """
        payload = {
            "asin": asin,
            "marketplace": marketplace,
            "fields": ["bsr", "price", "reviews", "ratings"],
            "output_format": "json"
        }
        try:
            resp = requests.post(f"{self.base_url}/product", headers=self.headers, json=payload)
            resp.raise_for_status()
            data = resp.json()

            return AsinSnapshot(
                asin=asin,
                marketplace=marketplace,
                bsr_main=data.get("bsr", {}).get("main_category_rank"),
                bsr_sub=data.get("bsr", {}).get("subcategory_rank"),
                bsr_category=data.get("bsr", {}).get("main_category_name"),
                price=data.get("price", {}).get("current"),
                review_count=data.get("reviews", {}).get("count"),
                rating=data.get("ratings", {}).get("average"),
                collected_at=datetime.utcnow().isoformat()
            )
        except requests.RequestException as e:
            logger.error(f"ASIN 采集失败 [{asin}]: {e}")
            raise

    def get_keyword_snapshot(
        self,
        keyword: str,
        target_asin: Optional[str] = None,
        marketplace: str = "US"
    ) -> KeywordSnapshot:
        """
        采集关键词 SERP 快照
        涵盖：自然排名、SP 广告位数量及分布、目标 ASIN 的广告排名
        
        SP 广告位是判断"流量丢失是否因广告坑位被顶"的核心变量，
        Pangolinfo Scrape API 在这个维度的采集率较高，适合竞品监控场景。
        """
        payload = {
            "keyword": keyword,
            "marketplace": marketplace,
            "include_ad_positions": True,
            "output_format": "json"
        }
        try:
            resp = requests.post(f"{self.base_url}/keyword-serp", headers=self.headers, json=payload)
            resp.raise_for_status()
            data = resp.json()

            # 定位目标 ASIN 的自然排名
            organic_rank = None
            if target_asin:
                for item in data.get("organic_results", []):
                    if item.get("asin") == target_asin:
                        organic_rank = item.get("position")
                        break

            # 定位目标 ASIN 的 SP 广告排名
            target_sp_rank = None
            sp_positions = data.get("sponsored_positions", [])
            if target_asin:
                for sp in sp_positions:
                    if sp.get("asin") == target_asin:
                        target_sp_rank = sp.get("position")
                        break

            return KeywordSnapshot(
                keyword=keyword,
                marketplace=marketplace,
                target_asin=target_asin,
                organic_rank=organic_rank,
                sp_positions_count=len(sp_positions),
                target_sp_rank=target_sp_rank,
                total_results=data.get("total_results"),
                collected_at=datetime.utcnow().isoformat()
            )
        except requests.RequestException as e:
            logger.error(f"关键词采集失败 [{keyword}]: {e}")
            raise


class MonitoringJob:
    """监控任务调度器 - 批量采集并输出汇总报告"""

    def __init__(self, collector: AmazonDataCollector):
        self.collector = collector

    def run_daily_check(
        self,
        monitored_asins: List[str],
        core_keywords: List[str],
        target_asin: str,
        marketplace: str = "US"
    ) -> Dict[str, Any]:
        """
        每日异常诊断任务
        对应核心命题一：我的盘子今天稳不稳？

        Returns:
            dict: 包含 ASIN 快照列表和关键词快照列表
        """
        results = {
            "run_time": datetime.utcnow().isoformat(),
            "asin_snapshots": [],
            "keyword_snapshots": []
        }

        for asin in monitored_asins:
            snapshot = self.collector.get_asin_snapshot(asin, marketplace)
            results["asin_snapshots"].append(asdict(snapshot))
            logger.info(f"✅ ASIN [{asin}] BSR: {snapshot.bsr_main} | Reviews: {snapshot.review_count}")

        for kw in core_keywords:
            snapshot = self.collector.get_keyword_snapshot(kw, target_asin, marketplace)
            results["keyword_snapshots"].append(asdict(snapshot))
            logger.info(
                f"✅ Keyword [{kw}] Organic: {snapshot.organic_rank} | "
                f"SP slots: {snapshot.sp_positions_count} | "
                f"Your SP rank: {snapshot.target_sp_rank}"
            )

        return results


# 使用示例
if __name__ == "__main__":
    collector = AmazonDataCollector(api_key=API_KEY)
    job = MonitoringJob(collector)

    daily_report = job.run_daily_check(
        monitored_asins=["B09XXXXXXX", "B08YYYYYYY"],   # 自己的 ASIN + 核心竞品
        core_keywords=["camping chair lightweight", "portable camp chair"],
        target_asin="B09XXXXXXX",
        marketplace="US"
    )

    # 输出可直接写入数据库
    print(json.dumps(daily_report, indent=2, ensure_ascii=False))

数据库设计

推荐使用 PostgreSQL（时序场景简单、查询灵活），若数据量级较大可迁移至 ClickHouse。

-- ASIN 快照表
CREATE TABLE asin_snapshots (
    id          BIGSERIAL PRIMARY KEY,
    asin        VARCHAR(20)   NOT NULL,
    marketplace VARCHAR(5)    NOT NULL DEFAULT 'US',
    bsr_main    INT,
    bsr_sub     INT,
    bsr_category VARCHAR(100),
    price       DECIMAL(10,2),
    review_count INT,
    rating      DECIMAL(3,2),
    collected_at TIMESTAMPTZ  NOT NULL DEFAULT NOW()
);

-- 关键词快照表
CREATE TABLE keyword_snapshots (
    id                  BIGSERIAL PRIMARY KEY,
    keyword             TEXT          NOT NULL,
    marketplace         VARCHAR(5)    NOT NULL DEFAULT 'US',
    target_asin         VARCHAR(20),
    organic_rank        SMALLINT,     -- NULL 表示未出现在首页
    sp_positions_count  SMALLINT      NOT NULL DEFAULT 0,
    target_sp_rank      SMALLINT,     -- NULL 表示未投广告或未在首页
    total_results       INT,
    collected_at        TIMESTAMPTZ   NOT NULL DEFAULT NOW()
);

-- 性能索引
CREATE INDEX idx_asin_snapshots_lookup ON asin_snapshots (asin, collected_at DESC);
CREATE INDEX idx_keyword_snapshots_lookup ON keyword_snapshots (keyword, collected_at DESC);

-- 查询示例：过去 7 天 BSR 趋势
SELECT collected_at::date AS date, AVG(bsr_main) AS avg_bsr
FROM asin_snapshots
WHERE asin = 'B09XXXXXXX'
  AND collected_at >= NOW() - INTERVAL '7 days'
GROUP BY date
ORDER BY date;

可视化接入

将上述数据库连接到 Grafana，配置以下三块 Panel，构成核心运营看板：

Panel 1：BSR 时序趋势折线图
  数据源：asin_snapshots
  X 轴：collected_at（日）
  Y 轴：bsr_main（倒序，越小越好）
  
Panel 2：关键词自然排名 + SP 坑位占比双轴图
  数据源：keyword_snapshots
  X 轴：collected_at
  左 Y 轴：organic_rank（倒序）
  右 Y 轴：sp_positions_count

Panel 3：竞品 BSR 对比折线图
  数据源：asin_snapshots（多 ASIN 叠加）
  筛选条件：asin IN (自己ASIN, 竞品ASIN_1, 竞品ASIN_2)