AWQ(Activation-aware Weight Quantization)** 并非商业公司产品,而是由麻省理工学院(MIT)韩松团队(Han Lab) 于2023年提出的开源大模型量化算法,2024年发表于MLSys会议并获最佳论文奖。

  • 核心研发单位:MIT EECS 系 Han Lab(PI:Song Han)
  • 主要合作方:MIT-IBM Watson AI Lab、NVIDIA、上海交大、清华大学
  • 代码仓库:https://github.com/mit-han-lab/llm-awq(开源)
  • 商用集成:已被NVIDIA TensorRT-LLM、Google Vertex AI、Amazon SageMaker、vLLM、Hugging Face等主流推理引擎与云平台原生支持。

AWQ 算法核心 idea 和代码主导是 MIT Han Lab*;其他几家主要是经费/算力支持、工程落地、论文合作、硬件适配。下面按每家拆开讲具体提供了什么。


1)MIT-IBM Watson AI Lab(研究+经费+工程)

  • 资金支持:项目资助、研究员奖学金、合作课题经费。
  • 联合科研:IBM 提供企业级 LLM/多模态场景需求、真实业务数据、模型对齐/部署经验。
  • 工程对接:把 AWQ 集成到 IBM 内部模型(Granite)与平台(watsonx),做企业级验证和优化。
  • 人员参与:IBM 研究员直接参与论文讨论、实验设计、 ablation 分析。

一句话:出钱、出场景、出工程能力,帮 AWQ 从学术走向企业落地。


2)NVIDIA(算力+硬件适配+内核优化+生态)

  • 学术合作奖/经费:NVIDIA Academic Partnership Award,支持团队算力与学生资助。
  • GPU 算力:A100、H100 等大集群,支撑 LLaMA/OPT 等大模型的量化与评测。
  • 硬件友好设计指导:指导 AWQ 做成“硬件友好”的 per‑channel 缩放,避免低效混合精度。
  • 内核与推理集成
    • TensorRT‑LLM 原生集成 AWQ;
    • 提供高度优化的 CUDA 内核(后来 Marlin 也承接这类优化)。
  • 生态推广:在 NGC、开发者博客、GTC 上推广 AWQ,成为主流量化方案之一。

一句话:给卡、给钱、帮做硬件适配和高速内核,让 AWQ 在 NVIDIA 硬件上跑得最快。


3)上海交通大学(论文作者+算法/实验贡献)

  • 核心作者单位:第二作者 Jiaming Tang(MIT 访问/上交),是 AWQ 主要算法设计与实现人之一。
  • 算法思路贡献:参与“激活分布决定权重重要性”这一核心洞察的讨论与验证。
  • 实验与 baseline:负责部分模型(如 OPT、CodeLlama)的复现、对比实验、结果分析。
  • 代码贡献:参与 llm‑awq 仓库核心逻辑与测试脚本开发。

一句话:直接出核心作者,参与算法发明、实验与代码。


4)清华大学(论文作者+实验/多模态扩展)

  • 作者单位:Xingyu Dang(清华)为论文作者之一。
  • 多模态扩展:帮助验证 AWQ 在**多模态 LLM(图文)**上的有效性(AWQ 首次在多模态上做系统量化)。
  • 下游任务评测:负责部分常识推理、数学、代码任务的评测,确认量化后泛化能力。
  • 理论辅助:对缩放策略、误差边界提供补充分析。

一句话:出作者、做多模态与下游任务验证,扩大 AWQ 适用范围。


小结(一眼看懂)

  • MIT Han Lab:主导、核心 idea、主代码、论文一作。
  • MIT‑IBM钱+场景+企业落地
  • NVIDIA算力+硬件适配+高速内核+生态
  • 上交核心作者+算法+代码
  • 清华作者+多模态+下游评测
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐