阿里AI团队开源Pixelle-Video:输入一个主题,AI全自动生成短视频

近日,阿里巴巴国际数字商业集团(AIDC)旗下AI团队在GitHub上开源了一款名为Pixelle-Video的AI全自动短视频生成工具。用户只需输入一个主题,系统即可自动完成从文案撰写、AI配图、语音合成、背景音乐添加,到最终视频合成的全流程。开源首日便获得开发者社区广泛关注。

这不是阿里第一次开源AI工具

需要特别说明的是,Pixelle-Video的开发者并非阿里巴巴集团本体,而是阿里巴巴国际数字商业集团(Alibaba International Digital Commerce Group,简称AIDC)的AI团队AIDC-AI。AIDC主要负责阿里面向海外市场的跨境电商业务,包括速卖通、Lazada、Trendyol等平台。与阿里集团其他开源项目相比,AIDC更专注于数字商业场景下的AI应用落地。

Pixelle-Video基于ComfyUI工作流架构设计,支持用户灵活替换底层模型。用户可选择通义千问、GPT、DeepSeek等大语言模型生成文案;配图环节支持FLUX、Stable Diffusion等主流图像生成模型;语音合成则兼容Edge-TTS、Index-TTS、ChatTTS等多种方案。这种模块化设计让用户无需深入了解技术细节,也能根据实际需求调整输出效果。

全自动化流程覆盖视频创作核心环节

根据项目文档,Pixelle-Video的完整生成流程包含四个主要环节:文案生成、配图规划、逐帧处理、视频合成。用户输入主题后,系统会自动将文案拆分为多个分镜,并为每句话匹配相应的AI插图。整个过程中,文案撰写、配图生成、语音合成三个环节并行处理,最后由视频模板完成最终合成。

除了基础功能,项目还提供了多个扩展模块。数字人口播功能支持用户上传照片生成AI数字人说话视频;图生视频功能可将静态图片转换为动态视频;动作迁移功能则允许用户上传参考视频和图片,实现动作到目标人物的迁移。

适配多平台,支持本地与云端部署

视频尺寸方面,Pixelle-Video支持竖屏(9:16)、横屏(16:9)、方形(1:1)三种比例,可分别适配抖音快手、B站YouTube、小红书等主流内容平台。用户可通过预置模板快速统一视频风格,也可自行编写HTML模板实现个性化定制。

部署方式上,项目为Windows用户提供了免安装的一键整合包,下载后双击运行即可启动Web界面。对于有本地运行需求的用户,项目支持通过本地ComfyUI进行图像生成,完全免费;云端则可通过RunningHub等平台调用GPU资源。官方建议,本地有显卡的用户推荐完全免费方案,否则可选用通义千问API,成本相对较低。

AI视频生成赛道持续升温

过去一年,AI视频生成领域竞争日趋激烈。从OpenAI的Sora到快手的可灵,从字节跳动的即梦到众多创业公司产品,各类文生视频、图生视频工具不断涌现。Pixelle-Video的差异化在于将多个AI能力整合为完整的短视频创作流水线,降低了用户的使用门槛。

对于有批量视频生产需求的自媒体创作者、教育内容从业者,以及需要快速制作产品介绍视频的电商卖家而言,这类工具提供了一种新的内容生产思路。项目采用Apache 2.0开源协议,用户可自由使用、修改和商业化。

开源地址

链接: https://github.com/AIDC-AI/Pixelle-Video

热度: ⭐ 11.6k+ stars | Apache 2.0开源协议

核心功能: 输入一个主题,自动完成文案→配图→配音→BGM→成片的全流程短视频生成

技术架构:

主题输入 → LLM生成文案 → ComfyUI生成配图/视频 → TTS配音 → FFmpeg合成

核心亮点:

  • 零门槛: 一键Windows整合包,无需安装Python/FFmpeg
  • 完全免费: Apache 2.0协议,本地部署可0成本
  • 高灵活度: 支持自定义ComfyUI工作流、声音克隆、多模板
  • 多模型支持: 通义千问/GPT/DeepSeek/Ollama + FLUX/WAN 2.1 + Edge-TTS/Index-TTS

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐