0d3d43a52f673af5c6136a0d4f37e6dd.jpeg

雷递网 乐天 11月6日

创新工场董事长李开复博士带队创办的AI 2.0公司零一万物,今日正式开源发布首款预训练大模型 Yi-34B。

“Yi” 系列大模型:命名来自“一”的拼音,“Yi”中的“Y”上下颠倒,巧妙形同汉字的 “人”,结合AI里的 i,代表 Human + AI。

零一万物创始人及CEO李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’的初衷和决心。我们组成了一支有潜力对标 OpenAI、Google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。Yi-34B可以说不负众望,一鸣惊人。”

李开复在接受媒体采访时表示,零一万物(01.AI)经过一轮融资后,估值已超过10亿美元。

李开复于2023年3月开始组建零一万物的团队,并于6月开始运营。零一万物开源的基础大型语言模型Yi-34B现已向全球开发者提供中英文版本。

Hugging Face最新评估结果显示,Yi-34B在所谓的预训练基础大语言模型中排名第一,在一些关键指标上优于包括Meta公司Llama 2在内的领先开源模型。这也是迄今为止唯一成功登顶 Hugging Face 全球开源模型排行榜的国产模型。

发布34B和6B两个版本

零一万物此次开源发布的Yi系列模型,包含34B和6B两个版本。

在Hugging Face 英文测试公开榜单 Pretrained 预训练开源模型排名中,Yi-34B以70.72的分数位列全球第一,超过LLaMA2-70B和 Falcon-180B等众多大尺寸模型。

993716bfbcadfd9484d6ca20120bd39a.jpeg

Hugging Face是全球最受欢迎的大模型、数据集开源社区,被认为是大模型领域的GitHub,在大模型英文能力测试中具有相当权威性。

作为国产优质大模型, Yi-34B主打更“懂”中文。对比大模型标杆GPT-4,在CMMLU、E-Eval、Gaokao 三个主要的中文指标上,Yi-34B 也具有优势,凸显中文世界的优异能力,更好地满足国内市场需求。

77da24f1b4c3d35c2fc56e85d4647060.png

C-Eval 排行榜:公开访问的模型,Yi-34B 全球第一(2023年11月5日)

14c5d9f28e4903769dd32d1924addd48.jpeg

各评测集得分:Yi 模型 v.s. 其他开源模型

但和 LLaMA2一样,Yi系列模型在GSM8k、MBPP 的数学和代码评测表现略逊GPT模型。由于零一万物的技术路线倾向于在预训练阶段尽可能保留模型的通用能力,因此没有加入过多的数学和代码数据。

381f2e5d43513dbac32c2a793e9eaacb.png

研究团队此前在《Mammoth: Building math generalist models through hybrid instruction tuning》等研究工作中针对数学方向进行过深度探索,在未来,零一万物的系列开源计划中将推出代码能力和数学能力专项的继续训练模型。

全球最长200K上下文窗口,40万字文本极速处理,直接开源 

此次开源的Yi-34B模型,将发布全球最长、可支持200K 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。相比之下,OpenAI的GPT-4上下文窗口只有32K,文字处理量约2.5万字。

2023年三月,硅谷知名 AI 2.0 创业公司Anthropic的Claude2-100K 将上下文窗口扩展到了100K规模,零一万物直接加倍,并且是第一家将超长上下文窗口在开源社区开放的大模型公司。

在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息,生成更连贯、准确的文本。

此外,在文档摘要、基于文档的问答等下游任务中,长上下文的能力发挥着关键作用,行业应用场景广阔。在法律、财务、传媒、档案整理等诸多垂直场景里,更准确、更连贯、速度更快的长文本窗口功能,可以成为人们更可靠的AI助理,让生产力提升。然而,受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战,因此大多数发布的大型语言模型仅支持几千tokens的上下文长度。

为了解决这个限制,零一万物技术团队实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升,也为Yi系列模型上下文规模下一次跃升储备了充足“电力”。

Yi-34B的200K上下文窗口直接开源,不仅能提供更丰富的语义信息,理解超过1000页的PDF文档,让很多依赖于向量数据库构建外部知识库的场景,都可以用上下文窗口来进行替代。Yi-34B的开源属性也给想要在更长上下文窗口进行微调的开发者提供了更多的可能性。

AI Infra 是大模型核心护城河,实测实现40%训练成本下降 

AI Infra(AI Infrastructure  人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等等,是模型训练背后极其关键的“保障技术”,这是大模型行业至今较少受到关注的硬技术领域。

李开复曾经表示,“做过大模型Infra的人比做算法的人才更稀缺”。在打造“World's No.1"梯队时,超强的Infra 能力是大模型研发的核心护城河之一。如果说训练大模型是登山,Infra的能力定义了大模型训练算法和模型的能力边界,也就是“登山高度”的天花板。在芯片、GPU等算力资源紧缺的当下,安全和稳定成为大模型训练的生命线。

零一万物的 Infra 技术通过“高精度”系统、弹性训和接力训等全栈式解决方案,确保训练高效、安全地进行。

凭借强大的 AI Infra 支撑,零一万物团队能实现超越行业水平的训练效果,Yi-34B模型训练成本实测下降40%,实际训练完成达标时间与预测的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达50%。截至目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超过95%,保障了模型训练的顺畅进行。

在 Yi 开源模型的全球首发日,零一万物CEO李开复也宣布,在完成 Yi-34B 预训练的同时,已经旋即启动下一个千亿参数模型的训练。“零一万物的数据处理管线、算法研究、实验平台、GPU 资源和 AI Infra 都已经准备好,我们的动作会越来越快”。

深研“规模化训练实验平台”,从“粗放炼丹”进阶到 “科学训模” 

众所周知,大模型效果依赖于更多、更高质量的数据,零一万物在数据处理管线上可谓“不惜成本”。由前Google大数据和知识图谱专家领衔的数据团队,凭对数据的深度理解与认知,结合大量数据处理实验,建设了高效、自动、可评价、可扩展的智能数据处理管线。

不仅如此,经过几个月大量的建模和实验,零一万物自研出一套“规模化训练实验平台”,用来指导模型的设计和优化。数据配比、超参搜索、模型结构实验都可以在小规模实验平台上进行,对34B模型每个节点的预测误差都可以控制在0.5%以内。掌握了更强的模型预测能力,从而大大减少了进行对比实验需要的资源,也减少了训练误差对于计算资源的浪费。

数据处理管线和加大规模预测的训练能力建设,把以往的大模型训练碰运气的“炼丹”过程变得极度细致和科学化,不仅保证了目前发布Yi-34B、Yi-6B模型的高性能,也为未来更大规模模型的训练压缩了时间和成本,有能力以领先于行业的速度,将模型规模“丝滑”扩大到数倍。

零一万物团队首度亮相

零一万物的团队卧虎藏龙,成员来自Google、微软、阿里巴巴、百度、字节跳动、腾讯等企业背景,并持续延揽全球范围内最优秀的华人AI精英。

零一万物算法和模型团队成员,有论文曾被GPT-4引用的算法大拿,有获得过微软内部研究大奖的优秀研究员,曾获得过阿里CEO特别奖的超级工程师。总计在ICLR、NeurIPS、CVPR、ICCV等知名学术会议上发表过大模型相关学术论文100余篇。

零一万物技术副总裁及AI Alignment负责人是 Google Bard/Assistant 早期核心成员,主导或参与了从 Bert、LaMDA 到大模型在多轮对话、个人助理、AI Agent 等多个方向的研究和工程落地;首席架构师曾在Google Brain与Jeff Dean、Samy Bengio等合作,为TensorFlow的核心创始成员之一。

首次发布的背后主力战将,零一万物技术副总裁及 Pretrain 负责人黄文灏是通用人工智能 AGI 的信仰者,他曾先后任职于微软亚洲研究院和智源研究院。在微软从事AI Agent研究工作时,得到微软创始人比尔·盖茨和CEO 萨提亚·纳德拉的高度赞扬。

而支持 Yi 模型训练保障交付的零一万物技术副总裁及AI Infra负责人戴宗宏,是前华为云 AI CTO 及技术创新部长、前阿里达摩院 AI Infra 总监。Infra核心团队主要来自于阿里、华为、微软、商汤,是AI 多领域具有高水平研究及系统研发能力的顶尖专家,曾经参与支持了4个千亿参数大模型规模化训练,管理过数万张GPU卡,夯实了端到端的全栈AI技术能力,零一万物可说是具备一支行业内少有的 AI Infra “技术天团”。

打造更多ToC Super App,培育新型“AI-first”创新生态

零一万物认为,34B的模型尺寸在开源社区属于稀缺的“黄金比例”尺寸。相比目前开源社区主流的7B、13B等尺寸,34B模型具备更优越的知识容量、下游任务的容纳能力和多模态能力,也达到了大模型 “涌现”的门槛。

在精度上,不少开发者都表示7B、13B开源模型在很多场景下无法满足需求,追求更好的性能需要使用30B以上的模型,但一直没有合适的选择,高质量的Yi-34B的出现,顺利解决了开源社群这一刚性需求。

而比起更大的 50B至70B,34B是单卡推理可接受的模型尺寸的上限,训练成本对开发者更友好,经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理,对开发者操作服务部署有很大的优势。

接下来,零一万物将基于Yi系列大模型,打造更多To C超级应用。李开复强调,“AI 2.0是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术,正如PC时代的微软Office,移动互联网时代的微信、抖音、美团一样,商业化爆发式增长概率最高的一定是ToC应用。零一万物邀请开发者社群跟我们一起搭建Yi开源模型的应用生态系,协力打造AI 2.0时代的超级应用。”

目前,Yi系列模型已在 Hugging Face、ModelScope、GitHub 三大全球开源社区平台正式上线,同时开放商用申请,给开发者在使用LLM的过程中提供更多、更优质的选择。

本次开源的基座模型包括200K上下文窗口的基座模型,基座模型进行了比较均衡的IQ和EQ的配置,保留了后续进行不同方向微调的可能性。为了能让语言模型有更好的应用效果,广大开发者可以基于基座模型进行微调,GitHub 01Yi 开源网页上已经提供了简单的微调代码,同时模型和主流语言模型微调框架兼容,开发者可以自行进行适配。

零一万物称,将基于Yi 基座模型,快节奏开源发布一系列的量化版本、对话模型、数学模型、代码模型和多模态模型等,邀请开发者积极投入,共同促进语言模型开源社区的繁荣发展,培育新型“AI-first”创新生态体系。 

以下是零一万物创始人兼CEO李开复博士演讲实录:

李开复:零一万物是我们在3月底官宣,团队逐渐到位,6、7月开始写的第一行代码,我们在短短的4个月时间之内,做出让我们非常自豪地宣布今天的一些产品亮相,我们会对未来的展望做一些分享。

开源对推动世界技术革命的发展有着非常重要的意义。

从Linux开始,到各种AI技术,今天到AI 2.0,大模型一直有开源的力量在不断地推动一波波的技术浪潮,有赖于开源,包括创业者、科研工作者等越来越多的人都能成为其用户。

一个司空见惯的观点是,很多人觉得大模型需要超级多的资源,只有OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与。

开源的方向是让大家都有机会能够接触到大模型。而开源模型几个月前有重要的消息,就是Meta宣布花了数千万美金训练出来的LLaMa2给开源世界分享,也得到非常好的评价,之后还有更大的模型。

比如说在阿联酋的Falcon-180B,更超越了LLaMa2-70B的性能,今天我们要宣布的就是不仅仅在英文的Hugging Face Leaderboard——全球最有公信力的被第三方验证的评测上,我们不但超过了LLaMa2,在30多B的模型也超过了LLaMa2-70B的模型,甚至超过了Falcon-180B的模型。

做出200k上下文窗口,可处理40万字的文本

我们这个领域发展得很快,有些人觉得我们这五个月怎么还不出声,其实五个月开发出这个结果,并不是说我们花的五个月才第一次有结果,而是我们认为从创立零一万物第一天,我的目标就是要能做一个世界级的公司,能够进入世界的第一梯队,你们熟悉我的过去也可能知道,我无论是在微软亚洲研究院还是之后的工作,还有创新工场,我一直的理念和梦想就是要证明给全世界看,中国人也能做世界第一和世界一流的创新,这次左边的图可以看到,我们被大家认为是Yi鸣惊人,我们这样的技术在国际开发已经有不少的国际开发者在Hugging Face关注了我们,包括GitHub,也包括在国内的开源社区开始在分享,这是我们很自豪的事情。

我们憋了一个大招,直到我们有非常自豪的世界第一梯队的模型,我们不急着对外发声。

这两个模型考虑的绝对不只是怎么去打榜,怎么打冠军,这不是我们的目的,我们是针对了我们认为今天开源社区和世界的开发者最渴望最需求的技术的底层,这里面包括了几个比较大的重点。

第一点,就是做大模型很大的一个挑战,就是记忆力不行,有时候你问一个问题,它已经忘记你之前问的很多问题了,或者你要上传一个很大的文档,然后来做推理分析,但是我们的窗口不够长,所以比如说我们读一本很长的书,读到了最后一章已经把第一章忘记了,如何去做推理分析?

所以这次我们也做了一个全世界最长的200k上下文窗口,这200k基本可以处理40万字的文本,这个技术我们也开源。之前也有一些友商做了类似相当大的窗口,但是我们这个是开源的,如果要推动全球的大模型生态系统,我们不能只是每个公司闭门造车,而且我们是需要分享这样的技术,让更多的学术上的老师、研究员、学生、创业者、开发者都能够去使用,所以这200k相当重要,而且把它开源更重要。

我们内部同时也建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,这个Infra团队在我们训练中,一方面从6B到34B的过程,练习了我们的scaling law,也就是说怎样能够在6B上做各种实验优化我们的算法和模型,能很丝滑的从6B推向34B,我们也很自豪的见到了,我们的34B模型相当开心的说,是第一次训练就出了这样的结果。

实测实现40%训练成本下降

我们不是做了各种试错,因为GPU资源非常昂贵,非常稀罕,所以我们是要能把规模化做好,就是当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高,训练100B以上的模型有些公司可能花上几千万美金,我们能够把这个价格大大下降,我们现在看到34B的训练比很多友商,已经下降了我们训练成本40%。

也就是说别的公司如果需要2000台GPU训练这样一个模型,而我们可能只要1200张,别人用2000张我们1200张就可以做到。这一整套的训练平台我们称为基于科学训练科学训模,很多人把训练大模型当做炼丹,也有人说训练一下模型就训练飞了,因为它并没有收敛,并没有成长。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也高概率可以成功。

所以这个实验也是成功的,以后我们逐渐的来扩大尺寸,从开源走向更低源和困难度更高的模型,我们有相当的信心可以做到的。

我们希望我们不鸣则已,Yi鸣惊人。我们绝对不是以今天作为一个最大的发布会,如果我们过半年,甚至过一年回头看,今天对我们来说,It is only the begining of begining,我们还会不断的开发推动宣布更多的让人惊艳的结果,这里包括了更大的尺寸,包括了对话的模型,包括了加强的数学代码的模型,包括多模态的模型,我们可以期待我们可以快节奏的几周之内会不断的有新的发布,来跟大家分享。

34B是黄金尺寸

为什么挑34B呢?这是一个黄金尺寸,这有好几个理由,虽然6B也能做出一个在有些领域可以用的模型。

比如说做客服类的应用,但毕竟模型一定是越大越好,但是它的难度是当模型做得太大了,你的推理成本或者后续的训练,post train 也好、continual training 也好,都需要相当大的GPU资源。

34B属于一个黄金尺寸,它不会小到没有涌现或者涌现不够,是完全达到了涌现的门槛,但是它又没有太大,它还是可以允许一个高效率的单卡推理,而且做推理并不是一定需要H和A级别的卡,甚至你有4090,甚至3090,应该只要它的内存足够,都是可以使用。

所以既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的,所以如果一个开发者或国内的企业、国外的企业,因为我们是中英文都是世界第一,我们提供了一个非常好的LLaMa2的另外一个选项,对国外的来说,对国内的开发者来说同样的也是一个非常好的选项。

这个选项可以用来开发者想做一个好的新应用,无论面对国内还是全球的应用,我们都是一个适当的选择,或者一个公司,无论是银行、保险公司或任何一个企业,他如果想做一个企业内部的模型,而且很怕内部的数据对外能够被看到,那么把这样的一个34B的大模型从内部作为基础底座来做,也是相当好的一个选择。

而且有些公司现在在百模大战的推动中,可能因为GPU不够,或者因为其他的商机和其他的理由,选择了不要做一个底座的大模型,而要去做一个所谓的行业大模型,在我们34B的基础上来做,每个公司或每个行业想要做的行业大模型,我们这个底座应该也是最适合。

虽然行业大模型有相当大的价值,但是大的底座如果不好,底座是定位了一个天花板,要做的行业大模型、应用,如果你的底座不是非常优质,也不可能去超过底座不能做到的事情。所以选底座就要选表现最好的底座,今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。

如能找对机会 可成AI 2.0时代的微信、抖音

今天的宣布之后,我们可以期待什么?

我们对于未来的一个愿景就是大模型时代,不仅仅是一个人类跨向AGI的重要一步,同时它也是一个巨大的平台机会,这个平台相比PC时代、移动互联网时代,现在我们是AI 2.0时代,如果PC时代赋予给开发者用户的机会,就是当时说的 computer on every desk,移动互联网带来的可能是随时随地的计算,而且它知道你是谁,你在什么地方,smartphone on every hand。今天,AI 2.0时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,AI for everyone。

我们认为在AI 2.0时代一定要开发最好的大模型底座,行业大模型,但是最大的商机应该是创造超级应用 Super APP。什么是超级应用呢?

我们可以把超级应用定位为大部分人需要花大部分时间,每天必须有它,才能得到自己的价值体现或者自己很开心的在新的时代里学到新的技术,用到新的产品。PC时代微软Office就是超级应用,在移动互联网时代,微信、抖音是相当好的超级应用,AI 2.0时代毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物在努力的目标。

因为在过去的两个时代可以值得借鉴,因为人类历史是不断重复,每一个时代最大的机会跟上一个时代是可以推延的,这也是为什么当时我加入了微软,参与了PC时代的革命,这也是为什么我在谷歌看到了移动互联网时代来临,也创立了创新工场,为了捕捉新时代的超级应用的投资与开发。

AI 2.0时代来到了,最大的一个商机一定是超级应用,而这超级应用一定也是在消费者级别的超级应用,这样应该给了大家足够的暗示。

除了我们的模型之外,还在做什么样的工作,而这样的一个Super App的雏形会在不久的将来跟大家分享。

我们在这个阶段也不认为我们自己就能把所有的Super App就做了,因为Super App一定是一个很简单的开始,用精益创业的方法不断的迭代,就像抖音和微信的第一个版本并不是超级应用,而是捕捉到用户的需求并同时用到新平台的技术精髓,来做一个大家喜欢的简单的应用,然后不断根据用户的反馈不断调整应用,最终迭代成超级应用。

所以用迭代的模式、尝试的模式,但是针对真实用户的需求,而且能够不断迭代,尝试多个例子,这是我们自己做Super App的方法论,我们也认为这个方法论会被上万、上十万,甚至上百万的开发者去试,我们不能够保证最大的Super App一定是我们的。

但我们希望开发出这样一个Super App。同时今天创业者最好的机会AI 2.0上面来开发App,如果能找对机会,聪明快速勤奋的迭代,任何一个App应该都有机会成为Super App,成为AI 2.0时代的微信、抖音。

我们现在已经启动我们100B千亿参数模型的训练,应该在几个月之内会能够跟大家分享我们新的成果,我们也希望这个大的模型和它带来的各种的新的功能,还有之上可能产生的Super App潜力的应用,都会是我们下一次、下两次、下十次见面能跟大家分享的消息,以及我们的喜悦和自豪。

以下是李开复问答环节:

提问:零一万物在大模型演进路线上有哪些思考,认为大模型下一步应该往何处发展?除更大参数的规模外,在多模态等方向上是否有更多投入?

李开复:首先尺寸一定是最重要的,因为简单来说,人类有史以来从来没有一个发明是当你投入更多的钱就可以有更聪明的大脑,我们看科学的发明发展,从牛顿、爱因斯坦等等都是一个又一个叠加在巨人的肩膀上经过千年累计才成为今天的状态,而今天大模型最了不起的地方是当你能够丢进去更多的数据和计算力,它就自然变成更聪明,这样一个技术可以是自我衍生,自动进步,能够超级迅速,为什么在短短一年我们看到了这么多的迭代,也是因为这样的功能,所以我们是深深相信,还需要训练更大尺寸的模型。

但是同时训练大尺寸的模型,不是傻傻的把模型做大就好,你的数据有多少,从哪里来,质量是否高,训练的scaling law,让它不要训练飞掉了,确保从一个尺寸A到一个更高的尺寸B,能够很丝滑做这样一个推进,这很重要。这会是我们未来重要的第一个方向。

当然做这个过程中,我们的Infra继续发展也更重要,因为随着数据量增大,模型尺寸增大,吞吐量和对网络的各种需求也变得更大更不合理。所以我们需要想办法能够克服这些问题,比如说今天很多模型的训练,包括今天发布的模型在小几千张卡上,大家都可以跑通,只是有快慢40%的差别,但是当你到了大几千张卡,甚至小万张卡,这个时候就需要各种Infra帮助,才能够训练出来一个模型,还不只是一个省多少时间,而是作出结果和不作出结果的问题,所以继续推动找更多的数学家加入,来帮我们指点应该怎么样确保我们的扩张是一个丝滑过程。还有怎么样能够有更多的Infra训练方面的发展,,让我们确保从小几千张,大几千张,小万张卡上都能够不断的扩展,这是第一部分。

多模态也非常重要,因为人类的学习和成长不是只看文字,我们从小变成我们今天拥有的大脑,是我们通过丰富的感知能力观察这个世界,我们了解图片、视频、声音、语音的能力,对学习是一样重要。我们可以换过来想,如果一个人他从来看不见、听不见,只是把文字塞到大脑里,他是不是能成为最聪明的自己,应该是不可能。所谓的多模态就是把真实世界的理解,从声音、图片到视频先做进来,会非常重要。

但是这也面临很多挑战,因为这些多模态的内容是非常大,它的尺寸会比文字潜在更大,所以我们怎么样合适的去做这样一个coding跟压缩,怎么样做一个代表,因为文字是人类几千年来人类的老祖宗遗留下来一个压缩到很小的浓缩知识代表,而且它流传几千年也不会变,而视频跟声音都是近几十年才有的这些数据,所以怎么去使用它,它那么大,还有它不是自带含义,这些问题都需要克服。

我们在多模态方面,已经有了超过十个人的团队,已经有一些技术在未来一两个月之内可以亮相,但是这是一个更长周期的规划,我们可以看到在美国白热化的竞争,DALL-E3、GPT-4V,还有即将推出的谷歌 Gemini,都把多模态当做这两家公司最大的竞争关注领域,我们肯定也要参与这样一个竞赛,希望也能作出亮眼的结果,所以我们是在文字模型Infra之上,加上多模态,肯定是我们未来同样重要,需要并进的方向。

提问:零一万物如何规划商业模式,YI模式如何进行落地的应用?

李开复:对于商业模式我们是采取下列的思维。我们认为一个新时代,它的Super APP超级应用是最大的商机,我们怎么定位这样一个商机呢,我们要考虑几件事情。第一,大模型本身不能是一个nice to have,它一定是一个must have。我们可以观察移动互联网时代,最成功的公司的,无论是微信、抖音、滴滴、美团,他们所做的一个巨大决定,就是all in全部赌在移动互联网,他们并没有花很多时间,甚至完全没有做PC应用。可以简单定义,我们所做的应用,如果把大模型拿掉了,整个应用就不成立,我们是绝对all in大模型,是必须有大模型,这个我们可以称为AI First、AI Native。

我们认为微软Copilot是很有价值的产品,如果我是微软我也会做它,因为它已经有这么大的一颗大树,能够在上面再开花结果,是能够短期赚最多钱的最好机会,但是我觉得未来我们所用的office,一定不会是今天office基础上去堆积功能,而会是一个从零做起的东西。

也就是说内容的创造,不是说今天全是人创造,AI来帮一点小忙,就是一个最重要的方向。我觉得未来的内容应该主要是由AI来创造,人来帮忙,这个才是王道,所以我们对Super APP开发第一点,就是AI First、AI Native,没有大模型整个产品就不成立,我们需要谦虚向微信、抖音、美团这些公司在上一个移动互联网重大时代的成功学习。

第二,商业化非常重要,今天AI 1.0公司有些面临着挑战,就是收入没有做好。那些没有做好收入的,不能只是说有多少博士,有多少论文,有多少世界第一的比赛,最终资本市场还是要看你能不能挣钱,所以这是第一个考验。AI 1.0时代做不出收入的公司,很早就被淘汰了。

第二个考验就是作出收入的公司,他们的收入是否可以持续化,他们的收入是否是高质量的,按月付费,或者说按使用付费,或者是持续付费,而不是说做一个项目拿一笔钱就没了,第二年有巨大的压力,要拿两倍的项目,三倍的项目。

最终这样一个项目,你拿到一亿收入要五个人,要拿十亿收入可能就要五千个人,就算不要五千个人,也要两千个人,这样一个项目是人力的项目,不是技术的项目。字节、阿里、百度、谷歌、Facebook能够成为伟大的公司,就是因为他们的收入是有质量,今天AI 1.0的公司,整体来说这个成绩单上并没有得到很好的分数,AI 2.0是有这个机会。

所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润,它的收入是高质量的可持续,而不是一次性的在某一个公司上打下一个单子,拿了几十万甚至几百万这种可能不是最好的收入,所以我们的APP和Super APP会用这两个原则去推动发展。

我们可以推动的主要领域是在 ToC消费者端,因为在国内今天的 ToC 应用,也就是我们可以理解为微信、抖音一类的应用,它的规模化和利润率,和它的收入质量都是要高于那些大部分做商业,做系统集成的,做 ToB的公司,所以我们选择坚定不移走消费者ToC 的路径。

最后一点,中国公司做ToC是很厉害的,国内很多人还不知道的事情,中国人做APP是远远超过美国,比如说微信可以彻底打败碾压 WhatsApp,我们的Tiktok远远要比Instagram更好,美团在美国更是打遍天下无敌手。

这些代表的是中国做consumers app的能力,在中国很厉害,赚了很多钱,有很多伟大的上市独角兽,在全世界领域也是没有敌手,我们希望这些consumers app不但在国内能够成功的推出,而且在国外也可以推出。

在国内竞争对手还是很强,去国外竞争对手相对弱,在国内收费有一点难度,在国外收费可能相对容易。所以我们的consumers app会是一个面对中国,但会面对中国之外市场来做。

提问:目前国内以及您刚刚提到的mate都在做开源大模型平台,您如何看待目前大模型开源同质化竞争问题?

李开复:是的,我觉得开源是一个特别伟大的技术选择,它让全世界都可以参与,都可以提供自己的知识智慧,它也让全世界变成一面镜子,可以看透每一个开源公司的代码质量是否是高的,它是否有安全问题,是否它的评测是公正的,这个可以让我们站在一个起跑线上去评估所有的公司,是一个巨大合作的社区,在全球范畴上合作。今天的linux还有很多其他的技术,包括AI 1.0技术,AI 2.0的技术都在做这件事情。

还有今天国际上不同的国家合作方面,现在碰到一些挑战,但是在开源社区,全球融合成为一个合作,彼此帮助的大家庭。

我们很乐于参加这样的大家庭。我们自己的发展,零一万物的发展也受益于之前此前开源社区的一些集体智慧,让我们有义务做我们的贡献。对于我们一个公司来说,它需要评估的是开源或闭源,开源对很多公司是非常好的选项,因为下面几个理由。

第一,有些应用并不需要特别巨大的模型,我们可以期待的是,世界第一梯队包括中国第一梯队的大公司,都会在往更大的模型去发展,他们会越做越大,越做越强,越做有更多的涌现。但是这些模型用起来会很贵,它带来更强的能力,但是不是每个应用都需要这样的能力,所以对很多相对需求比较简单的应用,比如说翻译、客服,做一个chat bot,还有一些其他的应用,开源模型其实就足够了,所以我们可以期待的是有很多不需要最最强技术的应用开发和企业,他们会在开源上面做开发。

第二,对于很多公司数据或者是技术,现在还在观望,有点担心用到比如说大厂的技术,在美国我们看到OpenAI的GPT用吸心大法把一些能力吸进去,慢慢让开发者越来越弱,平台越来越强,很多企业会担心这件事情。我的第一个回答,可以先从开源做起,也许开源就够了。之后如果需求更大,可以考虑用一个闭源模型,如果对大厂有担忧的话,创业公司像我们做出来的更大的模型也是可以使用,这也是选项。

最后有关同质化的问题,我觉得有竞争才会有进步,就像Hugging Face这样一个社区,它是独立第三方做测试。它的测试结果就会让大家有自然的关注,如果只是一千家,一万家公司,每家都放一个没什么价值的开源模型,这个社区就乱了。

但是就是因为有比较有公平,开放式的,大家都可以知道哪些开源模型是最好的,我相信这次发布就是一个验证开源社区和开源方法论,不是一个同质化的竞争,它是能够让有特点的或者优质技术能够脱颖而出。

提问:在训练大模型的过程中,零一万物如何解决数据和算力的问题?优质的数据从哪里来?算力如何解决?

李开复:是的,我们对于数据来说想尽各种方法和渠道,在外购买了很多数据,这每个大模型公司都有去做,我们也动用了网络的爬虫,合法获取允许的网站内容,我们也用了很多网上的Common Crawl等标准化、已经开源分享的数据,我觉得非常重要的一点是这些数据是有很多的重复,它的质量也是参差不齐的,我们对这些数据做了非常系统化的,而且是用了AI来做它的筛选,从里面用AI筛选再做人工评估,再不断迭代。

从这样的100多T数据里面挑选出3T,有一定比例的中文和英文,这也是我们用精炼出来的高质数据作为标准,来做中英文的平衡,这两个语言对我们来说都很重要,但是我们不愿意妥协质量。

所以我们通过实验来协助我们判断,是一定的比例用的中文,更多的还是英文,这也代表英文的质量整体还是更高一些,我们还是希望中国有更多这方面的资源开发。

所以我们刚才谈到了做整个大模型是一个科学的过程,我们做规模预测是科学,我们做模型的开发是科学,我们做数据的评估和筛选是科学,我们对系统的评估也是科学,是一个完整的科学,而不是过去AI常常谈的炼丹的做法,我们发现科学的做法带来很大的帮助,“科学训模” 是这么来的。

有关GPU大家都在最早的时候租到或买到了,我们这里可分享的就是我们在初创时就判断GPU比黄金重要。

所以很早在规划各种资源,我们的算力很幸运的是现在足够,应该用到18个月以后,主要是在国内和云厂商的一些合作。

我们觉得国内的云厂商在GPU云上花了很多的力气,也让我们很感谢云厂商合作伙伴的支持和服务,让我们能训练出这次、还有下次更大的模型。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。

37b2acc30b4a905d0fa74684c6259c66.jpeg

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐