每日一看大模型新闻(2023.12.21)用友大易:发布国内首个AI面试解决方案;智源开源新一代多模态基础模型Emu2;一位中国教授使用AI创作科幻小说,荣获全国大奖;微调?开源+共训
1.产品发布
1.1奇域AI:符合中国宝宝审美的AI绘画平台
发布日期:2023.12.21
奇域AI:符合中国宝宝审美的AI绘画平台 (chinaz.com)
主要内容:奇域AI以中国文化元素为基础,呈现极具中式审美的绘画风格,为创作者提供独特创作空间。社区提供新手引导,汇聚顶尖AI绘画创作者,促进创作者学习和启发。创作者可通过分享邀请链接和作品赚取额度,同时提供商业用途的生成图片,助力个人IP知名度提升。
内测地址:https://top.aibase.com/tool/qiy
1.2智源开源新一代多模态基础模型Emu2
发布日期:2023.12.21
主要内容:智源研究院发布了新一代多模态基础模型Emu2,该模型通过大规模自回归生成式多模态预训练,显著提升了多模态上下文学习能力。Emu2在少样本多模态理解任务上明显超越了Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等多项少样本理解、视觉问答、主体驱动图像生成等任务中表现出最佳性能。与今年7月发布的第一代“多模态to多模态”Emu模型相比,Emu2采用了更简单的建模框架,并训练了从编码器语义空间重建图像的解码器,将模型规模扩展到37B参数,实现了在模型能力和通用性上的突破。
项目主页:Generative Multimodal Models are In-Context Learners
论文地址:https://arxiv.org/abs/2312.13286
1.3智谱开源视觉语言模型CogAgent
发布日期:2023.12.21
视觉Agent来了!智谱AI开源CogAgent,支持GUI图形界面问答(附魔搭推理微调最佳实践)-阿里云开发者社区
主要内容:CogAgent是一款180亿参数的视觉语言模型,在GUI理解和导航方面表现出色。模型支持高分辨率视觉输入和对话问答,可针对任意GUI截图进行任务推理。CogAgent还通过OCR预训练和微调提升了相关任务的性能。
Github:GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
论文:https://arxiv.org/abs/2312.08914
1.4 VAST发布3D生成平台Tripo
前商汤通用模型负责人打造3D大模型「Tripo」,3D生成迈入「秒级」时代 | 早期项目-36氪 (36kr.com)
主要内容:VAST推出3D生成Tripo,支持文生3D和图生3D两种能力,后续将推出纹理贴图功能。驱动该产品的通用3D大模型Tripo于今年12月研发完成,基于大量3D高质量原生数据库训练,是一个十亿参数级别的3D大模型。目前,Tripo可以在8秒内生成带纹理3D网格模型,支持进入传统管线进行二次编辑和调整。在此基础上,可以用5分钟对模型进行优化,优化后的3D模型几乎接近人工制作的3D模型质量,成功率超过95%。
官网地址:Tripo AI
1.5 Meta发布全新AI翻译大模型
发布日期:2023.12.21
Meta翻译大模型可模仿语气语速,AI再也不“莫得感情”了-36氪
主要内容:Meta发布全新AI翻译大模型,实时语音转换延迟不超过2秒,可模仿语气、语速、情绪,解决了“莫得感情”问题。模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。采用非自回归架构、核心算法EMMA,引入“毒性缓解”和音频水印技术,提高翻译质量和安全性。
1.6用友大易:发布国内首个AI面试解决方案
发布日期:2023.12.21
用友大易发布国内首个AI面试解决方案-36氪 (36kr.com)
主要内容:用友大易基于企业服务大模型YonGPT,正式发布国内首个AI面试解决方案。通过与AI专家、人力资源专家、心理学专家等联合研发,推出了包含知识技能、综合能力、心理评测等多维度的胜任力评估产品,并建构了20+的通用类岗位模型。该模型已在部分中国500强企业初步验证。
2.技术更新
2.1苹果:可在iPhone上运行大型语言模型
发布日期:2023.12.21
苹果取得技术突破:可在iPhone上运行大型语言模型_凤凰网
主要内容:苹果的人工智能研究人员通过闪存利用技术在内存有限的设备上部署了大型语言模型,有望让未来 iPhone 拥有更强大的 Siri 和其他 AI 功能。他们提出了一种巧妙的闪存利用技术,窗口化和行-列捆绑,使得模型可以在有限内存中运行。这一突破为 iPhone 的人工智能功能开辟了新的可能性,苹果还计划将 AI 整合到更多应用程序中,包括 Siri 和其他功能。苹果还在研发自己的生成式 AI 模型“Ajax”,旨在与 OpenAI 的 GPT-3 和 GPT-4 竞争。
2.2斯坦福提出“统一归因”框架 保证大模型输出的真实性和可靠性
发布日期:2023.12.21
主要内容:随着大型语言模型在实际业务中的广泛应用,确保其输出的真实性和可靠性成为亟待解决的问题。学术界采用“归因”方法来追踪和证实模型输出的内容。当前研究领域主要分为两大派系,即协同归因和贡献归因。前者关注验证大模型输出的正确性,后者用于确定训练数据对模型输出的影响程度。在法律、医疗、金融等领域,对内容准确性有高要求的行业,这两种方法至关重要。
论文地址:https://arxiv.org/pdf/2311.12233.pdf
2.3阿里可控视频生成框架DreaMoving开源
发布日期:2023.12.21
阿里可控视频生成框架DreaMoving开源 (chinaz.com)
主要内容:DreaMoving是阿里基于扩散模型的视频生成框架,能根据人脸、姿势和文本提示生成高质量的定制化人类视频。通过引入Video ControlNet和Content Guider组件,DreaMoving实现了对运动的精准控制和文本提示的内容嵌入转换。DreaMoving开源,提供了代码和试玩地址,让用户体验其强大的泛化能力和定制化视频生成功能。
2.4 OpenAI:ChatGPT聊天记录存档功能
发布日期:2023.12.21
https://twitter.com/OpenAI/status/1737517702766633063?s=20
主要内容:OpenAI宣布在ChatGPT中推出了聊天记录存档功能。用户可以通过侧边栏选择“Archive chat”来进行存档,并随时在设置中查看已存档的聊天记录。目前,该功能已在网页端和iOS版本推出,安卓版也将很快推出。
2.5 openKylin 2.0 Alpha版发布,支持多种AI框架
发布日期:2023.12.21
给开发者更好的选择!支持多种AI框架的openKylin 2.0 Alpha版来啦
主要内容:openKylin 2.0 Alpha版本发布,支持多种主流AI框架,并提供AI框架安装助手,为开发者构建AI应用提供便利的环境和工具。openKylin与AI的结合,为AI技术的发展提供可靠的基础平台。同时,新版本将融入开明包格式、wlcom合成器、UKUI 4.10桌面环境等社区最新重大成果,带来全新的颠覆性创新体验。
下载地址:https://openkylin.top/downloads
2.6云从科技:智算中心算力达1200P
发布日期:2023.12.21
主要内容:云从科技宣布其西部智算中心算力规模已完成既定计划,达到 1200P 算力资源,可以满足 10 个百亿级或 2-5 个千亿级基础大模型同时进行预训练,也可以满足约 100 个行业大模型同时进行微调训练,算力规模西部领先。
3.商业动态
3.1 together.ai获得1.025亿美元A轮融资
发布日期:2023.12.21
together.ai让AI模型训练快9倍,获NVIDIA参投1.025亿美元A轮融资
主要内容:Together.ai是一个为AI创业公司提供训练和推理服务云平台的全栈AI公司,它Together.ai是一个为AI创业公司提供训练和推理服务云平台的全栈AI公司,它拥有自己的模型和数据集,在AI底层技术方面有很深的积累。最近,该公司获得了Kleiner Perkins领投的1.025亿美元A轮融资,总融资额达到1.2亿美元。该公司的目标是创建一个开放和去中心化的替代方案,挑战现有的云系统(如AWS、Azure和Google Cloud),这对未来的商业和社会将是“至关重要”的。
4.其他资讯
4.1一位中国教授使用AI创作科幻小说,荣获全国大奖
发布日期:2023.12.21
一位中国教授使用 AI 来创作科幻小说,结果拿到了全国大奖 - Foresight News
主要内容:一位清华大学教授计划创作关于元宇宙和人形机器人的科幻小说,故事由AI生成,沈扬教授仅用 66 个提示,在三小时内就创作出了这个获奖科幻故事。以元宇宙探险家为主角,探讨失忆与人工智能的复杂关系。山东省的《济南时报》报道称,它成为了江苏青年科普科幻小说大赛的获奖作品之一。虽受赞誉,但评审指出AI写作或许对文学语感带来挑战。
4.2微调?开源+共训,双轮驱动基础大模型创新普惠
发布日期:2023.12.21
开源+共训,双轮驱动基础大模型创新普惠 |浪潮信息吴韶华@MEET2024
主要内容:吴韶华博士在MEET 2024智能未来大会上指出,GPT-4相比于GPT-3和GPT-3.5,其能力有了巨大的进步。这主要得益于引入了微调过程,特别是在预训练与微调不同阶段的特性上。他还介绍了浪潮信息的“源1.0”大模型和“源2.0”大模型,这两个模型都是从算法、数据、计算三个层面入手打造而成,尤其在代码、数据逻辑等方面都取得了很出色的表现。为了进一步提升基础大模型的能力,浪潮信息提出了“开源+共训”的策略。此外,吴韶华博士还分享了他们在算法、数据和计算三个方面的具体实践和思考。
更多推荐
所有评论(0)