【AI大模型前沿】星辰语义大模型TeleChat3:国产千亿MoE大模型的创新与应用
系列篇章💥
目录
前言
在人工智能领域,大语言模型的发展正推动着技术的飞速进步。中国电信人工智能研究院(TeleAI)开源的TeleChat3系列模型,作为国内首个基于全国产算力训练的千亿参数MoE语义大模型,为国产AI技术的自主可控发展注入了新的动力。本文将详细介绍TeleChat3的核心功能、技术架构、性能表现以及应用场景,旨在为技术爱好者和开发者提供全面的参考。
一、项目概述
TeleChat3是中国电信人工智能研究院自主研发的千亿参数细粒度MoE语义大模型,完全基于国产算力训练,支持多轮对话、文本创作、代码生成等任务。该系列模型包括TeleChat3-105B-A4.7B-Thinking和TeleChat3-36B-Thinking,均引入了“思考模式”,在知识问答、数学推理、代码生成等六大核心维度性能比肩国际主流头部模型。
二、核心功能
(一)代码生成与优化
TeleChat3能够高效拆解任务需求,整合多项代码能力,一次性交付完整可运行的代码,实现代码补全、代码修改、网站和网页游戏生成等多类任务,省去大量人工调试时间投入,运行流畅,结果准确。
(二)知识问答与逻辑推理
在知识问答、逻辑推理等维度实现了能力提升,能更好地理解和回答用户的问题,提供准确的知识信息和逻辑推理结果。
(三)文本创作与语义理解
具备文本创作能力,能生成高质量的文本内容,在语义理解方面进行了针对性优化,能更好地理解用户输入的文本信息。
(四)角色扮演与多轮对话
支持角色扮演功能,可以根据用户设定的角色和场景进行对话,在多轮对话中能自动处理历史信息,保持对话的连贯性和一致性。
(五)引入“Thinking模式”
通过在对话模板中加入特定引导符号,模型可自动生成中间推理步骤,显著提升在复杂任务中的逻辑性与准确性,使AI推理过程可追溯。
三、技术揭秘
(一)模型架构
TeleChat3采用细粒度Mixture-of-Experts(MoE)架构,例如TeleChat3-105B-A4.7-Thinking模型包含1个共享专家和192个路由专家,每次激活4个专家。
(二)推理机制
支持长文推理优化,通过NTK-aware外推和attention scaling方法,能将在较短长度上微调的模型在推理时外推到更长的长度。
(三)训练与优化
系列模型完全基于国产算力(如上海临港国产万卡算力池)训练,基础数据量达15T tokens。同时,模型实现了对昇腾Atlas 800T A2训练服务器及昇思MindSpore框架的深度适配。
(四)思考模式
全系支持Thinking思考模式,通过在chat template中加入特定引导符号生成推理过程,提升在复杂任务中的逻辑性与准确性。
(五)位置编码与注意力机制
采用旋转位置编码(Rotary Embedding)为token注入位置信息,通过对查询(Q)和键(K)的旋转操作,使模型捕捉序列的顺序依赖关系。同时,支持因果自注意力机制,确保每个位置的预测仅依赖于前面的token。
(六)非线性增强
模型包含多层感知机(MLP)模块,用于对注意力层的输出进行非线性变换,增强模型的表达能力。
四、基准评测
在多个基准测试中,TeleChat3展现了出色的表现。例如,在MMLU-Pro知识评测中,TeleChat3-105B-A4.7B-Thinking达到了78.5的准确率,而TeleChat3-36B-Thinking达到了80.89的准确率;在Math-500数学评测中,TeleChat3-105B-A4.7B-Thinking和TeleChat3-36B-Thinking的准确率分别为91和95。这些结果表明,TeleChat3在知识、数学、创作、代码等多个维度均达到了国际先进水平。
五、应用场景
(一)代码生成与开发辅助
TeleChat3在代码生成方面表现出色,能够快速生成高质量的代码片段,支持多种编程语言。开发者可以通过简单的自然语言描述需求,模型即可生成对应的代码,大大减少了人工编写和调试的时间。无论是代码补全、修改还是生成复杂的网页游戏代码,TeleChat3都能高效完成,显著提升开发效率。
(二)知识问答与教育
在知识问答领域,TeleChat3凭借其强大的语义理解能力,能够准确回答用户的问题,提供丰富的知识信息。它支持多领域、多层级的知识问答,适用于教育场景中的学习辅导和答疑解惑。通过与学生互动,TeleChat3可以帮助他们更好地理解和掌握知识,提升学习效果。
(三)文本创作与内容生成
TeleChat3具备出色的文本创作能力,能够生成高质量的文本内容,涵盖写作、文案创作、新闻报道等多个领域。用户只需提供主题或大纲,模型即可生成连贯、准确的文本。这种能力使其在内容创作领域具有广泛的应用前景,能够帮助创作者快速生成初稿,提高创作效率。
(四)多轮对话与客服
TeleChat3支持多轮对话,并能自动处理历史信息,保持对话的连贯性和一致性。这一特性使其在智能客服领域具有显著优势,能够更好地理解用户需求,提供个性化的服务。通过与用户的多轮交互,TeleChat3可以解决复杂问题,提升用户体验。
(五)角色扮演与互动娱乐
TeleChat3支持角色扮演功能,可以根据用户设定的角色和场景进行对话。这一功能在游戏和互动娱乐领域具有重要应用,能够为用户带来沉浸式的体验。通过与虚拟角色的互动,用户可以更好地融入游戏或娱乐场景,享受更加丰富的娱乐体验。
六、快速使用
当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。以下是一个简单的本地推理代码示例:
import os
import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
tokenizer = AutoTokenizer.from_pretrained('TeleAI/TeleChat3-36B-Thinking', trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained('TeleAI/TeleChat3-36B-Thinking', trust_remote_code=True, device_map="auto",torch_dtype=torch.bfloat16)
prompt = "生抽与老抽的区别?"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer(text, return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
top_p=0.95,
temperature=0.6,
repetition_penalty=1.05,
max_new_tokens=2048
)
response = tokenizer.decode(generated_ids[0], skip_special_tokens=False,spaces_between_special_tokens=False)
answer = response.split("</think>")[-1].strip()
TeleChat3也支持服务化推理,可通过部署相关服务实现高效的在线推理。
七、结语
TeleChat3作为中国电信人工智能研究院开源的国产千亿MoE大模型,凭借其强大的核心功能、先进的技术架构以及优异的性能表现,在多个领域展现出了巨大的应用潜力。其开源开放的特性也为学术研究与商业应用提供了便利,推动了国产AI技术的发展。未来,随着技术的不断进步和应用场景的拓展,TeleChat3有望在更多领域发挥更大的价值。
项目地址
- GitHub:https://github.com/Tele-AI/TeleChat3
- TeleChat3-105B:https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking
- TeleChat3-36B:https://www.modelscope.cn/models/TeleAI/TeleChat3-36B-Thinking

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)