本周工作概述

3.29-4.4

本周是项目实训第一周,作为团队技术负责人之一,我的工作核心聚焦项目启动、需求梳理、模块分工确认及核心技术调研前期工作,重点完成项目目标对齐、个人职责明确,并开展音频识别SDK与大语言模型API的初步调研,为后续技术选型、方案确定及功能开发搭建基础框架,确保项目起步有序、方向清晰。

一、项目启动与需求梳理

1. 参与团队项目启动会

我们首先组织了团队项目启动会,与其他组员明共同确本次创新项目实训的整体目标、核心方向及预期成果。会议中,我们共同敲定了项目的核心定位:围绕宠物叫声、呼吸声、呼噜声等典型音频,借助音频SDK与大语言模型,实现宠物(聚焦于猫和狗)兴奋、焦虑、痛苦、应激四类情绪的精准识别,同步完成健康状态评估与异常预警,最终为养宠用户提供轻量化、智能化的宠物健康守护方案。同时,我们一起明确了项目实训的周期节点、团队协作规则及沟通机制,确保全员思想统一、目标一致。

2. 确认个人负责模块与团队分工

结合项目需求与个人技术特长,明确自身核心负责模块,同时协调团队完成整体分工,我们本着工作量均匀分配的原则,确保每位组员承担的任务量相对均衡,避免出现部分组员任务繁重、部分组员闲置的情况,保障团队高效协作、同步推进项目。在分工过程中,我们先梳理出项目全流程的所有任务模块,拆解各模块的工作量与技术难度,再结合每位组员的技术能力、擅长领域及可投入时间,进行合理分配,既确保每个人都能发挥自身优势,又保证整体工作量在团队内部均匀分摊,明确各岗位职责边界,避免交叉冗余或责任空白,同时制定清晰的任务衔接机制,让每位组员清楚自身任务、协作节点及交付标准,为后续高效推进项目奠定坚实基础。

最终决定我个人负责模块:音频采集与上传模块开发、音频识别SDK对接与调用、大语言模型API集成、团队开发环境与代码仓库管理;

团队分工:明确前后端开发、测试、产品文档撰写等岗位职责,确定各模块开发优先级,制定初步开发计划。

3. 梳理核心业务流程

为确保后续技术选型有明确方向、功能开发有清晰依据,我们重点梳理了音频相关核心业务流程,结合项目整体目标与各模块开发需求,对音频处理全链路关键环节进行逐一拆解、细化,最终形成标准化、规范化的流程框架。

具体流程如下:本地音频上传 → 格式/大小校验 → 音频特征提取 → 情绪识别 → 结果存储 → 健康评估生成。

在流程梳理过程中,我们不仅明确了每个环节的先后顺序,更细化了各环节的核心要求,明确了每个步骤的输入输出标准——例如音频上传环节需明确支持的音频格式、大小限制,校验环节需明确校验规则与异常处理方式,特征提取环节需确定统一的采样率、特征维度等关键参数,确保流程可落地、可复用。同时,我们针对各环节标注了关键技术节点,结合前期技术调研经验,提前预判可能出现的技术难点,比如音频格式不统一导致的特征提取偏差、情绪识别结果不准确、数据存储不规范等问题,并初步制定了应对思路,为后续技术选型提供针对性参考,也为各模块功能开发划定清晰边界,保障后续开发工作有序推进、高效落地。

二、核心技术调研(前期)

1. 音频识别SDK调研

启动音频识别SDK与音频特征提取方案调研,明确调研核心指标:免费额度充足、接入门槛低、支持声学特征提取、可输出情绪分类。围绕该指标,筛选主流调研对象,包括百度智能云语音与音频分析、阿里云智能语音交互、腾讯云声音分析等云厂商平台,以及Librosa、PyAudioAnalysis等开源音频特征库。本周重点完成各平台官方文档查阅、核心功能对比,初步梳理各方案的接入方式、调用限制及功能覆盖度,形成初步调研笔记,为后续深入测试与选型奠定基础。

2. 大语言模型API调研

同步开展大语言模型API调研,明确调研核心目标:免费额度充足、接口稳定、响应速度快、中文理解能力强,能够承接情绪识别结果解析、健康评估报告生成、个性化养护建议输出等核心任务。筛选通义千问、文心一言、豆包、讯飞星火等主流国产大模型API,本周完成各平台的官方文档研读、调用流程梳理,初步对比各模型的免费额度、调用难度及适配宠物场景的可行性,未开展实际接口测试。

三、本周遇到的问题与解决

  • 问题1:部分音频SDK未明确标注对宠物叫声的适配性,且部分云厂商SDK免费额度存在严格的调用频率限制,可能影响后续开发测试进度; 解决方法:优先筛选通用声学分析接口,暂不局限于宠物专用SDK,同时记录各平台调用限制,初步规划调用频率,预留2-3个备选方案,避免因单一方案限制导致进度卡顿。

  • 问题2:团队成员本地开发环境不一致(Python版本、依赖包版本差异),可能导致后续代码运行报错、协作效率低下; 解决方法:初步确定统一的Python版本,梳理项目所需核心依赖包,开始编写一键安装说明文档,计划下周完成环境统一配置。

四、下周工作计划(第2周)

  1. 完成音频识别SDK深入调研与选型,开展接口调用测试,确定最终选用方案;

  2. 完成大语言模型API深入调研、接口测试与选型,梳理接口鉴权、调用参数及返回结果解析逻辑;

  3. 统一团队开发环境,完成代码仓库(Gitee)搭建,制定分支管理规则;

  4. 搭建本地测试环境,开展最小Demo验证,确认技术路线可行性;

  5. 解决数据库本地同步问题,确定数据库选型方案。

五、本周总结

本周我顺利完成项目启动与前期筹备工作,明确了项目目标、核心需求及个人与团队分工,梳理了音频核心业务流程,同时启动了音频识别SDK与大语言模型API的初步调研,为项目后续推进奠定了坚实基础。目前项目整体节奏正常,团队协作顺畅,已初步解决启动阶段遇到的部分问题,但仍需在下周完成技术选型、环境统一、Demo验证等关键工作,确保项目顺利进入核心开发阶段。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐