模型基座
- 采用OpenAI开源的whisper模型 模型能力和国产语音模型不相上下 胜在相关生态丰富
- 具体部署上采用社区开发推理引擎Faster-Whisper
faster-whisper 实际上是把 OpenAI 的原始模型通过 CTranslate2 进行了转换,并封装了一层好用的 Python 接口是部署在Linux服务器上的最优开源选择
优化思路
Initial_prompt
- 是模型听音频前自带的参考文本
- 可以设定场景 (你在探讨核电相关的话题)
- 书写风格引导(中英文 繁简字体)
- 可以固化在KV Cache中 不影响音频处理速度
- 不建议在里面放高频词
initial_prompt有长度限制
可能会强行往这些词上靠
静音检测
- 集成VAD算法,切掉没声音的段落,大幅提高模型性能
音频处理
- whisper模型强制要求14kHz 需要重采样
后处理
- 这个部分一定要选择纯文字、速度快的小模型
- 基础格式化(日期、时间、标点)
- 语义纠偏
- 内容加工(口语顺滑、分段、逻辑加工)
个性化优化
- 工程上的实现明显比复杂,性能提升边际效益开始减小
- 过多的优化和后处理可能会影响速度
- 纠错映射表 强制替换手动更改过的名词
- 环境感知 根据历史记录和本地知识库的内容来扫描高频词汇
部署方案选择
- 考虑到B端客户隐私要求高
- 处于同一类的使用场景,可以针对公司做个性化优化
- 语音模型开销小且全开源
- 推荐部署在客户服务器上
可行性评价
- 该项目生态丰富只需要简单拼接 比较容易达到可用、易用的水平,可以快速落地
- 但是后续优化在工程难度和内存占用上都会提出比较高的要求,并且有可能出现负提升
- 建议前期不要做过多的个性化优化