中文语音识别(人工智能语音识别技术)

中文语音识别(人工智能语音识别技术)

对话式人工智能正在改变我们与计算机交互的方式。简单来说,对话式 AI 就是人与机器之间的交互,它识别语音和文本、意图以及各种语言,以模仿自然语言或人类对话。

我们可以看到,如今语音识别的应用远不止于“替代输入法”,手机中必备的语音助手、小屏的便携设备,乃至于智能家居、无人驾驶汽车语音指令交互等众多场景中,语音接入都扮演着不可或缺的角色。然而,当下基于深度学习的语音识别技术应用在实践场景下依然有着门槛偏高、难以快速普及的难题。

而 Nemo,一个基于 PyTorch 的开源工具包,正是为对「对话式人工智能」感到好奇的开发者而打造,它允许开发者快速构建、训练和微调对话式人工智能模型。在使用预训练模型基于自定义数据构建高精度模型的过程中,微调起到了重要作用,这属于一种迁移学习技术,通过垂直领域数据集与预训练模型的结合,可以简化训练并提升模型在作用场景的识别能力。

NVIDIA 联合 InfoQ,为广大有高性能计算和人工智能开发需求的开发者提供一系列 AI 开发相关的在线培训课程,从理论到实践,打破门槛,带你快速上手。

2021 年 4 月 7 日 20 点 – 21 点 30 分,NVIDIA 开发者社区经理李奕澎将为大家带来公开课第四期——使用 Nemo 快速完成自动语音识别中迁移学习的任务。

本次在线研讨会主要针对有语音语义和人工智能开发需求的开发者,通过本次在线研讨会,你可以:

了解 ASR 的工作流程和系统架构

获得 ASR 预训练模型 Quartznet 详解

学习使用 Nemo 快速完成中文自动语音识别应用

掌握适用于 Nemo 自定义数据集的建立方法及格式规范

掌握结合自定义数据集和预训练模型完成迁移学习任务

……

发表评论

登录后才能评论