目录
一、语音合成
小数据量语音合成
语音合成技术框架
多说话人语音合成
二、语音评测
语音测评技术框架
测评系统的问题&痛点
解决方向-算法
解决方向-端云一体平台
发音纠错
三、语音识别
语音识别技术框架
语音识别系统算法
四、总结
嘉宾介绍:
首页 科技周边 人工智能 作业帮语音技术实践

作业帮语音技术实践

Apr 12, 2023 am 08:55 AM
人工智能 作业帮 语音技术

嘉宾 | 王强强

整理 | 刘雨瑶

在此前由51CTO主办的AISummit全球人工智能技术大会中,作业帮的语音团队负责人王强强老师为广大听众带来了《作业帮语音技术实践》的主题演讲,从语音合成、语音评测、语音识别三个方面解读了作业帮的语音技术实践,内容覆盖语音识别中的端到端实现与数据高效利用、高并发场景中的语音发音纠错,以及模型的因素区分与抗干扰能力提升。

为了能让更多对语音技术感兴趣的同学了解到目前语音技术的发展态势与前沿优秀技术实践,现将王强强老师的演讲内容整理如下,希望能为诸君带来一些启发。

一、语音合成

小数据量语音合成

对于传统的语音合成技术而言,想要完整合成一个人的声音,需要十小时甚至更长时间的录音。这对于录音者而言是一个不小的挑战,很少有人能够在如此长的时间中始终保持良好的发音状态。而通过小数据量语音合成技术,我们仅需要使用录音者所说的几十句话、几分钟的语音,便能达到完整的语音合成效果。

小数据量语音合成技术大体分为两类。一类是对于标注和语音不匹配的情况,处理方式主要分为两种:一是自监督学习,通过自监督的算法学习得到建模单元和音频之间的对应关系,再通过特定人的标注语料进行Finetune,以达到比较好的合成效果;二是通过ASR识别未标注的语料,并利用TTS合成对偶函数、对偶学习的方式,逐步提升TTS的合成效果。

而对于文本和音频匹配的情况,主要的处理方式也分为两种:一是构建有标注语料的多语种预训练模型。另一种则是基于这种方案之上,同语种内的多个说话人有标注数据预训练,利用目标说话的人的数据进行Finetune,以达到预期的效果。

语音合成技术框架

作业帮语音技术实践

作业帮的语音合成技术框架,在声素部分使用了FastSpeech2。FastSpeech2拥有着合成速度快的主要优势,与此同时FastSpeech2还融合了Duration、Pitch、Energy Predictor,能够为我们提供更大的可操作性空间;而在声码器的选择上,作业帮语音团队选用了Multi-Band MelGAN,这是由于Multi-Band MelGAN拥有良好的合成效果,且合成速度非常快。

多说话人语音合成

在确定基础框架后,接下来要做的便是多说话人的语音合成。多说话人语音合成常见的思路是将Speaker Embedding信息加入到Encoder中,学习特定说话人的信息,而后利用模型训练多说话人的语音合成模型。最后再利用特定的说话人进行一些简单的Finetune。这套方案能够将十小时的录音需求压缩到一小时左右,但在实际中,采集一小时时长的、能够达到模型训练标准的录音还是存在一定难度。而小数据量语音合成的目标本质上是利用更少的声音,合成一个相对不错的声音。

因此,作业帮语音团队借鉴了M2VOC竞赛的冠军方案,最终选择了D-Vector和基于ECAPA的Speaker Embedding的组合,并进行了三重升级,包括Speaker Embedding的升级;将FastSpeech2使用的Transformer升级到Conformer;以及将Speaker的信息加入LayerNorm之中。

二、语音评测

语音测评技术框架

作业帮语音技术实践

作业帮的语音评测基础技术框架,本质上还是用GOP打分判断用户单词或者句子发音的好坏。但在模型方面已经升级到了Conformer以及CGC+attention-based这种完全端到端的模型训练流程。GOP非常依赖声音和音素,也就是建模单元对齐的程度,所以在训练模型时,我们加入了通过GMM模型获得的语料的对齐信息。通过完全的认证模型,加之对齐的相应信息,能够训练出一个效果非常不错的模型,结合两者的长处,保障GOP的得分相对准确。

测评系统的问题&痛点

测评场景天然对时延比较敏感,因此时延和网络是GOP评测系统落地过程中的两大问题。如果时延很高,实时性很差,整体的用户体验感就会受到很大的影响。此外,如果网络出现问题,用户的网络环境发生波动,再加上网络时延,很容易使用户感知的染色时间超过一秒,这会带来非常明显的感觉凝滞,使得整个的课程效果受到严重影响。

解决方向-算法

对于上述问题,从算法上可以通过Chunk Mask的方式解决时延以及内存过大的问题。Chunk向前最多看两帧向后最多看五帧,时延的问题就解决掉了。

在实际中真正算法去测试的时候,它的硬时延只有50毫秒左右,就是基本50毫秒就会激活这个词,50毫秒在人的感知上是很快的。所以至少在算法层面,解决了硬延迟的问题。这是我们做的第一个层面的工作。

解决方向-端云一体平台

作业帮语音技术实践

一套端云一体平台可以解决高并发以及由于网络传输而造成的问题。这个平台能够自动地判断用户的手机算力是否足够。如果足够的话,就会优先进行本地评测。如果算力不太够的话,就将这个请求发到云端,由云端来进行评测。若本地出了任何问题,对它的生命周期也是有把控的。

通过这套方案,我们解决了瞬间高并发所带来的问题,由于部分算力被转移到端上,云端只需要保留原来20%的机器就可以实现正常的运作,这大大的节省了资源。此外,在将算法做到本地化后,延迟的问题也得到了解决,对于大段的测评任务,能够实现良好的支撑,给用户带来更为优质的视听体验。

发音纠错

发音纠错的需求背景是语境问题和教育资源的稀缺,同样的,这个痛点可以利用测评技术解决。通过对测评技术的优化,可以判定发音正确与否,识别发音哪里存在问题。

在技术选型方面,虽然评测系统是基于GOP的稳定评测方案,但是GOP方案非常依赖音频和建模单元的对齐,如果起始时间不准确,其偏差就会比较大,区分性就会变差。因此原先的方案便不太适合这种纠音的场景。并且GOP的思路是通过一些专家知识,对读音进行纠正与指导,纠音中的漏读和增读GOP处理起来会非常痛,需要太多的人工支持。这便需要一个更灵活的方案,因此我们最后选择了ASR的方案来做发音纠错。

ASR方案很大的优势就是训练过程简单,不需要太多的对齐信息。即使读音错误,对上下文音素的判别也不会有太大的影响。ASR处理增读、漏读,有天然的理论上、技术上的优势。所以我们最终选了纯端到端的ASR模型来作为我们发音纠错的技术底座。

同时,作业帮也在此基础上做了一些优化及创新工作。第一,将先验的文本信息通过Attention模块加入到模型训练中;第二,通过随机替换的方式模拟出错以训练模型,使其有纠错能力;第三,由于模型区分度不够,我们对错误做了分层,有些细微的错误就不判错。通过以上方案,最终实现了虚警率的大幅下降,同时保障召回率损失不是特别大,诊断正确率也有提升。

三、语音识别

语音识别技术框架

作业帮的语音识别技术框架是端到端的语音识别框架,相对于原始的HMM-GMM/DNN方案有非常明显的优势:第一,避免了很多复杂地聚类操作以及对齐操作;第二,训练流程稍微简单;第三,端到端的框架不需要人工生成发音词典;第四,能够同时学习到音素信息和序列信息,相当于一起学习声学模型、语言模型。

作业帮语音技术实践

当然其劣势也比较明显,端到端模型刚开始难以利用更多的语音或文本数据,而标注语料成本是很高的。我们的要求是内部选型一定要达到的目的是必须有端到端的生成模型,必须跟上最新的算法,还能够将语料模型信息融合。

语音识别系统算法

作业帮语音技术实践

提到CTC-CRF,需要先认识CTC。CTC是为整句建模而生的,CTC出现后,训练整句的声学模型就不再需要做音素和音频之间的对齐。CTC的拓扑,一方面引入了一个Blank来吸收静音,能够把真正的有效的建模单元之外的静音给吸收掉。另一方面它算整句概率的时候,是按照π,使用了动态规划的算法,让整句的路径在一个相对合理的规模范围内,这样便能够大大减轻计算量。这是CTC非常具有开创性的工作。

作业帮语音技术实践

作业帮内部用的CTC-CRF语音识别系统。通过CRF的方式理解公式并拟合整句概率。整句概率是输入为X的一个序列,输出为π(π是用上文CTC的拓扑来表示),所以称之为CTC-CRF。

其中CRF很重要的是势函数以及势函数整个规划。势函数是输入为X,输出为πt的条件概率,再加上一个整句的概率,它们其实就对应CRF中的节点和边。

作业帮语音技术实践

CTC-CRF与常用的声学模型思路存在一定区别。常用的声学模型有下面四个DNN-HMM、CTC、RNNT、AED。

RNNT基本的条件概率模型,是输入X、输出Y的概率,拟合的目标就是maxθ它的参数,让这个概率最大化。

CTC如图,CTC的一个假设很明显,就是条件无关假设,它的状态和状态之间是没有联系的,没有考虑它们之间的条件概率关系。

RNNT考虑了当前状态跟所有历史状态的条件概率,如图能明显看出。AED也是这样,是考虑当前状态跟历史状态的条件概率。

但CTC-CRF其实不是基于条件概率的局部归一化模型,它是一个整句归一化的模型,是全局归一化的模型。所以我们看到它不仅依赖于历史,还依赖于未来,它其实是能够考虑整句的概率信息的。这是它们在理论上的一个最大的不同。

作业帮语音技术实践

我们对于CTC-CRF的利用,首先在Loss层,这是一个标准现阶段用的Encoder、Decoder,然后加CTC-CRF、Loss,训练声学模型,端到端声学模型的流程。Loss层上用的是CTC-CRF Loss,而不是原来的CTC Loss。CTC-CRF是Phone级别建模的,但是Attention这里,我们的Attention做的时候考虑了Word级别的建模。使用了Phone和Word级别两重特征去训练模型。

作业帮语音技术实践

最后,关于具体效果方面,这是几个开源工具在Aishell1测试集上效果,同时标出了参数数量。能看到基于CTC-CRF的相对来说还是比较有优势的。

有了算法,理论上的效果也非常不错,结合业务方看,业务方还是有不同的,但是所有的业务方有一个共同的诉求,就是效率上要达到最优。为了解决这个问题,有了热词方案。热词方案能够完美的解决这个问题、快速地识别出业务方想要识别出的词。

作业帮语音技术实践

常见的热词方案是向TLG加入热词展开后的有向图。上图是常见的三级Ngram的WFST解码图,实线表示条件概率,虚线是回退概率。

作业帮语音技术实践

作业帮的方案是基于前缀自动机的热词方案,这是因为热词的规模大到会产生效率瓶颈。用前缀自动机解多模式字符串的匹配的问题就很合适,尤其是对一个串中、命中了、覆盖了热词表中的某个热词。如sher这样一个序列,它覆盖了两个热词,就是she和her,在这个前缀自动机方案中,检索完she之后,可以直接跳到her,能够快速的找到字符串中包含的多个热词。结论是,这个方案够快,还能够节省一部分的存储空间。

作业帮语音技术实践

这个方案实际使用的时候也出现了一些问题。构建前缀树还是需要遍历整个前缀树,代价比较大。因为要实时添加热词,随时添加,随时生效。为了解决这个问题,最后也做了一两个树,一个是普通前缀树,一个是前缀自动机,就是用户热词是加在普通前缀树里的,普通前缀树会马上生效,相当于是随时上线,可以激活热词了。超过一个阈值之后,前缀自动机会自动构建,这样就基本上满足了一批用户的诉求。

四、总结

上文主要是通过三个方向,每个方向一到两个点,这种技术解密的方式梳理了作业帮语音技术的落地以及落地中执行过程中遇到的问题,以及最后怎么输出一套相对能够满足业务方诉求的方案。

但是除了这三个点,语音组还积累了很多语音的原子能力。评测层面做得非常细,甚至增读、漏读、连读、浊化、重音、升降调都做了,识别还增加了中英文混合识别、声纹、降噪,以及年龄判别。

有了这些原子能力,算法层面对于业务面的支撑和服务就更加得心应手了。

嘉宾介绍:

王强强,作业帮语音技术团队负责人。在加入作业帮之前,曾任职于清华大学电子工程系语音处理与机器智能实验室,负责语音识别算法落地,搭建工业级解决方案。 2018 年加入作业帮,负责语音相关算法研究和落地,主导了语音识别、评测、合成等算法在作业帮的落地实践, 为公司提供整套语音技术解决方案。

以上是作业帮语音技术实践的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1276
29
C# 教程
1256
24
字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

使用Rag和Sem-Rag提供上下文增强AI编码助手 使用Rag和Sem-Rag提供上下文增强AI编码助手 Jun 10, 2024 am 11:08 AM

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉 微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉 Jun 11, 2024 pm 03:57 PM

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

七个很酷的GenAI & LLM技术性面试问题 七个很酷的GenAI & LLM技术性面试问题 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

你所不知道的机器学习五大学派 你所不知道的机器学习五大学派 Jun 05, 2024 pm 08:51 PM

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息 SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息 Jul 17, 2024 pm 06:37 PM

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

SK 海力士 8 月 6 日将展示 AI 相关新品:12 层 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日将展示 AI 相关新品:12 层 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)发布博文,宣布将出席8月6日至8日,在美国加利福尼亚州圣克拉拉举行的全球半导体存储器峰会FMS2024,展示诸多新一代产品。未来存储器和存储峰会(FutureMemoryandStorage)简介前身是主要面向NAND供应商的闪存峰会(FlashMemorySummit),在人工智能技术日益受到关注的背景下,今年重新命名为未来存储器和存储峰会(FutureMemoryandStorage),以邀请DRAM和存储供应商等更多参与者。新产品SK海力士去年在

See all articles