谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型-人工智能-PHP中文网

AudioPaLM

实验部分

首页

科技周边

人工智能

谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型

PHPz

Jun 30, 2023 pm 01:49 PM

谷歌模型

大型语言模型以其强大的性能及通用性，带动了一批多模态的大模型开发，如音频、视频等。

语言模型的底层架构大多是基于Transformer，且以解码器为主，所以无需过多调整模型架构即可适应其他序列模态。

最近，谷歌发布了一个统一的语音-文本模型AudioPaLM，将文本和音频的token合并为一个多模态联合词汇表，再结合不同任务描述标记，可以实现在任意语音和文本的混合任务上训练decoder-only模型，包括语音识别（ASR）、文本到语音合成、自动语音翻译（AST）和语音到语音翻译（S2ST）等，将传统上由异质模型解决的任务统一到一个架构和训练流程中。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

论文链接：https://arxiv.org/pdf/2306.12925.pdf

示例链接：https://google-research.github.io/seanet/audiopalm/examples/

此外，由于AudioPaLM的底层架构是一个大型的Transformer模型，可以用对文本进行预训练的大型语言模型的权重来初始化，可以从PaLM等模型的语言学知识中受益。

从实现效果来看，AudioPaLM在AST和S2ST基准上取得了最先进的结果，并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示，AudioPaLM模型能够对新的说话人语音迁移来执行S2ST，在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力，可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模，其中文本和音频在输入到模型之间已经进行分词，所以输入只是一个整数序列，在输出端再进行反分词（detokenized）操作返回给用户。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中，包括从现有的语音表征模型中抽取为嵌入（embedding），并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入，并通过k-means将其量化，而这篇论文中，研究人员试验了三种方案：

w2v-BERT：使用在多语言数据上训练的w2v-BERT模型，而非纯英语；并且在进行k-means聚类之前没有进行归一化处理，否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token，词表大小为1024

USM-v1：使用性能更强的、20亿参数的通用语音模型（USM）编码器执行类似的操作，并从中间层提取嵌入；

USM-v2：用辅助ASR损失来训练，并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中，除了输入和最后的softmax输出层外，都不涉及到建模token的数量，并且在PaLM架构中，输入和输出矩阵的权重变量时共享的，即互为转置。

所以只需要将嵌入矩阵的大小从（t × m）扩展到（t+a）×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型，其中t是文本词表的大小，a是音频词表的大小，m是嵌入维度。

为了利用预训练的文本模型，研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为，前t个token对应于SentencePiece文本标记，后面a个token代表音频标记，虽然文本嵌入式复用的预训练权重，但音频嵌入是全新初始化的，必须进行训练。

实验结果显示，与从头重新训练相比，基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形，研究人员试验了两种不同的方法：

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token，再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练，语音条件为3秒长的语音样本，同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件，模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音，当原始音频短于3秒时，通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据：

1. 音频Audio：源语言的语音（speech）

2. 转录Transcript：音频数据中语音的转录

3. 翻译音频Translated Audio：音频中语音的口语翻译

4. 翻译转录Translated Transcript：音频中语音的书面翻译

组件任务包括：

1. ASR（自动语音识别）：转录音频以获得转录文本

2. AST（自动语音翻译）：翻译音频以获得翻译后的转录文本

3. S2ST（语音到语音翻译）：翻译音频以获得翻译后的音频

4. TTS（文本到语音）：读出转录的内容，以获得音频。

5. MT（文本到文本的机器翻译）：翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务，所以研究人员选择向模型发出信号，告诉模型应该对给定的输入执行哪项任务，具体方法为：在输入前加上一个标签，指定任务和输入语言的英文名称，输出语言也可以选择。

例如，想要模型对法语语料进行ASR时，分词后的音频输入前面要加上标签[ASR French]；要在英语中执行TTS任务，文本前面需要加上[TTS English]；要执行从英语到法语的S2ST任务，分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合，对较大的数据集进行权重降低。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

实验部分

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型，在ASR上性能虽然不是最优，但效果也非常好。

除了评估语音内容的翻译质量外，研究人员还评估了AudioPaLM生成的语言是否质量足够高，并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器，给定一个音频样本，在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量，研究人员使用的现成的说话人验证模型，并计算源（用SoundStream编码/解码）和翻译语音的嵌入之间的余弦相似度；还衡量了从源音频到目标音频的声学特性（录音条件、背景噪音）。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度，两项研究中都使用相同的样本集合。

由于语料的质量参差不齐，有些含有响亮的重叠语音（例如，背景中播放的电视节目或歌曲）或极强的噪音（例如，衣服与麦克风摩擦），类似的失真效果使得人类评分员的工作变得复杂，因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供，从1（质量差或完全不同的声音）到5（质量好，相同的声音）。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中，在音频质量和语音相似度方面都明显优于基线Translatotron 2系统，并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度，在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组（法语、德语、西班牙语和加泰罗尼亚语与其他语言）的系统，发现这些组之间的指标没有明显差异。

以上是谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1655

CakePHP 教程

1413

Laravel 教程

1306

PHP教程

1252

C# 教程

1226

显示更多

Related knowledge

芝麻开门交易所网页版登入口最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作，含登录步骤、找回密码流程，还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法，助你顺利登录平台。

芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所（Gate.io）网页版和Gate交易App的注册流程。无论是网页注册还是App注册，都需要访问官方网站或应用商店下载正版App，然后填写用户名、密码、邮箱和手机号等信息，并完成邮箱或手机验证。

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App，保障您的账户安全至关重要。

欧易okex账号怎么注册、使用、注销教程 Mar 31, 2025 pm 04:21 PM

本文详细介绍了欧易OKEx账号的注册、使用和注销流程。注册需下载APP，输入手机号或邮箱注册，完成实名认证。使用方面涵盖登录、充值提现、交易以及安全设置等操作步骤。而注销账号则需要联系欧易OKEx客服，提供必要信息并等待处理，最终获得账号注销确认。通过本文，用户可以轻松掌握欧易OKEx账号的完整生命周期管理，安全便捷地进行数字资产交易。

如何在Bitget官网注册并下载最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤，适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息，包括官网、App Store 和 Google Play，并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App，包括应用商店、官网 APK 下载和官网跳转，并完成注册、身份验证和安全设置。此外，指南还涵盖了常见问题和注意事项，例如

为什么说Bittensor是AI赛道的'比特币”？ Mar 04, 2025 pm 04:06 PM

原文标题：Bittensor=AIBitcoin?原文作者：S4mmyEth，DecentralizedAIResearch原文编译：zhouzhou，BlockBeats编者按：本文讨论了Bittensor，一个去中心化的AI平台，希望通过区块链技术打破集中式AI公司的垄断，推动开放、协作的AI生态系统。Bittensor采用子网模型，允许不同AI解决方案的出现，并通过TAO代币激励创新。尽管AI市场已成熟，但Bittensor面临竞争风险，可能会受到其他开源

binance怎么注册详细教程（2025新手指南） Mar 18, 2025 pm 01:57 PM

本文提供Binance币安注册及安全设置的完整指南，涵盖注册前的准备工作（包括设备、邮箱、手机号及身份证明文件准备），详细介绍了官网及APP两种注册方式，以及不同级别的身份验证（KYC）流程。此外，文章还重点讲解了如何设置资金密码、开启双重验证（2FA，包括谷歌身份验证器和短信验证）以及设置防钓鱼码等关键安全步骤，帮助用户安全便捷地注册和使用Binance币安平台进行加密货币交易。请务必在交易前了解相关法律法规及市场风险，谨慎投资。

See all articles

谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型

AudioPaLM

实验部分

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题