论文链接https://arxiv.org/pdf/2311.07919.pdf

源代码https://github.com/QwenLM/Qwen-Audio

一、背景

大型语言模型(LLMs)由于其良好的知识保留能力、复杂推理解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知文本模态(如图像音频)的能力。作为一种重要模态语音提供了超越文本的多样且复杂信号,如人声中的情感、语调和意图,自然声音中的火车汽笛、钟声和雷声,以及音乐中的旋律。使LLMs能够感知理解丰富的音频信号以进行音频交互引起了广泛关注

以前关于遵循指令工作主要是通过继承大型(多模态)LLMs的能力,采用轻量级监督微调来激活模型的能力以与用户意图对齐。然而,由于缺乏能够处理各种音频类型任务的预训练音频语言模型,大多数工作音频交互能力上受到限制。现有的代表性音频语言多任务语言模型,如SpeechNet、SpeechT5、VIOLA 、Whisper和Pengi,仅限于处理特定类型音频,如人声或自然声音。

二、简介

Qwen-Audio(Qwen 大型音频语言模型)是阿里云提出的大型模型系列Qwen(简称Tongyi Qianwen)的多模态版本。Qwen-Audio 接受各种音频(人类语音、自然声音、音乐歌曲)和文本作为输入输出文本。Qwen-Audio的贡献包括:

为了促进音频-文本多模态社区的增长和发展,我们引入了Qwen-Audio一个大规模音频语言模型。Qwen-Audio一个以音频和文本输入条件的多任务语言模型,扩展了Qwen-7B语言模型,通过连接单个音频编码器有效地感知音频信号。与以往主要迎合单一类型的音频(如人声)的工作不同,或者专注于特定任务(如语音识别字幕),或者将模型限制在单一语言上,我们扩大了训练规模,涵盖了超过30个任务、八种语言和各种音频类型,以推进通用音频理解能力的发展。

 多任务和多数据集共同训练面临的一个重要挑战是不同数据集关联文本标签的相当大的变化。这种变化源于任务目标、语言、注释粒度和文本结构结构化或非结构化)的差异。为了解决这个一对多的挑战,我们精心设计一个多任务训练框架,将解码器输出条件为一系列分层标签。这种设计鼓励知识共享,并通过共享和指定标签来减少干扰。此外,我们还将语音识别基于字级时间预测(SRWT)的任务结合起来进行训练,这在以前的多任务学习研究中通常被忽视。我们发现这个任务不仅在超越语音信号基于语音问题回答任务(如声音和音乐)方面改进了接地任务,还改善了ASR的性能

三、方法与模型 

本文介绍了Qwen-Audio和Qwen-Audio-Chat的详细信息,这两个系统旨在实现基于人类指令的通用音频理解和灵活交互我们的模型训练过程包括两个阶段:多任务预训练和监督微调。

 

Qwen-Audio模型的结构如图所示。Qwen-Audio包含一个音频编码器一个大型语言模型。给定成对数据(a, x),其中a和x表示音频序列和文本序列,训练目标最大化下一个文本标记概率

 在给定音频表示和之前的文本序列x<t的条件下,θ和ϕ分别表示llm(large language model,大语言模型)和音频编码器的可训练参数

1、音频编码器

Qwen-Audio采用单个音频编码器处理各种类型的音频。音频编码器的初始化基于Whisper-large-v2模型 ,这是一个包两个卷积采样层作为起始层的32层Transformer模型。音频编码器由640M个参数组成。虽然Whisper针对语音识别翻译进行监督训练的,但它的编码表示仍然包含丰富的信息,如背景噪音,甚至可以用于恢复原始语音。为了预处理音频数据,Whisper将其重新采样为16kHz的频率,并使用25ms窗口大小和10ms的跳跃大小将原始波形转换为80通道的Mel频谱图。此外,还加入了一个步幅为2的池化层以减少音频表示的长度。因此,编码输出的每一帧大约对应于原始音频信号的40ms片段。在训练时应用了SpecAugment作为数据增强方法

2、大语言模型

Qwen-Audio采用了一个大语言模型作为其基础组件。该模型使用从Qwen-7B导出的预训练权重进行初始化。Qwen-7B是一个32层Transformer解码模型,隐藏大小为4096,总共有77亿个参数。

3、多任务预训练

受Whisper的启发 ,为了将不同类型的音频结合起来,我们提出了一个多任务训练格式框架如下所示: 

4、监督微调

多任务模型的广泛预训练使其具备了广泛的音频理解能力。在此基础上,我们采用基于指示的微调技术来提高模型与人类意图的对齐能力,从而得到一个交互式聊天模型,命名为Qwen-Audio-Chat。 

为了实现这一目标,我们为每个任务手动创建演示。这些演示包括原始文本标签、问题答案然后,我们利用GPT-3.5 根据提供的原始文本标签生成更多的问题答案。此外,我们还通过手动注释、模型生成策略串联方式创建了一个音频对话数据集。这个数据集帮助我们将推理、故事生成和多图像理解能力融入到我们的模型中。

为了有效处理多音频对话多个音频输入,我们引入了使用 “Audio id:” 标记不同音频的约定,其中 id对应音频输入对话顺序。在对话格式方面,我们使用ChatML (Openai)格式构建我们的指示微调数据集。在这个格式中,每个交互的陈述都用两个特殊标记(和)标注以便促进对话终止

为了在多轮对话中实现对音频和纯文本模态的灵活输入,我们在训练过程中使用了上述提到的音频为中心的指令数据和纯文本指令数据的组合。这种方法使模型能够无缝处理多种形式的输入。指令调整数据的总量为20k

 原文链接:开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio! (qq.com)

原文地址:https://blog.csdn.net/weixin_62828995/article/details/134654092

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_19609.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注