Look once to hear智能耳戴式系统:在嘈杂环境中专注于目标语音的语音识别技术

目标言语听力与嘈杂的例子

在拥挤的环境中,人脑可以专注于目标说话者的语音,前提是先了解目标说话者的声音如何。我们推出了一种新颖的智能耳戴式系统——Look once to hear,可以实现此功能,使目标语音听力能够忽略除目标说话者之外的所有干扰语音和噪声。一种简单的方法是需要一个干净的语音示例来注册目标说话者。

然而,Look once to hear与可听设备应用领域并不一致,因为在现实场景中获得干净的示例具有挑战性,从而产生了独特的用户界面问题。我们展示了第一个注册界面,佩戴者注视目标说话者几秒钟,以捕获目标说话者的单个、短的、高噪声的双耳示例。该噪声示例用于在存在干扰扬声器和噪声的情况下进行登记和后续语音提取。

Look once to hear使用不到 5 秒的嘈杂注册音频,将信号质量提高了 7.01 dB,并且可以在嵌入式 CPU 上在 6.24 毫秒内处理 8 毫秒的音频块。我们的用户研究证明了在以前未见过的室内和室外多路径环境中对现实世界静态和移动扬声器的推广。最后,与干净的示例相比,我们针对嘈杂示例的注册界面不会导致性能下降,同时方便且用户友好。退一步来说,本文在利用人工智能增强人类听觉感知方面迈出了重要一步。

论文链接:https://huggingface.co/papers/2405.06289

项目文件:https://github.com/vb000/LookOnceToHear

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

Look once to hear智能耳戴式系统:在嘈杂环境中专注于目标语音的语音识别技术

系统概念

“Look once to hear”:这是一种智能可穿戴听觉系统,用户只需看向目标说话者几秒钟,系统即可学习目标说话者的声音特征,并在之后的听力过程中提取目标说话者的声音,即使用户不再看向说话者。

研究背景

在拥挤的环境中,人脑能够专注于目标说话者的声音,前提是我们事先知道他们的声音特征。
论文提出了一个新颖的智能听觉系统,它能够在存在干扰声音的情况下,让用户选择只听到目标说话者的声音。

技术挑战

传统的深度学习方法需要目标说话者的干净语音样本来进行训练,但在现实世界中获取这样的样本是具有挑战性的。
Look once to hear提出了一种新的注册界面,使用高度嘈杂的双耳声音样本来注册目标说话者,而不是要求用户提供干净的声音样本。

系统实现

  1. 注册网络:设计了两种不同的注册网络——波束形成网络和知识蒸馏网络,用于从短暂的嘈杂双耳声音样本中生成目标说话者的嵌入向量。
  2. 实时嵌入式目标语音听觉网络:使用生成的嵌入向量,通过优化的网络实时提取目标语音,该网络能够在嵌入式IoT CPU上运行。

现实世界多径、HRTF和移动性的泛化:提出了一种训练方法,即使只用合成数据训练,也允许系统泛化到现实世界中未见过的目标和干扰说话者及其头部相关传递函数(HRTF)。此外,系统还通过微调机制处理移动声源和听者头部方向的突然变化。

Look once to hear智能耳戴式系统:在嘈杂环境中专注于目标语音的语音识别技术

Setup 设置:

conda create -n ts-hear python=3.9
conda activate ts-hear
pip install -r requirements.txt
  • Training 训练:

训练数据包括干净的语音、背景声音、头部相关传递函数 (HRTF) 和双耳房间脉冲响应 (BRIR)。我们使用 Scaper 工具包来综合生成音频混合物。每个音频混合都是在训练或评估期间使用 Scaper 的 generate_from_jams 函数在 .jams 规范文件上即时生成的。

我们在这里提供独立的数据集,以及我们用于训练的源 .jams 规范。要执行训练运行,只需下载此处提供的 .zip 文件,将内容解压缩到 data/ 目录并运行以下命令:

python -m src.trainer --config <configs/tsh.json> --run_dir <runs/tsh> [--frac <0.05 (% train/val batches)>]
  • 要恢复部分运行:
python -m src.trainer --config <configs/tsh.json> --run_dir <runs/tsh>
  • Evaluation 评估:

以与训练样本类似的格式对语音混合进行评估。此处提供了嵌入模型和目标语音听力 (TSH) 模型的检查点。

python src.ts_hear_test
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索