基于TasTas的五说话人语音分离

本DEMO主要介绍TasTas，一种五说话人语音分离的最新技术。

TasTas旨在解决多说话人单声道语音分离（也称为鸡尾酒会问题）的问题。 TasTas引入了两个简单但有效的方法，一个是迭代的多阶段细化分离方案，另一个是通过分离后的语音和原始语音之间的说话人身份一致性来纠正不完美分离的语音，从而提高了语音分离的性能。我们在基准数据库WSJ0-2mix上的实验结果显示SDRi为20.55dB，SI-SDRi为20.35dB，PESQ为3.69，ESTOI达到94.86％，这表明目前我们TasTas技术的性能在该基准数据库上处于世界第一。该研究发表于InterSpeech2020（注：语音领域的最权威会议）。同时我们也改善TasTas的训练方法，让其可以完成5个说话人的语音分离问题。目前在5说话人语音分离问题上，特别是在WSJ0-5mix上，我们的TasTas性能处于世界第一梯队。

您可以试听下TasTas分离的一些声音样本:

WSJ0-2mix数据库中的语音（2说话人语音分离）

两人的混合语音	原始真实分离语音	TasTas分离的语音

WSJ0-5mix数据库中的语音（5说话人语音分离）

五人的混合语音	原始真实分离语音	TasTas分离的语音

References

[1]. Ziqiang Shi, Rujie Liu, Jiqing Han. Speech Separation Based on Multi-Stage Elaborated Dual-Path Deep BiLSTM with Auxiliary Identity Loss. Interspeech 2020. https://arxiv.org/abs/2008.03149

[2]. Ziqiang Shi, Rujie Liu, Jiqing Han. LaFurca: Iterative Refined Speech Separation Based on Context-Aware Dual-Path Parallel Bi-LSTM. https://arxiv.org/abs/2001.08998

[3]. Ziqiang Shi, Jiqing Han. Toward Speech Separation in The Pre-Cocktail Party Problem with TasTas. https://arxiv.org/abs/2009.03692

基于TasTas的五说话人语音分离

TasTas网络结构

WSJ0-2mix上的实验结果（2说话人语音分离）

WSJ0-5mix上的实验结果（5说话人语音分离）

WSJ0-2mix数据库中的语音（2说话人语音分离）

WSJ0-5mix数据库中的语音（5说话人语音分离）

References