包括低延时声源分离单元的听力装置的制造方法
【技术领域】
[0001] 本申请涉及听力装置,尤其涉及多声源环境中的声源分离。本发明具体涉及包括 用于提供表示来自多个声源产生的声音环境的声音的一个或多个电输入信号的输入单元 的听力装置。
[0002] 本申请还涉及多声源环境中分离声源的方法。
[0003] 本申请还涉及包括处理器和程序代码的数据处理系统,程序代码使得处理器执行 本发明方法的至少部分步骤。
[0004] 本发明的实施例如可用在下述应用中:听力装置如助听器、头戴式耳机、耳麦、有 源耳朵保护系统、免提电话系统、移动电话、远程会议系统、广播系统、卡拉OK系统、教室放 大系统等。
【背景技术】
[0005] 音频声源分离包括分离音频混合物(音频混合物包括来自声场中混合的多个声 源的声音)内的不同成分声源的任务。目前,解决该问题的大多数方法已"离线"执行,意 味着整个音频混合物在分离时存在(通常为数字式录音的形式),而不是"实时"存在,其中 随着新的音频数据进入系统,声源被分离。在鸡尾酒会情形下,多个竞争性讲话者的存在使 得听单一声源传输的信息很困难,但成功的声源分离能够一次向听者呈现仅从单一讲话者 呈现的?目息。
[0006] 为使声源分离可用在真实通信情形中,其应实时进行或以非常低的延时进行。如 果在讲出的音频和分离的音频之间出现明显的处理时延,听者可能被讲话者嘴巴运动和对 应的音频之间的不同步弄得烦恼不安,及较少获益于可能的唇读。因此,以低延时(如在进 入和离开系统的音频样本之间低于20ms)运行的声源分离方法是有利的。当前的(基于附 加混合模型的)声源分离方法依赖于使用相当长的分析帧(通常为>50ms级),如果直接实 施,其将违反低延时要求。
[0007] 在本说明书中,仅考虑我们称为"数据延时"的延时,因为假定在正确的实施和计 算能力下实际的处理算法可及时执行。
[0008] 针对两讲话者混合问题存在多个解决方案。
[0009] -些对实时非负矩阵因数分解(NMF)的研究已提供好的结果,但并未考虑处理足 够小以产生助听器应用所需要的延时性能(<20ms)的窗口大小。同样,概率潜在分量分析 (PLCA)方法也主张实时性能,但作用于长度为64ms的帧时,其不满足助听器用户的延时需 求。
[0010] 直到目前为止,大多数基于NMF的算法已设计成"离线"运行,然而,将要进行分离 /增强的整个混合信号立刻可用于处理算法。
[0011] 尽管已报导一些提供实时解决方案的尝试,但仍需要在正常运行期间在听力装置 中给出令人满意的结果的解决方案。
【发明内容】
[0012] 本发明提出使用将要分离的每一声源特有的字典及专用的帧处理方法解决实时 声源分离的问题,以提供增强的分离,即使对于短处理帧也是如此(其产生最低延时)。通 过将先前的输入帧的高速缓存保存在循环缓冲器中,可得到将基于较大的时间上下文输出 的当前帧的滤波器系数。此外,相较于单独使用短输入帧,可获得更好的低延时声源分离性 能。
[0013] 本申请的目标由所附权利要求限定的及下面描述的发明实现。
[0014] 听力装詈
[0015] 一方面,本申请的目标由一种听力装置实现,其包括:
[0016] -输入单元,用于递送表示包括至少两个声源的音频信号的时变电输入信号;
[0017] -适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及
[0018] -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A, L个音频样本计划分开在各个声源中;
[0019] -已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一条目 (记录的声音例子)称为原子,这些原子源自来自大小对应于合成和分析缓冲器单元的第 一和第二缓冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲 器的音频样本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器 的原子构成分析字典。
[0020] 听力装置还包括声源分离单元,用于分离电输入信号以提供表示至少两个声源的 至少两个分离信号,声源分离单元配置成,如果原子在数据库的分析字典中,确定最后A个 音频样本的最佳表示(W),及通过使用最佳表示(W)组合数据库的合成(重构)字典中的原 子而产生至少两个分离信号。
[0021] 本发明基于方法的增强最后L个样本与最后A个样本的分离的能力,其中L〈A,同 时分离L个音频样本中存在的各个声源(如话音)。该方法从由长度为A的所记录例子组 成(或源自其)的数据库计算最后A个音频样本的表示,表示W的定义,如加权和的权重, 如组分(如附加)模型定义的,之后应用于来自长度为L的数据库的所记录例子以提供合 成缓冲器的当前内容的当前分离信号。
[0022] 在实施例中,至少两个声源包括至少一目标声源。在实施例中,至少两个声源包括 噪声声源。在实施例中,至少两个声源包括目标声源和噪声声源。在实施例中,在特定时间 点或时间间隔仅存在目标声源和噪声声源。在实施例中,至少两个声源包括两个以上不同 的目标声源。在实施例中,至少两个声源包括三个以上不同的目标声源。在本说明书中,术 语"目标声源"意为用户有意向注意的声源。在本说明书中,术语"目标声源"意为对其存 在学习的数据库的声源(包括分析和重构字典以用在根据本发明的声源分离中)。
[0023] 在实施例中,听力装置包括用于按时频表示(k,m)提供分析和/或合成缓冲器的 内容的时频(TF)转换单元。在实施例中,时频转换单元提供电输入信号在多个频带、多个 时刻的时间段(如基于时间帧接时间帧地,例如对应于分析和/或合成时间帧/缓冲器),k 为频带指数,m为时间指数,其中(k,m)定义包括电输入信号对应于频率指数k和时刻m的 复值或实值形式的信号分量的特定时频窗口或单元。在实施例中,仅考虑信号的量值。在 实施例中,TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信 号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。在实施例中,TF转换单 元包括用于将时变输入信号转换为频域中的(时变)信号的傅里叶变换单元,如离散傅里 叶变换(DFT)。在实施例中,听力装置考虑的、从最小频率心"到最大频率f _的频率范围 包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。 在实施例中,听力装置的正向和/或分析通路的信号拆分为NI个频带,其中NI如大于5,如 大于10,如大于50,如大于100,如大于500,其中至少部分个别进行处理。在实施例中,听 力装置适于在NP个不同频道处理正向和/或分析通路的信号(NPSNI)。频道可以宽度一 致或不一致(如宽度随频率增加)、重叠或不重叠。
[0024] 在实施例中,数据库的原子在时域或(时_)频域进行表示。
[0025] 在实施例中,听力装置包括时-频域到时域转换单元,用于提供分离信号的时域 表不。
[0026] 在实施例中,声源分离单元包括循环分析和合成缓冲器和/或时域到时-频域转 换单元和/或时-频域到时域转换单元。
[0027] 在实施例中,听力装置包括特征提取单元,用于提取分析缓冲器和/或合成缓冲 器的内容的特性特征。
[0028] 在实施例中,特征提取单元配置成按时频表示提供特性特征。特性的例子可以是 特定声源在时频域的短声音例子(即短于100ms)(如图3B、3C中所示)。
[0029] 在实施例中,声源分离单元配置成使声源分离基于非负矩阵因数分解(NMF)、隐马 尔科夫模型(HMM)或深层神经网络(DNN)。
[0030] 在实施例中,数据库中每一记录的声音例子由源自分别来自第一和第二缓冲器的 音频样本的原子对组成,第一和第二缓冲器大小对应于合成和分析缓冲器单元。
[0031] 在实施例中,数据库的每一对应的原子对包括其源自的声源的标识符,如其话音 由特定的一组原子对表示的人的姓名,或声源类型,或声源数量,如声源#1、声源#2等。
[0032] 在实施例中,数据库包括针对每一声源的分析和重构字典。分析和重构字典中的 每一原子与另一字典(源自同一声音元素或为其特性)中的对应原子相关联。在实施例中, 每一字典或字典的每一原子与特定声源如声源1、声源2、声源3相关联。
[0033] 在实施例中,各个字典的大小通过标准数据减小技术如K平均聚类或通过在字典 学习中引入稀疏限制而减小。
[0034] 在实施例中,声源分离单元配置成使用声源标识符产生至少两个声源。在实施例 中,声源分离单元配置成使用组分模型产生至少两个声源。在实施例中,组分模型包括优化 程序,如最小化程序。在实施例中,声源分离单元配置成使观测向量X及其近似值交之间的 发散函数(如Kullback-Liebler(KL)发散)最小化。
[0035] 在实施例中,听力装置包括用于控制以预定更新频率更新分析和合成缓冲器的控 制单元,及配置成在每次更新时将从输入单元接收的最后H个音频样本保存在分析和合成 缓冲器中并抛弃分析和合成缓冲器中保存的最旧的H个音频样本。在实施例中,分析和合 成缓冲器的每次更新之间的音频样本的数量H小于16,如小于8,如小于4,如小于2。在实 施例中,控制单元配置成根据预定方案更新分离信号,如有规律地,如以预定更新频率f upd, 例如每H个音频样本(fupd= lAH*f s),其中fs为采样频率)。
[0036] 在实施例中,听力装置包括信号处理单元,用于处理一个或多个分离的、表示至少 两个声源的信号(或源自其的信号)。在实施例中,信号处理单元配置成向用户呈现一个或 多个分离信号,例如一个接一个,使得在特定时间仅呈现来自单一声源信息。
[0037] 在实施例中,听力装置配置成以在进入和离开声源分离系统的音频样本之间小于 或等于20ms的延时提供声源分离,例如通过优化合成和分析帧长度的大小。在实施例中, 听力装置配置成动态调整合成和分析帧长度,例如根据当前的声环境(如声源数量、环境 噪声电平等)。
[0038] 在实施例中,听力装置(输入单元)包括用于将输入声音转换为电输入信号的输 入变换器。在实施例中,听力装置包括定向传声器系统,其适于增强佩戴听力装置的用户 的局部环境中的多个声源之中的目标声源。在实施例中,听力装置包括多个输入变换器和 /或接收一个或多个表示音频的直接输入信号。在实施例中,听力装置配置成基于来自多 个输入变换器的电输入信号和/或基于一个或多个直接输入信号产生定向信号。在实施例 中,听力装置配置成基于至少一分离信号产生定向信号。在实施例中,听力装置适于从另一 装置如遥控器或智能电话和/或分开的(如搭档)传声器接收传声器信号。在实施例中, 另一装置为双耳听力系统的对侧听力装置。在实施例中,听力装置配置成基于至少一分离 信号及至少一从另一装置接收的传声器信号产生定向信号。在实施例中,定向系统适于检 测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的 多种不同方式实现。
[0039] 在实施例中,听力装置适于提供随频率而变的增益和/或随电平而变的压缩和/ 或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿 用户的听力受损。在实施例中,听力装置包括用于增强输入信号并提供处理后的输出信号 的信号处理单元。
[0040] 在实施例中,听力装置包括用于基于处理后的电信号提供由用户感知为声学信号 的刺激的输出单元。在实施例中,输出单元包括耳蜗植入物的多个电极或者骨导听力装置 的振动器。在实施例中,输出单元包括输出变换器。在实施例中,输出变换器包括用于将刺 激作为声学信号提供给用户的接收器(扬声器)。在实施例中,输出变换器包括用于将刺激 作为颅骨的机械振动提供给用户的振动器(如在附着骨头的听力装置或骨锚式听力装置 中)。
[0041] 在实施例中,听力装置包括用于从另一装置如通信装置或另一听力装置无线接收 直接电输入信号的天线和收发器电路。在实施例中,听力装置包括用于从另一装置如通信 装置或另一听力装置接收有线直接电输入信号的(可能标准化的)电接口(例如连接器的 形式)。在实施例中,直接电输入信号表示或包括音频信号和/或控制信号和/或信息信 号。
[0042] 在实施例中,听力装置具有0. 08m级的最大外尺寸(如头戴式耳机)。在实施例 中,听力装置具有〇· 〇4m级的最大外尺寸(如听力仪器)。
[0043] 在实施例中,听力装置为便携装置,例如包括本机能源如电池例如可再充电电池 的装置。在实施例中,听力装置为低功率装置。
[0044] 在实施例中,听力装置包括输入变换器(传声器系统和/或直接电输入(如无线 接收器))和输出变换器之间的正向或信号通路。在实施例中,信号处理单元位于该正向通 路中。在实施例中,信号处理单元适于根据用户的特定需要提供随频率而变的增益。在实 施例中,听力装置包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计 量等)的功能件的分析通路。在实施例中,分析通路和/或信号通路的部分或所有信号处 理在频域进行。在实施例中,分析通路和/或信号通路的部分或所有信号处理在时域进行。
[0045] 在实施例中,听力装置包括模数(AD)转换器以按预定采样速率如20kHz使模拟输 入数字化。在实施例中,听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信 号,例如用于经输出变换器呈现给用户。
[0046] 在实施例中,表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频 信号,其中模拟信号以预定采样频率或速率f s进行采样,f 3例如在从8kHz到40kHz的范围 中(适应应用的特定需要)以在离散的时间点tn(或η)提供数字样本X n(或x[n]),每一 音频样本通过预定的比特数Ns表示声信号在、时的值,N 3例如在从1到16比特的范围中。 数字样本X具有l/fs的时间长度,对于f s= 20kHz,如50 μ s。在实施例中,多个音频样本 按时间帧进行安排。在实施例中,一时间帧包括64个音频数据样本(对于fs= 20kHz,对 应于3. 2ms)。根据实际应用可使用其它帧长度。
[0047] 在实施例中,听力装置包括分类单元,用于对听力装置当前周围的声环境进行分 类。在实施例中,听力装置包括向分类单元提供输入及分类基于哪一输入的多个检测器。
[0048] 在实施例中,听力装置包括电平检测器(LD),用于确定输入信号的电平(例如基 于频带级和/或全(宽带)信号)。从用户声环境拾取的电传声器信号的输入电平例如是 声环境的分类参数。在实施例中,电平检测器适于根据多个不同的(如平均)信号电平对 用户当前的声环境进行分类,如分类为高电平或低电平环境。
[0049] 在特定实施例中,听力装置包括话音检测器(VD),用于确定输入信号是否包括话 音信号(在特定时间点)。在本说明书中,话音信号包括来自人类的语音信号。其还可包括 由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中,话音检测器单元适于将 用户当前的声环境分类为话音或无话音环境。这具有下述优点:包括用户环境中的人类发 声(如语音)的电传声器信号的时间段可被识别,因而与仅包括其它声源(如人工产生的 噪声)的时间段分离。在实施例中,话音检测器适于将用户自己的话音也检测为话音。作 为备选,话音检测器适于在检测话音时排除用户自己的话音。在实施例中,听力装置包括噪 声电平检测器。
[0050] 在实施例中,听力装置包括自我话音检测器,用于检测特定输入声音(如话音)是 否源自系统用户的话音。在实施例中,听力装置的传声器系统适于能够在用户自己的话音 及另一人的话音之间进行区分及可能与无话音声音区分。
[0051] 在实施例中,听力装置包括声学(和/或机械)反馈抑制系统,如有能力随时跟踪 反馈通路变化的自适应反馈消除系统。
[0052] 在实施例中,听力装置还包括用于所涉及应用的其它适宜功能,如电平压缩、降噪 等。
[0053] 在实施例中,听力装置包括听音装置,例如助听器,例如听力仪器,例如适于位于 用户耳朵处、或者完全或部分位于耳道中、或者完全或部分植入在用户头部中的听力仪器, 例如头戴式耳机、耳麦、耳朵保护装置或其组合。
[0054] 在实施例中,根据本发明的听力装置的功能元件被包围在单一装置如听力仪器 中。在实施例中,根据本发明的听力装置的功能元件被包围在几个分开的装置中(如两个 以上)。在实施例中,几个(优选便携的)分开的装置适于彼此有线或无线通信。在实施例 中,至少一部分与声音分离有关的处理在分开的(辅助)装置中进行,如便携装置,如遥控 装置,如移动电话例如智能电话。
[0055] 用涂
[0056] 此外,本发明提供上面描述的、"【具体实施方式】"中详细描述的及权利要求中限定 的听力装置的用途。在实施例中,提供在包括一个或多个听力仪器、头戴式耳机、耳麦、有源 耳朵保护系统等的系统中的用途,例如免提电话系统、远程会议系统、广播系统、卡拉OK系 统、教室放大系统等。
[0057]
[0058] 本申请还提供在多声源环境中分离声源的方法。该方法包括:
[0059] -提供表示包括至少两个声源的音频信号的时变电输入信号;
[0060] -提供适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及 [0061]-提供适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于 A,L个音频样本计划分开在各个声源中;
[0062]-提供已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一条 目(记录的声音例子)称为原子,这些原子源自来自大小对应于合成和分析缓冲器单元的 第一和第二缓冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓 冲器的音频样本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲 器的原子构成分析字典;及
[0063] -如果原子在数据库的分析字典中,通过确定最后A个音频样本的最佳表示(W)而 分离电输入信号以提供表示至少两个声源的分离信号,及通过使用最佳表示(W)组合数据 库的合成(重构)字典中的原子而产生分离信号。
[0064] 当由对应的过程适当代替时,上面描述的、"【具体实施方式】"中详细描述的及权利 要求中限定的听力装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方 法的实施具有与对应装置一样的优点。
[0065] 为获得低算法延时,该方法(算法)应用于相对短的输入数据帧(合成帧),同时 滤波器权重通过检查相对较长的先前的时间上下文(分析帧)而建立。由于两个不同的帧 大小用于收集时域数据进行处理,跨附加(组分)模型中使用的成对字典存在两个不同的 原子长度。对于每一声源,因而产生分别用于分析和重构的分开的字典。
[0066] 输入音频混合信号按基于帧的方式进行分析和处理,如具有从每一时域帧得到的 特征向量。分离通过用组分模型表示特征向量而进行,其中每一字典中的原子非负地求和 以逼近混合信号内的声源的频谱特征。因此,各个字典原子具有与从混合信号形成的特征 向量一样的尺寸,其从字典内容方面进行分析或滤波。
[0067] 本发明还涉及对每一将要分离的声源产生包括分开但成对的分析和重构字典的 数据库的方法。
[0068] 计筧机可读介质
[0069] 本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计 算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、"【具体实施方式】" 中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
[0070] 作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或 其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结 构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁 盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数 据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范 围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如 因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。这样的活动同 样被本发明覆盖。
[0071] 数据处理系统
[0072] 本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器 执行上面描述的、"【具体实施方式】"中详细描述的及权利要求中限定的方法的至少部分(如 大部分或所有)步骤。
[0073] 听力系统
[0074] 另一方面,本申请提供包括上面描述的、"【具体实施方式】"中详细描述的及权利要 求中限定的听力装置及包括辅助装置的听力系统。
[0075] 在实施例中,该系统适于在听力装置和辅助装置之间建立通信链路以使信息(如 数据例如控制和/或状态信号,中间结果,和/或音频信号)能在其间进行交换或从一装置 转发给另一装置。
[0076] 在实施例中,通信链路为基于近场通信的链路,例如基于发射器和接收器部分的 天线线圈之间的感应親合的感应链路。在另一实施例中,无线链路基于远场电磁福射。在实 施例中,经无线链路的通信根据特定调制方案进行安排,例如模拟调制方案,如FM(调频) 或AM (调幅)或PM (调相),或数字调制方案,如ASK (幅移键控)如开-关键控、FSK (频移 键控)、PSK (相移键控)、或QAM(正交调幅)。优选地,用于在听力装置和另一装置之间建 立通信链路的频率低于70GHz,例如位于从50MHz到50GHz的范围中,例如高于300MHz,例 如在高于300MHz的ISM范围中,例如在900MHz范围中或在2. 4GHz范围中或在5. 8GHz范 围中或在60GHz范围中(ISM =工业、科学和医学,这样的标准化范围例如由国际电信联盟 ITU定义)。在实施例中,无线链路基于标准化或专用技术。在实施例中,无线链路基于蓝 牙技术(如蓝牙低功率技术)。
[0077] 在实施例中,辅助装置是
或包括音频网关设备,其适于接收多个音频信号,及适于 选择所接收音频信号(或所选信号的组合)中的适当信号以传给听力装置。在实施例中,辅 助装置是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能实施 在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听 力装置包括到智能电话的适当无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
[0078] 在实施例中,辅助装置是或包括另一听力装置。在实施例中,辅助装置是或包括上 面描述的、"【具体实施方式】"中详细描述的及权利要求中限定的听力装置。在实施例中,听力 系统包括两个听力装置,适于实施双耳听力系统如双耳助听器系统。
[0079] 定义
[0080] 在本说明书中,"听力装置"指适于改善、增强和/或保护用户的听觉能力的装置如 听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生 对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提 供给用户的至少一只耳朵而实现。"听力装置"还指适于以电子方式接收音频信号、可能修 改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵 的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的 声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信 号、及直接或间接传到用户耳蜗神经的电信号。
[0081] 听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有 将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为 整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、 或作为整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。
[0082] 更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号 的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理 输入音频信号的信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户 的输出装置。在一些听力装置中,放大器可构成信号处理电路。在一些听力装置中,输出装 置可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声 信号的振动器。在一些听力装置中,输出装置可包括一个或多个用于提供电信号的输出电 极。
[0083] 在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在 一些听力装置中,振动器可植入在中耳和/或内耳中。在一些听力装置中,振动器可适于将 结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中,振动器可适于例如通过 卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中,输出电极可植入在耳蜗 中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听 觉皮层和/或大脑皮层的其它部分。
[0084] "听力系统"指包括一个或两个听力装置的系统。"双耳听力系统"指包括一个或两 个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听 力系统还可包括"辅助装置",其与听力装置通信并影响和/或受益于听力装置的功能。辅 助装置例如可以是遥控器、音频网关设备、移动电话、广播系统、汽车音频系统或音乐播放 器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增 强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。
【附图说明】
[0085] 本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起 见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略 其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特 征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面 的图示明显看出并结合其阐明,其中:
[0086] 图1A-1B示意性地示出了两个音频源混合为由传声器拾取并转换为电数字化信 号及保存在两个缓冲器夂St中的公共声场,其中a t缓冲器至少与s t缓冲器一样长(图 1A),及基于每一声源的根据本发明的预先学习的分析和合成(重构)字典的、具有两个声 源(如话音)的声源分离原理(图1B)。
[0087] 图2示意性地示出了根据本发明的声源分离方案的学习过程部分的实施例。
[0088] 图3A-3C示意性地示出了根据本发明的成对字典(或数据库)的三个实施例,图 3A示出了原子处于时域的实施例,图3B示出了原子处于时频域的实施例,及图3C示出了成 对字典的原子部分处于时域及部分处于时频域的实施例。
[0089] 图4示出了根据本发明实施例的声源分离程序的分析部分。
[0090] 图5A-5D示意性地示出了根据本发明的听力装置(或听力系统)的四个实施例。
[0091] 图6示出了根据本发明的双耳听力系统的实施例,其中作为双耳分离算法的一部 分,两个听力装置交换输入信号、中间信号及输出信号。
[0092] 图7示出了根据本发明的听力系统的实施例,其包括两个听力装置及辅助装置, 其中辅助装置包括用户接口。
[0093] 符号
[0094] Bt 时域分析帧
[0095] St 时域合成帧
[0096] A a1的样本长度
[0097] L St的样本长度
[0098] y Wat形成的实值特征向量
[0099] s Wst形成的复值合成向量
[0100] A 分析字典
[0101] R 重构字典
[0102] R:;k 字典R的第k列
[0103] w 单一输出帧的权向量
[0104] Sn 混合信号中的第η个声源的重构帧
[0105] η 指字典、权重或重构帧中的第η个声源的下标
[0106] 通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理 解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本 领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
【具体实施方式】
[0107] 下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供 多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可 在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、 模块、元件、电路、步骤、处理、算法等(统称为"元素")进行描述。根据特定应用、设计限制 或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
[0108] 电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的 多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程 序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行 线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
[0109] 使用线性模型通过逼近进行声源分离已表明是有效的,例如参见参考文献 [1]-[5]。混合信号的谱量值通过分量的加权求和逼近,这些分量保存在预先培训的字典 内,每一字典对特定声源进行建模,每一字典的贡献是用于产生应用于混合声谱图以隔离 那一声源的维纳滤波器。
[0110] 假定集合N个字典,每一个体字典对特定声源的特性建模,如用于多个已知话音 的字典。用于声源η的字典由心个原子组成,k为字典内的原子数。每一原子if可以 是连续多个声音(音频)样本、同样的连续多个声音样本的频域表示或同样的连续多个声 音样本的时频域表示。对于声音样本和时频表示,值可以是实值;及对于时频表示,值可以 是复值。原子在下面结合图2、3A-3C的描述中称为andl和s ndl (其中η为声源指数,i为 原子数(对应于中的k))。
[0111] 考虑连续音频样本X的观测包含源自各个字典已针对其培训的一个或多个声源 的声音。该观测建模为数据库中的原子的加权求和。
[0112] 帧建模为字典"原子" dg和该声源的已知例子的频域表示的和,使得原子Cf的 非负权重按下面定义示例性组分模型的等式(1)进行估计:
[0115] 分离通过找到数据库的所有原子的最佳权重wi然后将每一声源重构为对应于该 声源的原子的加权和而实现。权重估计通过使价值函数最小化进行,这可以是观测X和估 计i之间的Kullback-Leibler (KL)发散,此外,价值函数可包括声源字典内及声源字典之 间的稀疏限制。
[0116] 最后,转变成矩阵记法等式(1)可重写为:
[0117] t = Dw
[0118] 等式(2)
[0119] 其中字典矩阵D分割为
[0120] D = [D1D2. . . Dn]
[0121] 等式(3)
[0122] Dn包含对声源η培训的原子。属于每一声源的权重记为Wn,模型可描述为:
[0125] 声源按下面的方式使用上述组分模型(如等式(1))进行分离。如果将要分离的 复值观测向量为y,则声源η的分离贡献Sn从原子直接提取或者通过滤波提取
[0128] 其使用适当的字典及等式5的分子中的权重(符号"(g)"指卷积)。随后的运行可 考虑频域中的维纳滤波器,非必需的归一化确保重构的声源估计量总计为初始混合信号。
[0129] 对于低延时系统,可用于进行处理并输出为音频的音频样本之间的时延应尽可能 低。在基于帧的处理方案中,必须在处理进行输出之前收集和保存整个数据帧。我们将进 入算法及进行处理和可用于输出的样本之间的理论最小时延称为"算法延时"T a,而实际处 理时间可称为"计算延时" T。。总的可实现的延时T为这些值的和:
[0130] T = Ta+Tc 等式(6)
[0131] 我们仅考虑实现低算法延时的约束条件,因为根据特定处理方案、硬件等的参数, 延时是非确定的。
[0132] 由于合成帧按基于块的方式进行处理,整个输入帧必须在可输出第一样本之前捕 获。从纯算法的角度,不管帧重叠,可在帧一被处理就发生样本输出。因此,前述方法的算 法延时为合成帧长度。实际上,任何处理开销均添加到实际的最小延时。
[0133] 对于未重叠的帧,计算复杂性降低,但这可导致一输出帧的最后样本和下一输出 帧的第一样本之间的不连续。更大的重叠提供更多的信息,其相较未重叠的帧提供更好的 分呙质量。
[0134] 在实施例中,窗口函数如Hanning窗口优选已在任何傅里叶变换如离散傅里叶变 换(DFT)之前应用于所有向量(a和s)以提供时间平滑并调节频率重叠的量。为清晰起见, 这从其余描述部分省略。
[0135] 为获得低算法延时,
算法应用于短输入数据帧,同时滤波器权重通过检查更长的 先前的时间上下文建立。由于两个不同的帧大小用于收集时域数据进行处理,跨附加模型 中使用的成对字典存在两个不同的原子长度(例如分别参见图3A-3C中的S dl和a dl)。因 而对于每一声源,产生分开的用于分析和重构的字典。
[0136] 输入音频混合信号按基于帧的方式进行分析和处理,具有从每一时域帧得到的特 征向量。分离通过用组分模型表示特征向量进行,其中每一字典中的原子非负地总计以逼 近混合信号内的声源的谱特征。因此,各个字典原子具有与从混合信号形成的特征向量一 样的尺寸,这些原子在字典内容方面进行分析或滤波。
[0137] 为清晰起见,时域帧长度和从它们得到的特征向量在下面定义(总的来说,变量 总结在【附图说明】部分末尾的符号表中)。我们将为分离声源重构目的进行处理的帧数据称 为长度为L的合成帧S t。保持先前输入的音频样本的长度为A的分析缓冲器y (其中A>L) 并称为"分析帧"。滤波器从其将应用于处理帧的时间上下文可从分析缓冲器得到。此外, 分析和合成缓冲器中的任意一个或二者可进一步细分。
[0138] 在实施例中,分析特征向量y通过取具有50%重叠的长度L的分析子帧的DFT的 绝对值(参见图2中的I DFT I )并将所得的(2 (A/L) - 1)子帧输出级联为单一特征向量 而从y形成。该向量有效地描述过去的A个音频样本期间存在的频率的量值(参见图2)。 为清晰起见,假定sJP a t中的子帧具有相同大小。a ,中的子帧确实不需要与s ,具有一样 的长度。复值频域合成向量s通过仅取¥中的实值数据的DFT结果的正频率而形成,从而 具有长度(L/2)+l。s在每一帧输出处滤波以产生分离声源估计量(参见图IB中的81和 S2) 〇
[0139] 对于基于附加模型的分离,通常针对混合信号中的每一扬声器学习原子字典(参 见图IB中的DIC-SjP DIC-S2)。本发明中提出对每一讲话者使用成对字典(参见图3A-3C), 藉此,较长的分析原子字典(图3A-3C中,a dl,i = 1,2, ···,%)与用于声源重构的较短的合 成原子字典(图3A-3C中,sdl,i = 1,2, ···,%) -起产生。
[0140] 明确地,在两讲话者混合模型中,可有利地使用一字典A用于分析及一字典R用于 重构。每一字典包括如等式3中指明的讲话者特有区域。针对声源η培训的字典部分由下 标η表示,如A n,因而:
[0141] A = [A1A2]
[0142] 等式(7)
[0143] 及
[0144] R = [R1R2]
[0145] 等式(8)
[0146] 每一字典中的第k个原子与交替字典中同样指数处的原子联系(例如参见图 3A-3C中从S dl到a dl的点线),如下面的表达式所示:
[0147] R;,i?c ^ A.)fe
[0148] 等式(9)
[0149] 事实在于,其中每一个从培训数据的类似部分获得(分析原子adl从比合成原子 sdl长的先前上下文取得)。记法R、k(A、k)指字典R(A)的第k列。
[0150] 实际的字典原子产生过程类似于图2中所示特征向量产生的过程。分析字典原子 通过与产生特征向量y -样的处理获得。重构字典原子与s类似地产生,除了保存DFT结 果的实值绝对值以外,与每一 s中存在的复值结果相反。
[0151] A中的原子从长度为A的时域数据形成,同时L个音频样本用于形成重构字典R中 的原子。A中的原子用于估计应用于R中的原子的权重,以形成应用于复值合成帧s的频域 维纳滤波器(参见图IB中的滤波器单元S-FIL。)
[0152] 分析通过学习权重w进行,其使分析向量y和来自字典A的原子的加权和之间的 KL发散最小化(等式10)。
[0155] 在实施例中,采用有效集牛顿算法(ASNA)(参见图6、7)找到最佳解决方案,这是 因为其快速的计算时间和有保证的收敛,尽管基于NMF的方法也可同等地使用。其还可相 较基于GPU的处理器体系结构提供速度优势。
[0156] 学习的权重w应用于字典R中的对应成对字典原子以形成重构维纳滤波器。滤波 器在每一帧处理步骤应用于合成向量s,使得对于每一合成帧,重构第η个分离声源:
[0158] 等式(11)
[0159] 分离的时域声源通过产生Sn的复共辄并对将要叠加和重构为连续时间输出的每 一帧执行逆DFT而重构。
[0160] 图IA示出了两个音频源S1, S2的环境混合(mix)为由传声器(或传声器系统如传 声器阵列)拾取并转换为电数字化信号及保存在两个缓冲器中的公共声场,其中分析缓冲 器B t至少与合成缓冲器s t-样长。图IB示出了基于每一声源S JP S 2的根据本发明的预 先学习的分析和合成(重构)字典DIC-SjP DIC-Sj^、具有两个声源(如两个话音)的声 源分离原理。
[0161] 在图IA中,声源S1, 52的混合信号由声音信号IN表不,其由输入变换器(在此为 传声器)MIC拾取。模拟电输入信号在模数转换器AD中以预定采样频率匕如20kHz进行 采样从而将数字音频样本作为相对较长的分析帧at (包括A的音频样本)和相对较短的合 成帧St (包括L〈A个音频样本)提供给循环分析和合成缓冲器BUF。在时刻tn所得的数字 化电输入信号X在图1A-1B中记为x(t n)。
[0162] 在图IB中,分析和合成缓冲器alP s t的数字化电输出信号,分别为信号a(tn)和 s (tn),馈给声源分离单元SSU以分离电输入信号s (tn)从而提供表示两个声源S1, S2的分离 信号Sl,S2。声源分离单元SSU配置成考虑数据库的分析字典A 1, A2中的原子确定最后A个 音频样本的最佳表示W,并通过使用从分析字典A1, ^确定的最佳表示W组合数据库的相应 合成(重构)字典R1, R2中的原子而产生至少两个声源信号s i,S2。声源分离单元SSU包括 合成滤波器S-FIL,用于使用滤波器更新单元FIL-IPD提供的滤波器权重W 1从电输入信号 S (tn)产生两个分离声源信号S1, S2。最后L个输入音频样本转发给S-FIL并非必须,但使 S-FIL单元能将分离的输出与当前输入进行比较。
[0163] 从DIC-S1, DIC-S2到滤波器更新单元FIL-UPD的箭头指示分析和合成原子从源字 典DIC-S1, DIC-S2传给滤波器更新单元。分析原子(在滤波器更新单元中)用于找到权重。 权重与对应的合成原子一起使用并传给滤波器单元S-FIL以产生声源分离信号 Sl,s2。
[0164] 图2示出了根据本发明的声源分离方案的学习过程部分的实施例。该声源分离方 案基于组分模型(例如参见等式(1))和包括将要分离的每一声源(如来自不同人的语音) 的基本元素的成对字典R 1, A1,例如所涉及声源的谱特征向量形式。在图2中,示出了针对声 源S1的分析和合成(重构)字典A ^R1的产生。特定合成帧s1D(tn)的内容(在此在时间tn 取得,但其为要紧的时间帧内容,而非其大部头索引)通过DFT单元(DFT)变换到频域从而 提供频域原子s1D(f,t n),如合成(重构)字典R1中的Sldl (例如参见图3B)。同样,特定分 析帧a1D (tn)的内容(在此通过重叠子帧a11D (tn),a12D (tn),a13D (tn)表示)通过相应DFT单 元(I DFT I )变换到频域并通过组合单元COMB组合为频域原子a1D(f,tn),例如分析字典 A1中的aldl (例如参见图3B)。
[0165] 图2示出了根据本发明的分析和合成缓冲器的学习过程的实施例。在图2中不 发生声源分离。学习程序优选在听力装置正常使用之前进行。每一数据库中关于"原子指 数"i = 1,2,···,ND1 (其中ND1为声源S1的字典A ^ R1中的(成对)原子的数量)的元素号 (跨字典原子(sldl, sld2,…,sldnD1)和(aldl, a2d2,…,aldnD1))不意味着时间依存。在另一步骤 (未示出)中,"K平均"或其他数据减小方法(聚类分析)应用于数据库中的元素。
[0166] 合成缓冲器St的长度L示为但不需要与分析缓冲器的重叠子帧a 11D,a12D,a13D的长 度一样。优选在子帧之间具有一定重叠以使从一帧到下一帧的非自然信号最小化(当谱分 析形成声源分离的一部分时)。在图2所示的例子中,长度为L个音频样本的三个个别帧与 分析缓冲器中的其每一相邻帧具有50%重叠。
[0167] 在不损失一般性的情形下,也可能以与分析缓冲器类似的方式将合成缓冲器细分 为重叠的帧。
[0168] 当合成帧比20ms短时,进一步预期,声源分离性能的提高通过使用比合成帧长的 分析帧实现。总的来说,使用较大的字典相比较短的帧产生更好的分离性能,就像使用较长 的重构窗口一样。在优点通过使用比合成帧长的分析帧获得时,随着分析帧变得远远长于 合成帧,提高水平降低。对于特定合成窗口长度,最大的性能增加通常在分析窗口为2-4倍 长时实现。
[0169] 本申请的发明人注意到,使用两个字典(A,R)减少分离程序的时延。先前的方法 (例如Virtanen等,参考文献[6] + [7])仅使用一个字典因而不能实现同样的质量,即与下 面相同的20ms短时延。
[0170] 图3A-3C示出了根据本发明的成对字典(数据库)的三个实施例。具有相同指数 i的分析原子adl和合成原子s dl之间的联系通过点线垂直线指示(对于i = 1,2及NDt/NDf/ NDft,指示在分析原子adi和合成原子s di之间)。
[0171] 图3A示出了两个字典(A,R)的原子全部处于时域的实施例。合成(重构)字典 R由NDt个合成原子s dl组成,其由长度为L个音频样本的时域帧组成。合成原子s dl (i = l,2,NDt)的三个例子在该图的上部不出。分析字典A由NDt个分析原子adi组成,其由长度 为A个音频样本的时域帧组成。分析原子a dl(i = l,2,NDt)的三个例子在该图的下部示出。
[0172] 图3B示出了两个字典(A, R)的原子全部处于时频域的实施例。合成(重构)字 典R由Nm个合成原子Sdl组成,每一合成原子由长度为N s(Ns个频带)的频域谱组成。分析 字典A由Nm个分析原子a dl组成,每一分析原子由长度为N a (Na个频带,如对应于多个连续 时间帧的频谱,例如A/L)的频域谱组成。
[0173] 图3C示出了成对字典的原子部分处于时域(合成(重构)字典R)及部分处于时 频域(分析字典A)的实施例。合成(重构)字典R由N Dft个合成原子Sdl组成,其由长度 为L个音频样本的时域帧组成。合成原子sdl(i = l,2,NDt)的三个例子在该图的上部示出。 分析字典A由Nm个分析原子a dl组成,每一分析原子由长度为N a (Na个频带,如对应于多个 连续时间帧的频谱,例如A/L)的频域谱组成。
[0174] 在另一实施例(未示出)中,成对字
典的原子再次部分处于时频域(合成(重构) 字典R)及部分处于时域(分析字典A)
[0175] 图4示意性地示出了根据本发明实施例的声源分离程序的分析部分。
[0176] 图4示出了时变数字化输入音频("输入音频信号")及分析和合成帧¥和s汾 别在t和t+H音频样本时的对应内容。
[0177] 该方法基于分析帧a1中保存的数据分离不同声源(参见图1B)中每一时间步长 的合成帧S t中包含的音频。在每次更新时,最新的H个音频样本被载入循环分析缓冲器 (at+H),及抛弃最旧的H个音频样本。在实施例中,缓冲器内容变换到频域进行分离(如图2 中所示,用于产生字典)。
[0178] 分离通过在每次更新时(如每H个音频样本)将缓冲器的内容建模为分量(分析 帧中存在的频率的绝对量值)的累积和而进行,其保存在预先计算的字典中,如在完善建 立的DNN、FHMM、NMF和ASNA方法中(参见图2-3C)。
[0179] 图5A-5D示意性地示出了根据本发明的听力装置(或听力系统)的四个实施例。
[0180] 图5A示出了听力装置HD的实施例,其包括用于接收包括N个声源S1, S2,…,Sn 的输入声音信号并提供表示混合声音信号的数字化电输入信号X的输入单元IU。听力装 置HD包括声源分离单元SSU,用于按结合图1A-4所述将输入信号X分离为多个分离信号 S1, S2,…,sN。听力装置HD还包括信号处理单元SPU,用于处理一个或多个分离信号S 1, S2,… ,sN,例如用于产生其进一步改善的版本,例如通过将降噪或其他处理算法应用于分离信号 或者按适当比混合两个以上分离信号。在实施例中,信号处理单元SPU配置成连续地向用 户呈现一个或多个分离信号 Sl,S2,…,sN,使得一次仅呈现来自单一声源Si (如讲话者)的 信息。处理后的输出信号u馈给输出单元OU以产生可由用户感知为声音的输出刺激(通 过粗箭头和信号OUT进行符号表示)。在备选实施例中,一个或多个如大部分或全部分离信 号 Sl,S2,…,sN经分开的输出变换器呈现给用户(或者并行呈现给分开的用户,如每一声源 一个用户)。
[0181] 图5B示出了像图5A-样的听力装置HD的实施例,但输入单元IU提供电输入信号 七和X 2 (如从两个输入变换器),每一电输入信号包括多个音频源S1, S2,…,&的混合。图 5B的实施例包括共享公共数据库的第一和第二声源分离单元SSU1,SSU2,第一和第二声源 分离单元配置成将输入信号xJP X 2分别分离为分离信号S n, S12,…,S1n和S 21,S22,…,S2N。 分离信号馈给波束形成器单元,从而从至少部分分离信号提供定向信号DIR。定向信号DIR 连接到信号处理单元SPU进行进一步处理,例如根据用户需要应用随电平和/或频率而变 的增益,或者如结合图5A所述那样。图5B的实施例还包括用于经无线链路WL-RF与辅助 装置AD通信的天线和收发器电路Rx/Tx (也参见图7)。听力装置HD配置成将一个或多个 分离信号S11, S12,…,Slt^P S21, S22,…,S2n及一个或多个定向信号(分别通过信号src和dir 及伴随的灰色箭头进行符号表示)经无线链路WL-RF传给辅助装置AD。辅助装置配置成接 收信号,例如进行进一步处理和/或显示。在实施例中,辅助装置是移动电话如智能电话或 形成其一部分(例如参见图7)。
[0182] 图5C示出了听力装置HD的另一实施例,其中输入单元IU提供M个电输入信号 Xl,X2,…,xM (如从M个输入变换器)。输入信号连接到提供定向信号DIR的波束形成器单 元BF,定向信号馈给声源分离单元SSU以将定向信号DIR按结合图1A-4所述分离为多个 分离信号 Sl,S2,…,sN。分离信号馈给信号处理单元SPU进行进一步处理和输出,如结合图 5A或5C所述。图5C的听力装置HD还包括组合的控制和收发器单元CONT-Rx/Tx,用于控 制和建立到辅助装置AD的无线链路WL-RF。如阴影箭头和信号mic、dir、src和out所示, 一个或多个电输入信号X 1, x2,…,xM、定向信号DIR、分离信号S1, S2,…,sN、和输出信号u可 经无线链路传给辅助装置。同样,用于控制或影响波束形成器单元BF和信号处理单元SPU 的控制信号bf和pc可在控制单元CONT-Rx/Tx中产生或从辅助装置接收,例如经辅助装置 AD提供的用户接口(参见图7)。
[0183] 图f5D示出了听力装置的另一实施例,包括听力仪器HI和辅助装置AD。辅助装置 AD包括声音分离功能。辅助装置AD包括用于接收包括N个声源S1, S2,…,Sn的输入声音信 号并提供表示混合声音信号的数字化电输入信号X的输入单元IU。辅助装置AD还包括声 源分离单元SSU,用于按结合图1A-4所述将输入信号X分离为多个分离信号S1, S2,…,sN。 辅助装置AD还包括信号处理单元SPU,用于处理一个或多个分离信号Sl,S2,…,s N,例如用 于产生其进一步改善的版本,例如通过将降噪或其他处理算法应用于分离信号或者按适当 比混合两个以上分离信号。处理后的输出在通过辅助装置和听力仪器中的对应天线和收发 器电路ANT,Rx/Tx实施的无线连接WL上传给听力仪器HI。听力仪器HI配置成接收处理 后的输出信号u并将该信号经输出单元OU(在此为扬声器SP)作为声音信号OUT呈现给用 户。听力仪器HI还示为包括非必需的传声器单元MIC (用于从环境拾取声学声音)和用于 选择(或混合)从辅助装置无线接收的信号INw或传声器信号INm的选择单元SEL(在图 的实施例中,收发器、传声器和选择单元一起形成输入单元IU-HI)。从选择单元所得的 信号IN呈现给非必需的信号处理单元SPU-HI,及非必须处理的信号u-HI经扬声器SP作为 声音信号OUT呈现给用户。声音分离和呈现给用户的功能任务的这种划分的优点在于,需 要大量处理的任务(声音分离)与耳朵佩戴的听力仪器(小尺寸、低能量容量)分开。需 要处理的任务在比耳朵佩戴的听力仪器HI具有更多电力和处理能力的特殊装置(AD,如其 他手持装置(如智能电话)的遥控器)中进行。
[0184] 在另一包括与图中所示一样的功能部分的备选实施例(未示出)中,其具有 类似但稍微不同的任务划分,辅助装置AD再次包括用于接收包括N个声源S 1, S2,…,&的 输入声音信号的输入单元IU,及包括数据库的分析部分(图5A-5D的实施例中的A-BUF和 FIL-UPD)的声源分离单元SSU-AD (的一部分),用于按结合图1A-4所述将输入信号X分离 为多个权重Wl,w2, ···. wN从而形成分离信号。另一方面,听力仪器包括具有数据库的合成部 分(图5A-?实施例中的单元S-FIL)的另一(部分)声源分离单元SSU-HI,用于重构多个 分离信号,及包括输出单元0U。权重 Wl,w2,….wN经无线链路WL传给听力仪器HI并应用于 滤波器单元S-FIL以提供分离信号 Sl,S2,…,sN。合成缓冲器的对应内容可连同滤波器权重 一起从辅助装置传给听力仪器。作为备选,合成缓冲器可在听力仪器中从输入单元(图f5D 中的IU-HI)的传声器MIC拾取的信号产生。分离信号例如在经听力仪器的输出单元OU呈 现给用户之前可在听力仪器的信号处理单元(图f5D中的SPU-HI)中进一步处理,如结合其 它实施例所述。
[0185] 图6示出了根据本发明的包括第一和第二听力装置HD-1,HD_2的双耳听力系统的 实施例,其中作为双耳分离算法的一部分,两个听力装置可交换输入信号、中间信号及输出 信号。第一和第二听力装置HD-l,HD-2例如可包括结合图IA-OT所述的元件和实施方式。 第一和第二听力装置HD-1,HD-2的输入单元IU包括用于拾取包括声源S 1, S2,…,混合 的声输入aIN并提供电输入信号INm的传声器MIC,其馈给选择或混合单元SEL的第一输 入。输入单元IU还包括天线和无线收发器ANT,Rx/Tx,(至少)用于从另一装置(如遥控 装置和/或移动电话)接收包括控制和/或音频信号的直接电信号wIN并提供电输入信号 INw,其馈给选择或混合单元SEL的第二输入。输入单元IU提供(作为来自选择或混合单 元SEL的输出)所得的电输入信号X (分别为HD-I和HD-2中的&和X 2)。第一和第二听 力装置HD-1,HD-2中的每一个包括相应的声音分离单元SSU、信号处理单元SPU和输出单 元0U,如结合图5A-?所述。第一和第二听力装置HD-1,HD-2中的每一个还包括用于在两 个装置之间建立耳间无线链路IA-WLS的天线和收发器电路IA-Rx/Tx。如结合图5B和5C 的实施例所示,第一和第二听力装置配置成,作为双耳分离算法的一部分,交换输入信号、 中间信号(如声音分离信号、控制信号)和输出信号(通过第一和第二听力装置的每一个 中的声音分离单元SSU和收发器单元IA-Rx/Tx之间的信号IAx和双箭头线路进行符号表 示)从而改善音频信号的双耳处理。
[0186] 图7示出了根据本发明的听力系统的实施例,其包括两个听力装置HD1, HD2及辅助 装置AD,其中辅助装置包括显示当前存在的声源及(如果可用)当前存在的声源S1, S2, S3 相对于用户U的位置的用户接口 UI。在实施例中,声源分离发生在辅助装置中。在实施例 中,声源定位发生在听力装置中。在实施例中,两个听力装置和辅助装置中的每一个包括一 个或多个传声器。在实施例中,两个听力装置和辅助装置中的每一个包括天线和收发器电 路,其使这些装置能彼此通信,如交换音频和/或控制信号。在实施例中,辅助装置为用于 控制听力装置的功能的遥控装置。在实施例中,辅助装置AD为移动电话如智能电话。
[0187] 用户接口 UI例如适于观看及(可能)影响双耳听力系统的环境中的当前声源Ss 的方向性(如拟听的分离声源)
[0188] 右和左听力装置HD1, HD2例如按结合图1A-6所述实施。第一和第二听力装置 HD1, HD2和辅助装置AD中的每一个包括适宜的天线和收发器电路,用于在听力装置之间(链 路IA-WL)及至少一或每一听力装置和辅助装置之间(链路WL-RF)建立无线通信链路。第 一和第二听力装置的每一个中建立两个链路所需的天线和收发器电路在图7中分别记为 RF-IA-RX/Τχ-Ι和RF-IA-RX/Tx-2。第一和第二听力装置HD1, HD2中的每一个包括相应根据 本发明的声源分离单元。在实施例中,耳间链路IA-WL基于近场通信(如基于感应耦合), 但作为备选,可基于辐射场(如符合蓝牙标准,和/或基于利用蓝牙低功率标准的音频传 输)。在实施例中,辅助装置和听力装置之间的链路WL-RF基于辐射场(如符合蓝牙标准, 和/或基于利用蓝牙低功率标准的音频传输),但作为备选,可基于近场通信(如基于感应 耦合)。链路IA-WL,WL-RF的带宽优选适于使声源信号(或至少其一部分,如所选频带和/ 或时间段)和/或识别声源的当前位置的定位参数能在装置之间传输。在实施例中,系统 的处理(如声源分离)和/或遥控器的功能完全或部分实施在辅助装置AD中。在实施例 中,用户接口 UI由可能运行使能控制听力系统的功能的APP的辅助装
置实施,例如利用辅 助装置AD (如智能电话)的显示器实施图形界面(如与文本输入选项结合)。
[0189] 在实施例中,双耳听力系统配置成使用户能选择已由声源分离单元确定聚焦的当 前声源(经听力装置或辅助装置的输出单元OU播放给用户)。如图7的辅助装置的示例性 屏幕中所示,"声源的定位和分离"APP活动,由第一和第二听力装置的声源分离和波束形成 单元确定的当前识别的声源S 1, S2, S3通过辅助装置的用户接口 UI显示(当辅助装置拿在 用户U的手中时,其便于观看和经触敏显示器交互)。在图7所示的例子中,3个识别的其 中心在相应的第一和第二听力装置HD 1, HD2之间的声源S i,&和S 3的位置(由所示正交坐 标系统(X,y, Z)中的相应向量山,d2, d3表示)相对于用户U进行显示。
[0190] 当由对应的过程适当代替时,上面描述的、"【具体实施方式】"中详细描述的及权利 要求中限定的装置的结构特征可与本发明方法的步骤结合。
[0191] 除非明确指出,在此所用的单数形式"一"、"该"的含义均包括复数形式(即具有 "至少一"的意思)。应当进一步理解,说明书中使用的术语"具有"、"包括"和/或"包含" 表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个 其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被 称为"连接"或"耦合"到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间 插入元件。如在此所用的术语"和/或"包括一个或多个列举的相关项目的任何及所有组 合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
[0192] 应意识到,本说明书中提及"一实施例"或"实施例"或"方面"或者"可"包括的特 征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此 外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述 是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显 而易见,及在此定义的一般原理可应用于其他方面。
[0193] 权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范 围,其中除非明确指出,以单数形式提及的元件不意指"一个及只有一个",而是指"一个或 多个"。除非明确指出,术语"一些"指一个或多个。
[0194] 因而,本发明的范围应依据权利要求进行判断。
[0195] 参考文献
[0196] [1]C. Joderj F. ffeninger, F. Eybenj D. Virette and B. Schuller, ^Real-Time Speech Separation by Semi-supervised Nonnegative Matrix Factorization," in Latent Variable Analysis and Signal Separation, Lecture Notes in Computer Science Volume 7191,Springer,2012,pp. 322-329.
[0197] [2] Z. Duanj G. Mysore and P. Smaragdisj ^Online PCLA for Real-Time Semi-supervised Source Separation, ^ in Latent Variable Analysis and Signal Separation,Lecture Notes in Computer Science Volume 7191,Springer,2012, pp. 34-41.
[0198] [3] J. H. Gomez, "Low Latency Audio Source Separation for Speech Enhancement in Cochlear Implants(Master's Thesis),"Universitat Pompeu Fabraj Barcelona, 2012.
[0199] [4] R. Marxer,J. Janer and J. Bonada,Low-Latency Instrument Separation in Polyphonic Music Using Timbre Models, "in Latent Variable Analysis and Signal Separation, Tel Aviv, 2012.
[0200] [5] T. Barker,G. Campos,P. Dias,J. Viera,C. Mendonca and J. Santos,"Real-time Auralisation System for Virtual Microphone Positioning," in Int.Conference on Digital Audio Effects (DAFx-12), York, 2012.
[0201] [6] T. Virtanen,J. F. Gemmeke,and B. Raj,"Active-Set Newton Algorithm for Overcomplete Non-Negative Representations of Audio," IEEE Transactions on Audio,Speech and Language Processing,2013.
[0202] [7] T. Virtanen,B. Raj,J. F. Gemmeke,and H. Van Hamme,"Active-set newton algorithm for non-negative sparse coding of audio," in In Proc. International Conference on Acoustics, Speech, and Signal Processing,2014.
【主权项】
1. 一种听力装置,包括: -输入单元,用于递送表示包括至少两个声源的音频信号的时变电输入信号; -适合保存最后Α个音频样本的长度为Α的循环分析缓冲器单元;及 -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A,L个 音频样本计划分离在各个声源中; -已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一记录的声音 例子称为原子,所述原子源自来自大小分别对应于合成和分析缓冲器单元的第一和第二缓 冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样 本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器的原子构成 分析字典;所述听力装置还包括: -声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号, 所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳 表示(W),及通过使用最佳表示(W)组合数据库的重构字典中的原子而产生L个音频样本的 至少两个分离信号。2. 根据权利要求1所述的听力装置,包括用于按时频表示(k,m)提供分析缓冲器的内 容的时频转换单元,其中所述电输入信号的对应时间段在多个时刻按多个频带提供,k为频 带指数,m为时间指数,其中(k,m)定义包括电输入信号对应于频率指数k和时刻m的复值 或实值形式的信号分量的特定时频窗口或单元。3. 根据权利要求2所述的听力装置,包括用于提供分离声源的时域表示的时频域到时 域转换单元。4. 根据权利要求1所述的听力装置,包括用于提取分析缓冲器和合成缓冲器的内容的 特性特征的特征提取单元。5. 根据权利要求1所述的听力装置,其中所述声源分离单元配置成使声源分离基于非 负矩阵因数分解(NMF)、隐马尔科夫模型(HMM)或深层神经网络(DNN)。6. 根据权利要求1所述的听力装置,其中所述数据库的每一对应的原子对包括其源自 的声源的标识符。7. 根据权利要求6所述的听力装置,其中所述声源分离单元配置成使用声源标识符产 生至少两个声源。8. 根据权利要求1所述的听力装置,包括用于控制以预定更新频率更新分析和合成缓 冲器的控制单元,及配置成在每次更新时将从输入单元接收的最后Η个音频样本保存在分 析和合成缓冲器中并抛弃分析和合成缓冲器中保存的最旧的Η个音频样本。9. 根据权利要求1所述的听力装置,对于至少两个声源中的每一个,其包括分别用于 分析和重构目的的分开的字典。10. 根据权利要求1所述的听力装置,包括助听器、头戴式耳机、耳麦、有源耳朵保护系 统或其组合。11. 一种听力系统,包括根据权利要求1所述的听力装置及包括辅助装置,所述系统适 于使能在其间交换数据。12. 根据权利要求11所述的听力系统,其中所述辅助装置包括根据权利要求1所述的 听力装置。13. 根据权利要求1所述的听力装置的用途。14. 分离多声源环境中的声源的方法,所述方法包括: -提供表示包括至少两个声源的音频信号的时变电输入信号; -提供适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及 -提供适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A,L个音频样本计划分离在各个声源中; -提供已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一记录的 声音例子称为原子,所述原子源自来自大小对应于合成和分析缓冲器单元的第一和第二缓 冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样 本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器的原子构成 分析字典;及 -分离电输入信号以通过考虑数据库的分析字典中的原子确定最后A个音频样本的最 佳表示(W)提供表示至少两个声源的分离信号及通过使用所述最佳表示(W)组合数据库的 重构字典中的原子产生所述分离信号。
【专利摘要】本发明公开了包括低延时声源分离单元的听力装置,其包括:输入单元;适合保存最后A个音频样本的循环分析缓冲器单元;及适合保存最后L个音频样本的循环合成缓冲器单元;已保存记录的声音例子的数据库,每一记录的声音例子称为原子,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠,源自第一缓冲器的原子构成重构字典,源自第二缓冲器的原子构成分析字典;声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号,所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示,及通过使用最佳表示组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。
【IPC分类】G10L21/0272, G10L21/028
【公开号】CN105489227
【申请号】CN201510646998
【发明人】T·巴克尔, T·维塔雷恩, N·H·彭托皮丹
【申请人】奥迪康有限公司
【公开日】2016年4月13日
【申请日】2015年10月8日
【公告号】EP3007467A1, US20160099008