一种基于核函数的扩容样本筛选方法
【技术领域】
[0001] 本发明设及噪声源识别技术领域,具体设及一种基于核函数的扩容样本筛选方 法。
【背景技术】
[0002] 在船舶声学故障源识别实际应用中,由于实际典型试验故障样本的获取困难及昂 贵的试验成本,使其成为一个小样本噪声源识别问题。样本扩容是提高小样本条件下故障 源识别率的一个有效方法。通常将通过了一致性检验的全部扩容样本集直接应用于分类器 训练,然而分类器系统的准确性并不是随扩容样本数量线性增加的。未对扩容样本质量进 行评价控制带来的问题是:劣质的扩容样本信息可能会"对冲"真实样本信息,即出现"信息 对冲"现象,导致分类器识别性能下降。因此,如何对样本可信度进行评价W筛选出高质量 的扩容样本是提高噪声源识别率关键性的问题。
[0003] 目前关于可信度的研究主要是针对仿真模型的校验、验证和确认(简称"W&A")方 面。在面向仿真试验数据的可信度研究方面,使用广泛的一类数据可信度度量方法是W - 致性检验为基础的,在一定显著水平下,利用Bayes公式对通过一致性检验的数据计算其信 度,但该方法存在待定参数计算复杂等不足。基于信息散度的可信度度量方法是通过先验 分布与实际试验样本分布的差异进行信息散度计算,适用于已知样本分布的情形,否则需 计算样本的分布函数,运将增加算法的复杂度,同时还会引入计算误差。
[0004] 船舶声学故障源样本是一个高维的时间序列,且其分布函数难W确定。若采用上 述方法来度量样本可信度,除须克服上述方法自身的不足外,还将会面临"维数灾难"。若采 用降维处理将高维数据变换到低维的特征空间中,运将容易损失一些有用的特征信息,对 于小样本数据更是如此。
[000引核函数方法具有有效处理高维输入的特性,可将m维高维空间的内积运算转化为η 维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的"维数灾难"等 问题,因此在实践中得到了越来越广泛的应用。因此,如何将运一方法应用到小样本情况下 噪声源识别中,W提高噪声源识别率也就成为研究热点之一。
【发明内容】
[0006] 本发明的目的是提供一种基于核函数的扩容样本筛选方法化肥SS方法),利用核 函数方法对大量的扩容样本进行自动筛选,筛选出与真实样本尽可能相似的扩容样本参与 识别训练,实现训练集的高效扩容,W提高小样本条件下噪声源识别正确率。
[0007] 为了实现上述目的,本发明采用的技术方案如下:
[0008] -种基于核函数的扩容样本筛选方法,利用核函数可有效处理高维输入的特性筛 选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本集,首先通过 相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已通过检验的扩 容样本计算其可信度;进一步W最小化紧致度为目标进行核参数选择,利用梯度下降算法, 通过逐次迭代的方法,更新核函数中的核参数,w保证每次迭代后样本集紧致度的逐渐降 低,最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核函数;再次计算 最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序添加参与训练, 完成高度适合噪声源识别模型的扩容样本筛选过程。
[0009] 根据W上方案,所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在 高维特征空间中的最大均值差异。
[0010] 根据W上方案,所述扩容样本的可信度通过基于核函数的样本可信度度量方法 (邸CM方法)来度量。
[0011] 根据W上方案,包括如下具体步骤:
[001引假设真实样本集和扩容样本集分别为X={xi,x2,. . .,xm}和Y={yi,y2,. . .,yN},其 中和捉.e巧d,对定义在空间巧d上的径向基核函数K(x,y)二6邱(-0| |x-y| I2),存在核非线 性映射Φ :识4 ^ Η,初选核参数0,将X和巧自线性映射到高维特征空间中,分别得到特征向 量Φ(χ04 = 1,2,...,Μ和 Φ (yj),j = l,2,. . .,Ν;
[0013] (1)通过相容性检验初步筛选扩容样本:
[0014] a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
[0015] MMD[F,x,y]= I |E[ Φ (χ)]-Ε[ Φ (y)] | |η
[0016] 其中,Ε( ·)为函数期望值;Η为核特征空间;Φ( ·)为原函数在特征空间中的达 式;
[0017] b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集Υ' ={yi,y2, . . .,ynew};
[0018] (2)度量初步筛选后扩容样本可信度:
[0019] 通过基于核函数的样本可信度度量方法计算新扩容样本集r的可信度qj:
[0020]
[0021]其中,W为扩容样本可信度;Μ为真实样本集所含样本数量;
[00对 (3) W最小化紧致度为目标,调整核参数:
[0023] 曰、按照可信度大小对¥/中各样本进行重排,得到¥/。={71。,72。,...,7。6邮},其中91。 >Q2。含...含qnew。,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Ζ= 1X1, Χ2, · · · ,XM,yi日,y2日,· · · ,yL口};
[0024] b、计算数据集Z的紧致度c(〇):
[0025]
[0026] 其中,V为数据集Z的中屯、
;
[0027] C、为了求解紧致度最小时所对应的核参数〇k,通过采用梯度下降的方法来对核参 数进行逐步的调整,即:
[002引
[0029] 其中η为迭代次数;εη为每一步的迭代步长;On为第η次迭代后的核参数;
[0030] (4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数 0 k及按照可信度大小重排后得到的扩容样本集=从&,於。,其中 (/k, 三'…;
[0031] (5)选取可信度较高的前X个扩容样本形成最终扩容样本集 取《/ =扣。,...,把。,},正序添加参与训练,完成扩容样本筛选过程。
[0032] 所述扩容样本化xpended Sample)是指在特征参数选择的基础上,综合集成并有 效利用已有的相关先验信息(各类历史数据、专家知识、研究对象结构特性等),并将其转化 为虚拟样本,实现对已有小样本训练集的合理扩容所得扩容样本。
[0033] 所述核函数(Kernel Function)为:设原始空间样本集Z= {zi, Z2,...,zl}, 诉",对定义在空间飛3上的核函数κ(.,.),存在核非线性映射φ ,将原始 空间奶叫央射到一个高维特征空间Η中,得到特征向量Φ (Zi),i = l,2,...,L。原始空间中任 意两点的内积Zi · zj被映射为特征向量的内积Φ (Zi) · Φ (zj),该内积可利用核函数K (·,·)来计算,即Φ(Ζι) · Φ佔)=K(Zi,Zj)。核函数可W有效处理高维输入。常用的核函 数有:(1)径向基(RBF)核函数 k(x,y)=e 邱(-| |x-y| |2/2 丫);(2)Sigmoid 核函数 k(x,y) = tanh(axV+0); (3)多项式核函数k(x,y) = (xV+i)d,deN;其中丫,a,0,d分别为参数。
[0034] 所述梯度下降算法(Gradient Descent Algorithm)为:一种用于求解函数无约束 极值问题的基本算法,它选择函数的负梯度方向(最速下降方向)作为迭代时的捜索方向。 [00 3引本发明的有益效果是:
[0036] 1)本发明利用核函数可有效处理高维输入的特点,通过相容性检验、可信度度量、 核参数优选等步骤筛选出高效扩容样本,有效度量扩容样本的可信度,并正确指导分类器 中训练样本的选择,能有效改善小样本情况下噪声源识别正确率;
[0037] 2)本发明可指导扩容样本容量选择,避免过多的扩容样本信息对真实样本信息造 成"信息对冲"现象。
【附图说明】
[
0038]图1是本发明的流程不意图;
[0039] 图2是本发明的试验评价结果示意图。
【具体实施方式】
[0040] 下面结合附图与实施例对本发明的技术方案进行说明。
[0041] 本发明提供一种基于核函数的扩容样本筛选方法,包括如下具体步骤:
[0042] 假设真实样本集和扩容样本集分别为X={xi,x2,. . .,XM巧日Y={yi,y2,. . .,yN},其 中Λ-,,.ν,Ε巧y,;对定义在空间汲d上的径向基核函数K(x,y)=e邱(-〇Mx-y||2),存在核非线 性映射Φ :纸W ^拭,初选核参数0,将X和巧自线性映射到高维特征空间中,分别得到特征向 量Φ(χ〇4 = 1,2,...,M和 Φ (yj),j = l,2,. . .,N;
[0043] (1)通过相容性检验初步筛选扩容样本:
[0044] a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
[0045] MMD[F,x,y]=| |E[ Φ (x)]-E[ Φ (y)] | |h
[0046] 其中,E( ·)为函数期望值;Η为核特征空间;Φ( ·)为原函数在特征空间中的达 式;所述MMD方法指基于核函数的最大均值差异相容性检验方法。
[0047] b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集γ/ ={yi,y2, . . .,ynew};
[0048] (2)度量初步筛选后扩容样本可信度:
[0049] 通过基于核函数的样本可信度度量方法计算新扩容样本集r的可信度qj:
[0050]
[0051 ]其中,qj为扩容样本可信度;Μ为真实样本集所含样本数量;
[0052] (3) W最小化紧致度为目标,调整核参数:
[0053] 曰、按照可信度大小对r中各样本进行重排,得到r 〇={yi〇,y2。,. . .,ynew。},其中qi。 >Q2。含...含qnew。,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z= 1X1, X2, . . . ,ΧΜ,Υ1σ,Υ2σ, . . . ,ΥΙσ};
[0054] b、计算数据集Ζ的紧致度c(〇):
[0057] C、为了求解紧致度最小时所对应的核参数〇k,通过采用梯度下降的方法来对核参 数进行逐步的调整,即:
[005引
[0059] 其中η为迭代次数;εη为每一步的迭代步长;On为第η次迭代后的核参数;
[0060] (4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数化及按 照可信度大小重排后得到的扩容样本集?1 =执。,.,少的,...,抗<-,},其中曲。13妃^3.:..>恥《巧;
[0061] (5)选取可信度较高的前X个扩容样本形成最终扩容样本集, 正序添加参与训练,完成扩容样本筛选过程。
[0062] 选用径向基核函数k(x,y) = e邱(-丫 Mx-y||2)设计试验来评价本发明的合理性 和有效性,识别正确率如图2所示。
[0063] 从试验结果来看,正序添加情况下的识别曲线远高于逆序添加和无扩容样本添加 运两种情况下的识别曲线,且当正序添加的扩容样本数为200时,分类器识别率达到最高 值。运证明了本发明能有效度量扩容样本的可信度,并正确指导分类器中训练样本的选择, 能有效改善小样本情况下噪声源识别正确率;进一步,本发明还可指导扩容样本容量选择, 避免过多的扩容样本信息对真实样本信息造成"信息对冲"现象。
[0064] W上实施例仅用W说明而非限制本发明的技术方案,尽管上述实施例对本发明进 行了详细说明,本领域的相关技术人员应当理解:可W对本发明进行修改或者同等替换,但 不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。
【主权项】
1. 一种基于核函数的扩容样本筛选方法,其特征在于,利用核函数可有效处理高维输 入的特性筛选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本 集,首先通过相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已 通过检验的扩容样本计算其可信度;进一步以最小化紧致度为目标进行核参数选择,利用 梯度下降算法,通过逐次迭代的方法,更新核函数中的核参数,以保证每次迭代后样本集紧 致度的逐渐降低,最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核 函数;再次计算最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序 添加参与训练,完成高度适合噪声源识别模型的扩容样本筛选过程。2. 根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,所述相容性检 验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。3. 根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,所述扩容样本 的可信度通过基于核函数的样本可信度度量方法来度量。4. 根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,包括如下具体 步骤: 假设真实样本集和扩容样本集分别为X= {χι,Χ2,. . .,xm}和Y= {yi,y2,. . .,yN},其中 ,对定义在空间妒上的径向基核函数K(x,y) = eXp(-〇| |x-y| I2),存在__性 映射Φ ,初选核参数〇,将X和Y非线性映射到高维特征空间中,分别得到特征向量 Φ (Xi),i = l,2, · · ·,Μ和 Φ (yj),j = l,2, · · ·,Ν; (1) 通过相容性检验初步筛选扩容样本: a、 通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即: MMD[F,x,y]= | |Ε[ Φ (χ)]-Ε[ Φ (y)] | |h 其中,E( ·)为函数期望值;H为核特征空间;Φ( ·)为原函数在特征空间中的达式; b、 将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集疒={yi,y2,. . .,ynew}; (2) 度量初步筛选后扩容样本可信度: 通过基于核函数的样本可信度度量方法计算新扩容样本集V的可信度qj:其中,qj为扩容样本可信度;M为真实样本集所含样本数量; (3) 以最小化紧致度为目标,调整核参数: a、 按照可信度大小对疒中各样本进行重排,得到疒。={yicj,y2。,. . .,ynew。},其中qi。》q2。 2 . . . 2 qnew。,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z= {X1, X2,... ,XM,yi〇,y2〇,... ,yl〇}; b、 计算数据集Z的紧致度c(〇):其中,V为数据集Z的中心,C、为了求解紧致度最小时所对应的核参数Ok,通过采用梯度下降的方法来对核参数进 行逐步的调整,即:其中η为迭代次数;εη为每一步的迭代步长;ση为第η次迭代后的核参数; (4) 对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数(?及按 照可信度大小重排后得到的扩容样本集(5) 选取可信度较高的前X个扩容样本形成最终扩容样本集正序添加参与训练,完成扩容样本筛选过程。
【专利摘要】本发明提供一种基于核函数的扩容样本筛选方法,包括利用MMD方法初步筛选出与真实样本相容的扩容样本;利用KBCM方法计算已通过相容性检验的扩容样本的可信度;计算可信度较高的扩容样本与真实样本的紧致度;以紧致度最小化为目标对核参数进行逐次的迭代调整,选择紧致度最小状态时对应的核系数为最优核参数;正序添加可信度较高的扩容样本参与识别训练,完成高度适合噪声源识别模型的扩容样本筛选过程。本发明利用核函数方法对大量的扩容样本进行自动筛选,筛选出与真实样本尽可能相似的扩容样本参与识别训练,实现训练集的高效扩容,以提高小样本条件下噪声源识别正确率。
【IPC分类】G06K9/62
【公开号】CN105488521
【申请号】CN201510823909
【发明人】章林柯, 魏娜, 李和君, 胡恒宾, 李大坤
【申请人】章林柯
【公开日】2016年4月13日
【申请日】2015年11月24日