一种基于信息熵等值的扩容样本容量优化方法
【技术领域】
[0001] 本发明涉及样本容量优化控制方法领域,具体涉及一种基于信息熵等值的扩容样 本容量优化方法。
【背景技术】
[0002] 在工程应用中经常会遇到样本容量优化控制问题。张湘平等推导了样本容量、验 前信息以及Bayes决策风险三者关系式,以此确定导弹落点样本量。刘军等针对小样本情况 下辨识分类问题提出了基于相对熵最小的补充试验样本容量优化方法,通过样本容量优化 设计以提高辨识分类识别率,此外,Nyamundanda等为解决代谢组学研究中的实验次数优化 问题,提出了 Me t S i z eR方法。
[0003] 这些样本容量控制方法基本是针对一维样本或高维不相关样本展开优化设计,而 工程实际中大量样本是高维相关的时间序列,例如船舶声学故障源扩容样本,对于这类扩 容样本若没有合适的容量控制方法,将导致扩容样本信息过多从而与真实样本发生对冲, 造成分类器识别性能下降。
【发明内容】
[0004] 本发明的目的是提供一种基于信息熵等值的扩容样本容量优化方法,通过对高维 不相关样本的容量优化控制,指导扩容样本的正确选择,避免发生"信息对冲",提高小样本 条件下故障源识别率。
[0005] 为了实现上述目的,本发明采用的技术方案如下:
[0006] -种基于信息熵等值的扩容样本容量优化方法,在准确度量扩容样本可信度的基 础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采用信息熵来 度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与真实样本等 值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量。
[0007] 根据以上方案,所述扩容样本可信度的大小采用基于核函数的样本可信度度量方 法(KBCM方法)来度量,并且进行从大到小的排列。
[0008] 根据以上方案,所述基于核函数的样本可信度度量方法的计算公式为:
[0009]
[0010] 式中,qj:扩容样本可信度;K( ·,·):核函数表达式;M:真实样本集所含样本数 量。
[0011] 根据以上方案,包括如下具体步骤为:
[0012] (1)计算真实样本和扩容样本的概率密度分布:
[0013] a、计算真实样本的概率密度分布,气);
[0014] b、假设第k个扩容样本yk属于扩容样本子集YWk)),该子集对应的可信度为《〗,则 前k个扩容样本的融合概率密度分布为:
[0015]
[0016] 其中同可信度下扩容样本¥(^的服从概率分布TT2(>f,...jf);
[0017] (2)计筧直实样本的信息熇Ho:
[0018]
[0019] (3)使用基于核函数的样本可信度度量方法计算扩容样本可信度:
[0020]
[0021 ]将可信度按从大到小排列。
[0022] (4)对于排序后的前k个扩容样本yk,k=l,. . .,N,计算信息熵:
[0023] Μ,·.·.·.,ν+.1 ·/-.丄
η "' *·丄-丄
[0024] (5)按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差 值最小的优化样本量1Λ
[0025]
[0026] (6)根据优化样本量搜索结果确定参与训练的扩容样本。
[0027] KBCM方法的有优点在于可凸现数据特征差异、算法复杂度不受输入和特征空间维 数限制、可信度度量准确度高等。
[0028]本发明的有益效果是:
[0029]本发明结合样本可信度、概率密度分布和样本信息熵三者间的关系,设计容量控 制模型满足真实样本和扩容样本信息熵等值,从而实现样本的容量优化,指导扩容样本的 正确选择,避免发生"信息对冲",提高小样本条件下故障源识别率。
【附图说明】
[0030]图1是本发明的流程;意图。
【具体实施方式】
[0031] 下面结合附图与实施例对本发明的技术方案进行说明。
[0032] 本发明提供一种基于信息熵等值的扩容样本容量优化方法,包括如下具体步骤为 (如图1所示):
[0033] (1)计算真实样本和扩容样本的概率密度分布:
[0034] a、计算真实样本的概率密度分布%(弋,...,气);
[0035] b、假设第k个扩容样本yk属于扩容样本子集Y,该子集对应的可信度为ω j,则 前k个扩容样本的融合概率密度分布为:
[0036]
[0037] 其中同可信度下扩容样本Υω的服从概率分布巧..,?71);
[0038] (2)计算真实样本的信息熵Ho:
[0039]
[0040] (3)使用基于核函数的样本可信度度量方法计算扩容样本可信度:
[0041] ¥ /=1
ι-i κ=ι
[0042] 将可信度按从大到小排列。
[0043] (4)对于排序后的前k个扩容样本yk,k=l,. . .,N,计算信息熵:
[0044]
[0045] (5)按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差 值最小的优化样本量1Λ
[0046]
[0047] (6)根据优化样本量搜索结果确定参与训练的扩容样本。
[0048]将本发明应用于声学故障样本识别试验中分类器的识别性能。建模噪声源数据为 N维正态分布Ν(μΙ,Σ),真实噪声源样本由两类数据组成。根据本发明对样本量寻优,得出 当两类扩容样本数分别取Apt时,满足样本信息熵相差最小。据此选择不同组合的训练样 本来设计对比试验:
[0049] 试验1:15个真实样本
[0050] 试验2:15个真实样本+前/(./ =.1,2个扩容样本 [0051 ]试验3:15个真实样本+倒数1,2个扩容样本
[0052] 试验4:15个真实样本+前2/(./ = 1,2个扩容样本
[0053] 试验5:15个真实样本+前(/2,/ = 1,2个扩容样本
[0054]参与训练时分类器的识别正确率结果如表1所示。
[0055] 表1不同扩容样本参与训练时分类器的识别正确率
[0056]
[0057]通过表1可以看出,针对高维不相关样本的容量控制,考虑样本可信度因素的信息 熵等值容量优化方法(试验2)具有明显效果,能指导分类器选择合适数目的训练样本参与 训练,提尚故障识别正确率。
[0058]以上实施例仅用以说明而非限制本发明的技术方案,尽管上述实施例对本发明进 行了详细说明,本领域的相关技术人员应当理解:可以对本发明进行修改或者同等替换,但 不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。
【主权项】
1. 一种基于信息熵等值的扩容样本容量优化方法,其特征在于,在准确度量扩容样本 可信度的基础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采 用信息熵来度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与 真实样本等值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量。2. 根据权利要求1所述的基于信息熵等值的扩容样本容量优化方法,其特征在于,所述 扩容样本可信度的大小采用基于核函数的样本可信度度量方法来度量,并且进行从大到小 的排列。3. 根据权利要求2所述的基于信息熵等值的扩容样本容量优化方法,其特征在于,所述 基于核函数的样本可信度度量方法的计算公式为:式中,qj:扩容样本可信度;K( ·,·):核函数表达式;M:真实样本集所含样本数量。4. 根据权利要求1或2所述的基于信息熵等值的扩容样本容量优化方法,其特征在于, 包括如下具体步骤为: (1) 计算真实样本和扩容样本的概率密度分布: a、 计算真实样本的概率密度分布^(Xii,…,Xij); b、 假设第k个扩容样本yk属于扩容样本子集Y,该子集对应的可信度为ω τ,则前k个 扩容样本的融合概率密度分布为:其中同可信度下扩容样本¥~的服从概率分布(2) 计算真实样本的信息熵Ho:(3) 使用基于核函数的样本可信度度量方法计算扩容样本可信度:将可信度按从大到小排列。 (4) 对于排序后的前k个扩容样本yk,k=l,. . .,N,计算信息熵:(5) 按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差值最 小的优化样本量1Λ(6) 根据优化样本量搜索结果确定参与训练的扩容样本。
【专利摘要】本发明提供一种基于信息熵等值的扩容样本容量优化方法,在准确度量扩容样本可信度的基础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采用信息熵来度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与真实样本等值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量,最终达到提高故障识别率的目的。本发明通过对高维不相关样本的容量优化控制,指导扩容样本的正确选择,可避免发生“信息对冲”,提高小样本条件下故障源识别率。
【IPC分类】G06Q10/04
【公开号】CN105488585
【申请号】CN201510818372
【发明人】章林柯, 李和君, 魏娜, 胡恒宾, 李大坤
【申请人】武汉理工大学
【公开日】2016年4月13日
【申请日】2015年12月21日