融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

xiaoxiao2021-2-25  413

融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
【技术领域】
[0001] 本发明设及互联网信息技术领域,尤其设及融合多视图和半监督学习的捜索引擎 用户信息需求满意度评估方法。
【背景技术】
[0002] 随着知识经济与信息化建设的高速发展,网络信息数据规模急速膨胀,海量信息 资源在丰富人们信息来源的同时,也给人们获取信息造成了困扰,而捜索引擎凭借日趋精 准化、人性化的信息检索服务成为用户访问万维网查找和获取资源信息的主要工具之一。 同时,捜索引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信息需求和高 效方便获取信息资源的要求。因此,如何向用户提供优质的捜索服务,帮助用户快速准确地 定位所需的信息资源,从而吸引更多用户使用,一直是商用捜索引擎公司所关注的重点。
[0003] 传统的捜索引擎质量评价指标如前η位准确率(Precision at η,[email protected])、平均准确 率(Mean Average Precision,MAP)、标准化折扣累计回报(normalize Discounted Cumulative Gain,nDCG)等需要使用大量的人工标注数据评价捜索引擎的性能,但是运种 人工标注需要消耗大量的人力和时间资源,难W大规模地实时开展。半监督学习能够使评 价方法自动对大量未标注数据进行利用W辅助少量标注数据学习,然而传统的半监督学习 方法大多是基于单视图的,即简单地把数据中所有的子属性集组合成一个单一的属性集, 忽略了每个子属性所拥有的独特的统计学上的性质,而且在训练数据极其稀少的情况下容 易陷入局部最优。

【发明内容】

[0004] 本发明为克服上述的不足之处,目的在于提供融合多视图和半监督学习的捜索引 擎用户信息需求满意度评估方法,该方法包括数据预处理、训练子视图满意度模型、对未标 注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估等部分,本方 法可W在少量的标注数据的情况下,有效地评估捜索引擎用户信息需求满意度;可W通过 使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能。
[0005] 本发明通过W下技术方案达到上述目的:融合多视图和半监督学习的捜索引擎用 户信息需求满意度评估方法,包括如下步骤:
[0006] (1)将捜索引擎日志数据分为行为视图数据与时间视图数据,其中捜索引擎日志 数据包括标注数据与未标注数据两类,并对行为视图数据与时间视图数据作预处理;
[0007] (2)对预处理后的数据训练得到基于行为视图的满意度模型与基于时间视图的满 意度模型;
[000引(3)利用基于行为视图的满意度模型与基于时间视图的满意度模型对未标注数据 分配伪标签;
[0009] (4)利用基于行为视图的满意度模型与基于时间视图的满意度模型,结合带有伪 标签的未标注数据训练基于多视图和半监督学习的用户满意度模型;
[0010] (5)通过基于多视图和半监督学习的用户满意度模型计算得到信息需求的生成概 率,输出概率最大的类作为输出的最终分类结果。
[0011] 作为优选,所述步骤(1)对视图数据与时间视图数据作预处理包括:对捜索引擎日 志数据内的标注数据所分出的行为视图数据与时间视图数据按照满意度标签分为满意行 为视图数据和不满意行为视图数据,满意时间视图数据和不满意时间视图数据两部分;对 捜索引擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据处理得到评估 数据。
[0012] 作为优选,所述步骤(2)的基于行为视图的满意度模型包括基于行为视图的满意 模型与基于行为视图的不满意模型,训练基于行为视图的满意模型与训练基于行为视图的 不满意模型的方法类似,其中,训练基于行为视图的满意模型的方法步骤如下:
[0013] 1)W-个信息需求为单位读取经过标注数据预处理的满意行为视图数据;如果所 读数据是一个完整的信息需求,则进入步骤2);如果所读数据不是一个完整的信息需求,贝U 继续读取下一个数据;
[0014] 2)统计已读信息需求出现的行为的类型曰1及该类型行为出现的次数统计已 读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
[0015] 3)利用最大似然估计计算两个行为曰1和aj之间的转移概率;用拉普拉斯平滑处理 由于数据稀疏而产生的零概率问题,处理公式如下:
[0016]
[0017] 其中,α>〇是平滑参数,I VI是用户在使用捜索引擎过程中可能出现的行为类型数 量;
[0018] 4)输出满意模型的用户行为转移概率矩阵。
[0019] 作为优选,所述步骤(2)的基于时间视图的满意度模型包括基于时间视图的满意 模型与基于时间视图的不满意模型,训练基于时间视图的满意模型与训练基于时间视图的 不满意模型的方法类似,其中,训练基于时间视图的满意模型的方法步骤如下:
[0020] (i)W-个信息需求为单位读取经过标注数据预处理的满意时间视图数据;如果 所读数据是一个完整的信息需求,则进入步骤(ii);如果所读数据不是一个完整的信息需 求,则继续读取下一个数据;
[0021 ] (i i)统计每个行为转移的停留时间;
[0022] (iii)利用Gamma分布对行为转移的停留时间建立概率模型:
[0023]
[0024] 其中,k是尺度参数,Θ是形状参数,X是一个行为转移,且X,k,Θ > 0;
[0025] (iv)输出每个行为转移的尺度参数和形状参数。
[0026] 作为优选,所述步骤(3)利用基于行为视图的满意度模型对未标注数据分配伪标 签的步骤如下:
[0027] (A)读取两个基于行为视图的用户满意度模型的行为转移概率矩阵;
[0028] (B)W -个信息需求为单位读取预处理后的未标注数据产生的行为视图数据;如 果所读数据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需 求,则继续读取下一个数据;
[0029] (C)对于一个包含η个行为的信息需求S = <ai,…,日1-1,日1,-',日。〉,结合行为转移概 率矩阵计算得到从模型中生成此信息需求S的概率为:
[0030]
[0031] 其中,Co表示不满意的类,Cl表示满意的类;
[0032] 计算得到最大似然估计为:
[0033]
[0034] 其中,P(C)表示类C的先验概率;
[0035] (D)计算并获取似然估计值最大的类作为当前信息需求的伪分类结果,同时给当 前信息需求分配伪标签,其中计算公式如下所示:
[0036]
[0037] 作为优选,所述步骤(3)利用基于时间视图的满意度模型对未标注数据分配伪标 签的方法与利用基于行为视图的满意度模型对未标注数据分配伪标签的方法类似。
[0038] 作为优选,所述步骤(4)训练基于多视图和半监督学习的用户满意度模型的步骤 如下:
[0039] (I)W-个信息需求为单位读取预处理后标注数据的行为视图数据;
[0040] (II)基于步骤(1)的行为视图数据训练基于行为视图的满意模型和不满意模型;
[0041] (III)利用基于行为视图的满意模型和不满意模型对预处理后的未标注数据分配 伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
[0042] (IV)对得到的新标注数据集作标注数据预处理,并W-个信息需求为单位读取预 处理后标注数据集中的时间视图数据;
[0043] (V)基于步骤(IV)得到的时间视图数据训练基于时间视图的满意模型和不满意模 型;
[0044] (VI)检查比较当前得到的基于行为视图的用户满意度模型与步骤(2)得到的基于 行为视图的用户满意度模型是否相同,如果相同则执行步骤(VII),如果不同则执行步骤 (VIII);
[0045] (VII)检查当前得到的基于时间视图的用户满意度模型与步骤(2)得到的基于时 间视图的用户满意度模型是否相同,如果相同则执行步骤(X),如果不同则执行步骤 (VIII);
[0046] (VIII)根据步骤(V)得出的模型对经过未标注数据预处理的未标注数据分配伪标 签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
[0047] (IX)对步骤(VIII)得到的新标注数据集来做标注数据预处理,并W-个信息需求 为单位读取该标注数据集中的行为视图数据;
[004引(X)输出基于行为视图的满意模型和不满意模型,输出基于时间视图的满意模型 和不满意模型。
[0049] 作为优选,所述步骤(5)得到最终分类结果的方法步骤如下:
[0050] (a)通过基于多视图和半监督学习的用户满意度模型得到基于行为视图的用户满 意度模型和基于时间视图的用户满意度模型;
[0051 ] (b) W-个信息需求为单位读取经过未标注数据预处理的评估数据;如果所读数 据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需求,则继 续读取下一个数据;
[0化2] (C)分别计算当前信息需求在基于行为视图的满意模型中生成的概率P/i和基于 行为视图的不满意模型中生成的概率分别计算当前信息需求在基于时间视图的满意 模型中生成的概率ifs和基于时间视图的不满意模型中生成的概率P之 [0化3] (d)由
计算得到在满意模型中生成的概率
在不满 意模型中生成的概聋
并在二者中取概率最大的类作为最终分类结果,即:
[0化4]
[0055] 最后输出当前信息需求的最终分类结果。
[0056] 本发明的有益效果在于:(1)可W在少量的标注数据的情况下,有效地评估捜索引 擎用户信息需求满意度;(2)可W通过使用少量标注数据和大量未标注数据来提高用户满 意度模型评估性能;(3)分别从行为和时间的角度来描述用户的捜索过程,通过相互学习来 避免模型陷入局部最优。
【附图说明】
[0057] 图1是本发明方法的流程示意图;
[0058] 图2是本发明标注数据预处理的流程示意图;
[0059] 图3是本发明未标注数据预处理的流程示意图;
[0060] 图4是本发明训练基于行为视图的用户满意度模型示意图;
[0061] 图5是本发明训练基于时间视图的用户满意度模型示意图;
[0062] 图6是本发明基于行为视图的满意度模型对未标注数据分配伪标签流程示意图;
[0063] 图7是本发明基于时间视图的满意度模型对未标注数据分配伪标签流程示意图;
[0064] 图8是本发明训练融合多视图和半监督学习的用户满意度模型流程图;
[0065] 图9是本发明评估用户满意度流程图。
【具体实施方式】
[0066] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于 此:
[0067] 实施例:如图1所示,融合多视图和半监督学习的捜索引擎用户信息需求满意度评 估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练 基于多视图和半监督学习的用户满意度模型和评估六个阶段。
[0068] 数据预处理阶段包括标注数据预处理和未标注数据预处理两个子阶段:
[0069] 标注数据预处理阶段的流程图如图2所示,主要包括W下步骤:
[0070] 步骤1,把捜索引擎日志数据分为行为视图数据和时间视图数据。行为视图数据从 用户捜索行为之间的转移来描述用户的捜索过程,包括信息需求、捜索行为和满意度Ξ列 数据;时间视图数据从用户停留在某个捜索行为的时间来描述用户的捜索过程,包括信息 需求、捜索行为、停留时间和满意度四列数据;
[0071] 步骤2,把行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视 图数据两部分;
[0072] 步骤3,把时间视图数据按照满意度标签分为满意时间视图数据和不满意时间视 图数据两部分。
[0073] 未标注数据预处理阶段的流程图如图3所示,把捜索引擎日志数据分为行为视图 数据和时间视图数据。行为视图数据从用户捜索行为之间的转移来描述用户的捜索过程, 包括信息需求和捜索行为两列数据;时间视图数据从用户停留在某个捜索行为的时间来描 述用户的捜索过程,包括信息需求、捜索行为和停留时间Ξ列数据。
[0074] 训练子视图满意度模型阶段包括训练基于行为视图的满意模型、训练基于行为视 图的不满意模型、训练基于时间视图的满意模型和训练基于时间视图的不满意模型四个子 阶段:
[0075] 训练基于行为视图的满意模型阶段的流程图如图4所示,主要包括W下步骤:
[0076] 步骤1,读取经过标注数据预处理的满意行为视图数据;
[0077] 步骤2, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0078] 步骤3,统计已读信息需求出现的行为的类型曰1及该类型行为出现的次数统 计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
[0079] 步骤4,计算行为转移概率。每个信息需求都可W简单的表示成一个基于用户行为 的马尔可夫模型;马尔可夫模型的状态空间是用户在捜索过程中可能出现的多种行为的集 合;用最大似然估计来计算两个行为曰1和^之间的转移概率,用拉普拉斯平滑来处理由于数 据稀疏而产生的零概率问题:
[0080]
(1)
[0081] α>〇是平滑参数,I VI是用户在使用捜索引擎过程中可能出现的行为类型数量。
[0082] 步骤5,输出满意模型的用户行为转移概率矩阵。
[0083] 训练基于行为视图的不满意模型与训练基于行为视图的满意模型类似,具体包括 W下步骤:
[0084] 步骤1,读取经过标注数据预处理的不满意行为视图数据;
[0085] 步骤2, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[00化]步骤3,统计已读信息需求出现的行为的类型曰1及该类型行为出现的次数巧y;统 计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
[0087] 步骤4,计算行为转移概率;
[0088] 步骤5,输出不满意模型的用户行为转移概率矩阵。
[0089] 训练基于时间视图的满意模型阶段的流程图如图5所示,主要包括W下步骤:
[0090] 步骤1,读取经过标注数据预处理的满意时间视图数据;
[0091] 步骤2, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0092] 步骤3,统计每个行为转移的停留时间;
[0093] 步骤4,用Gamma分布对行为转移的停留时间建立概率模型:
[0094]
(2)
[00M] k是尺度参数,Θ是形状参数,X是一个行为转移,且X,k,Θ >0 ;
[0096] 步骤5,输出每个行为转移的尺度参数和形状参数。
[0097] 训练基于时间视图的不满意模型和训练 基于时间视图的满意模型类似,具体包括 W下步骤:
[0098] 步骤1,读取经过标注数据预处理的不满意时间视图数据;
[0099] 步骤2, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0100] 步骤3,统计每个行为转移的停留时间;
[0101] 步骤4,计算每个行为转移停留时间的概率密度函数;
[0102] 步骤5,输出每个行为转移的尺度参数和形状参数。
[0103] 对未标注数据分配伪标签阶段包括基于行为视图的用户满意度模型对未标注数 据分配伪标签和基于时间视图的用户满意度模型对未标注数据分配伪标签流程图两个子 阶段:
[0104] 基于行为视图的用户满意度模型对未标注数据分配伪标签阶段的流程图如图6所 示,主要包括W下步骤:
[0105] 步骤1,读取两个基于行为视图用户满意度模型的行为转移概率矩阵;
[0106] 步骤2,读取经过未标注数据预处理的未标注行为视图数据;
[0107] 步骤3, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0108] 步骤4,计算最大似然估计。给定一个基于行为视图的用户满意度模型和一个包含 η个行为的信息需求S = <ai,…,日1-1,日1,…,an〉,则从该模型中生成运个信息需求S的概率 是:
[0109]
(3)
[0110] Co表示不满意的类,Cl表示满意的类。
[0111] 最大似然估计为:
[0112]
(4)
[0113] P(C)表示类C的先验概率;
[0114] 步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息需求的伪分类结 果,即:
[0115]
[0116] 步骤6,给当前信息需求分配伪标签。
[0117] 基于时间视图的用户满意度模型对未标注数据分配伪标签阶段的流程图如图7所 示,主要包括W下步骤:
[0118] 步骤1,读取两个基于时间视图用户满意度模型的停留时间概率密度函数;
[0119] 步骤2,读取经过未标注数据预处理的未标注时间视图数据;
[0120] 步骤3, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0121] 步骤4,计算最大似然估计。给定一个基于时间视图的用户满意度模型和一个包含 η个行为的信息需求S,则从该模型中生成运个信息需求S的最大似然估计为:
[0122]
(6)
[0123] 「化i,0i,C)表示在类C中,信息需求S出现的第i次行为转移停留时间的概率密度 函数,m表示S中出现行为转移的次数。
[0124] 步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息需求的伪分类结 果,即:
[0125]
[01%]步骤6,给当前信息需求分配伪标签。
[0127] 训练基于多视图和半监督学习的用户满意度模型阶段的流程图如图8所示,主要 包括W下步骤:
[0128] 步骤1,W-个信息需求为单位来读取经过标注数据预处理的行为视图数据;
[0129] 步骤2,训练基于行为视图的满意模型和不满意模型;
[0130] 步骤3,根据步骤2得出的模型对经过未标注数据预处理的未标注数据分配伪标 签;
[0131] 步骤4,将带有伪标签的未标注数据与原始的标注数据整合成新的标注数据集;
[0132] 步骤5,对步骤4得到的新标注数据集来做标注数据预处理,并W -个信息需求为 单位读取该标注数据集中的时间视图数据;
[0133] 步骤6,训练基于时间视图的满意模型和不满意模型;
[0134] 步骤7,检查当前得到的基于行为视图的用户满意度模型与前一次得到的基于行 为视图的用户满意度模型是否相同,如果相同则执行步骤8,如果不同则执行步骤9;
[0135] 步骤8,检查当前得到的基于时间视图的用户满意度模型与前一次得到的基于时 间视图的用户满意度模型是否相同,如果相同则执行步骤12,,如果不同则执行步骤9;
[0136] 步骤9,根据步骤6得出的模型对经过未标注数据预处理的未标注数据分配伪标 签;
[0137] 步骤10,将带有伪标签的未标注数据与原始的标注数据整合成新的标注数据集;
[0138] 步骤11,对步骤10得到的新标注数据集来做标注数据预处理,并W-个信息需求 为单位读取该标注数据集中的行为视图数据;
[0139] 步骤12,输出基于行为视图的满意模型和不满意模型;
[0140] 步骤13,输出基于时间视图的满意模型和不满意模型;
[0141] 评估阶段的流程图如图9所示,主要包括W下步骤:
[0142] 步骤1,读取在训练基于多视图和半监督学习的用户满意度模型阶段得到的基于 行为视图和时间视图的用户满意度模型;
[0143] 步骤2,读取经过未标注数据预处理的评估数据;
[0144] 步骤3, W-个信息需求为单位来读取数据。如果所读数据是一个完整的信息需 求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
[0145] 步骤4,计算当前信息需求分别从基于行为视图的满意模型中生成的概率P/i和基 于行为视图的不满意模型中生成的概率
[0146] 步骤5,计算当前信息需求分别从基于时间视图的满意模型中生成的概率和基 于时间视图的不满意模型中生成的概率P/e.
[0147] 步骤6,计算当前信息需求的最终分类结果。将该信息需求从基于行为视图和基于 时间视图的满意模型生成的概率相乘得到该信息需求从满意模型中生成的概率?产X ifs 将该信息需求从基于行为视图和基于时间视图的不满意模型生成的概率相乘得到该信息 需求从满意模型中生成的概率<^/6 Xifs,取得到生成概率最大的类作为最终分类结果,即:
[0148]
(8)
[0149] 步骤7,输出当前信息需求的最终分类结果。
[0150] 综上所述,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来 提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方 法容易陷入局部最优的问题。本发明使用用户满意度作为捜索引擎质量的评价指标,基于 网络捜索引擎的查询日志,引入用户行为模型,定义两个视图来描述用户的捜索过程,即行 为视图和时间视图。使用两个视图的少量标注数据分别建立基于行为视图的用户满意度模 型和基于时间视图的用户满意度模型,运两个视图的模型在向未标注数据分配伪标签的过 程中不断更新,相互学习,直至两个视图的模型都收敛,用得到的两个视图的模型来评估用 户的满意程度。
[0151] W上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所 作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的 保护犯i围。
【主权项】
1. 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于, 包括如下步骤: (1) 将搜索引擎日志数据分为行为视图数据与时间视图数据,其中搜索引擎日志数据 包括标注数据与未标注数据两类,并对行为视图数据与时间视图数据作预处理; (2) 对预处理后的数据训练得到基于行为视图的满意度模型与基于时间视图的满意度 丰旲型; (3) 利用基于行 为视图的满意度模型与基于时间视图的满意度模型对未标注数据分配 伪标签; (4) 利用基于行为视图的满意度模型与基于时间视图的满意度模型,结合带有伪标签 的未标注数据训练基于多视图和半监督学习的用户满意度模型; (5) 通过基于多视图和半监督学习的用户满意度模型计算得到信息需求的生成概率, 输出概率最大的类作为输出的最终分类结果。2. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(1)对视图数据与时间视图数据作预处理包括:对搜索引擎 日志数据内的标注数据所分出的行为视图数据与时间视图数据按照满意度标签分为满意 行为视图数据和不满意行为视图数据,满意时间视图数据和不满意时间视图数据两部分; 对搜索引擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据处理得到评 估数据。3. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(2)的基于行为视图的满意度模型包括基于行为视图的满意 模型与基于行为视图的不满意模型,训练基于行为视图的满意模型与训练基于行为视图的 不满意模型的方法类似,其中,训练基于行为视图的满意模型的方法步骤如下: 1) 以一个信息需求为单位读取经过标注数据预处理的满意行为视图数据;如果所读数 据是一个完整的信息需求,则进入步骤2);如果所读数据不是一个完整的信息需求,则继续 读取下一个数据; 2) 统计已读信息需求出现的行为的类型&1及该类型行为出现的次数统计已读信 息需求出现的行为转移的类型(&1,^)及该行为转移出现的次数' 3) 利用最大似然估计计算两个行为&1和^之间的转移概率;用拉普拉斯平滑处理由于 数据稀疏而产生的零概率问题,处理公式如下:其中,α>0是平滑参数,I Vl是用户在使用搜索引擎过程中可能出现的行为类型数量; 4) 输出满意模型的用户行为转移概率矩阵。4. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(2)的基于时间视图的满意度模型包括基于时间视图的满意 模型与基于时间视图的不满意模型,训练基于时间视图的满意模型与训练基于时间视图的 不满意模型的方法类似,其中,训练基于时间视图的满意模型的方法步骤如下: (i)以一个信息需求为单位读取经过标注数据预处理的满意时间视图数据;如果所读 数据是一个完整的信息需求,则进入步骤(ii);如果所读数据不是一个完整的信息需求,则 继续读取下一个数据; (i i)统计每个行为转移的停留时间; (i i i)利用Ga_a分布对行为转移的停留时间建立概率模型:其中,k是尺度参数,Θ是形状参数,X是一个行为转移,且X,k,Θ > 〇; (iv)输出每个行为转移的尺度参数和形状参数。5. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(3)利用基于行为视图的满意度模型对未标注数据分配伪标 签的步骤如下: (A) 读取两个基于行为视图的用户满意度模型的行为转移概率矩阵; (B) 以一个信息需求为单位读取预处理后的未标注数据产生的行为视图数据;如果所 读数据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需求, 则继续读取下一个数据; (C) 对于一个包含η个行为的信息需求S =〈ai,. . .,ai-i,ai,. . .,an>,结合行为转移概率 矩阵计算得到从模型中生成此信息需求S的概率为:其中,Co表示不满意的类,&表示满意的类; 计算得到最大似然估计为:其中,P(C)表示类C的先验概率; (D) 计算并获取似然估计值最大的类作为当前信息需求的伪分类结果,同时给当前信 息需求分配伪标签,其中计算公式如下所示:6. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(3)利用基于时间视图的满意度模型对未标注数据分配伪标 签的方法与利用基于行为视图的满意度模型对未标注数据分配伪标签的方法类似。7. 根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(4)训练基于多视图和半监督学习的用户满意度模型的步骤 如下: (I) 以一个信息需求为单位读取预处理后标注数据的行为视图数据; (II) 基于步骤(1)的行为视图数据训练基于行为视图的满意模型和不满意模型; (III) 利用基于行为视图的满意模型和不满意模型对预处理后的未标注数据分配伪标 签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集; (IV) 对得到的新标注数据集作标注数据预处理,并以一个信息需求为单位读取预处理 后标注数据集中的时间视图数据; (V) 基于步骤(IV)得到的时间视图数据训练基于时间视图的满意模型和不满意模型; (VI) 检查比较当前得到的基于行为视图的用户满意度模型与步骤(2)得到的基于行为 视图的用户满意度模型是否相同,如果相同则执行步骤(VII),如果不同则执行步骤 (VIII); (VII) 检查当前得到的基于时间视图的用户满意度模型与步骤(2)得到的基于时间视 图的用户满意度模型是否相同,如果相同则执行步骤(X),如果不同则执行步骤(VIII); (VIII) 根据步骤(V)得出的模型对经过未标注数据预处理的未标注数据分配伪标签; 并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集; (IX) 对步骤(VIII)得到的新标注数据集来做标注数据预处理,并以一个信息需求为单 位读取该标注数据集中的行为视图数据; (X) 输出基于行为视图的满意模型和不满意模型,输出基于时间视图的满意模型和不 满意模型。8.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法,其特征在于:所述步骤(5)得到最终分类结果的方法步骤如下: (a) 通过基于多视图和半监督学习的用户满意度模型得到基于行为视图的用户满意度 模型和基于时间视图的用户满意度模型; (b) 以一个信息需求为单位读取经过未标注数据预处理的评估数据;如果所读数据是 一个完整的信息需求,则进入步骤(c);如果所读数据不是一个完整的信息需求,则继续读 取下一个数据; (c) 分别计算当前信息需求在基于行为视图的满意模型中生成的概率和基于行为 视图的不满意模型中生成的概率分别计算当前信息需求在基于时间视图的满意模型 中生成的概率和基于时间视图的不满意模型中生成的概率if*; (d) 由:计算得到在满意模型中生成的概率在不满意模型 中生成的概率,并在二者中取概率最大的类作为最终分类结果,即:最后输出当前信息需求的最终分类结果。
【专利摘要】本发明涉及融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估六个阶段,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。有益效果在于:(1)可以在少量的标注数据的情况下,有效地评估搜索引擎的用户信息需求满意度;(2)可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模型陷入局部最优。
【IPC分类】G06F17/30, G06K9/62
【公开号】CN105488522
【申请号】CN201510824301
【发明人】吴勇, 季海琦, 陈岭, 范阿琳
【申请人】浙江鸿程计算机系统有限公司
【公开日】2016年4月13日
【申请日】2015年11月23日

最新回复(0)