本申请涉及数据处理,具体涉及一种词库更新方法、装置、存储介质及电子设备。
背景技术:
1、热词是当今热门事件的高度概括,一般而言,热词是与某个事件相关联的关键词,通过该热词可以快速地了解到当前热门事件的情况。比如,在信息与通信技术(information and communications technology,ict)领域,用户可以通过热词搜索到相关的资讯内容,可以使用户更快更方便的了解最近一段时间内的ict领域的热点信息。
2、热词推荐的核心在于不断的更新并完善词库,以保证热词推荐的及时性和准确性。然而,目前在词库更新的过程中往往需要加入较多的人工审核步骤,导致对网络上新近出现的热词反应较为滞后。
技术实现思路
1、本申请实施例提供了一种词库更新方法、装置、存储介质及电子设备,可以提高热词推荐的及时性。
2、第一方面,本申请实施例提供了一种词库更新方法,包括:
3、获取待处理文本源;
4、采用nlp技术从所述待处理文本源中提取目标热词;
5、利用神经网络模型对所述目标热词进行分类,并计算所述目标热词的第一权重值;
6、根据分类结果将所述目标热词与目标词库进行比对;
7、基于比对结果和所述第一权重值对所述目标词库进行更新。
8、在本申请实施例提供的词库更新方法中,所述基于比对结果和所述第一权重值对所述目标词库进行更新,包括:
9、根据比对结果和所述第一权重值确定所述目标热门词库的当前权重值;
10、根据所述当前权重值对所述目标词库进行排序,生成更新后的目标词库。
11、在本申请实施例提供的词库更新方法中,所述根据比对结果和所述第一权重值确定所述目标热门词库的当前权重值,包括:
12、若所述目标热词存在于所述目标词库中,则根据所述第一权重值对所述目标热词的第二权重值进行更新,生成所述目标热词的当前权重值;
13、若所述目标热词不存在于所述目标词库中,则将所述目标热词添加至所述目标词库中,并根据所述第一权重值为所述目标热词分配当前权重值。
14、在本申请实施例提供的词库更新方法中,所述采用nlp技术从所述待处理文本源中提取目标热词,包括:
15、利用nlp的分词工具对所述待处理文本源进行分词处理,得到若干词汇单元;
16、对若干所述词汇单元进行第一筛选,得到若干初级热词;
17、对若干所述初级热词进行第二筛选,得到目标热词。
18、在本申请实施例提供的词库更新方法中,所述对若干所述词汇单元进行第一筛选,得到若干初级热词,包括:
19、通过nlp的词频统计工具,统计每个所述词汇单元在所述待处理文本源中出现的频次;
20、基于所述频次从若干所述词汇单元中筛选出若干初级热词。
21、在本申请实施例提供的词库更新方法中,所述对若干所述初级热词进行第二筛选,得到目标热词,包括:
22、对若干所述初级热词进行语义分析,判断所述初级热词是否符合特定领域或行业的语境要求;
23、将符合所述语境要求的初级热词作为目标热词。
24、在本申请实施例提供的词库更新方法中,所述获取待处理文本源,包括:
25、利用定制爬虫从网页上获取待处理文本源。
26、第二方面,本申请实施例提供了一种词库更新装置,包括:
27、获取单元,用于获取待处理文本源;
28、提取单元,用于采用nlp技术从所述待处理文本源中提取目标热词;
29、分类单元,用于利用神经网络模型对所述目标热词进行分类,并计算所述目标热词的第一权重值;
30、比对单元,用于根据分类结果将所述目标热词与目标词库进行比对;
31、更新单元,用于基于比对结果和所述第一权重值对所述目标词库进行更新。
32、第三方面,本申请提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述任一项所述的词库更新方法。
33、第四方面,本申请提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任一项所述的词库更新方法。
34、综上所述,本申请实施例提供的词库更新方法包括获取待处理文本源;采用nlp技术从所述待处理文本源中提取目标热词;利用神经网络模型对所述目标热词进行分类,并计算所述目标热词的第一权重值;根据分类结果将所述目标热词与目标词库进行比对;基于比对结果和所述第一权重值对所述目标词库进行更新。本方案可以自动对词库进行更新,去除人工审核步骤,提高了词库更新效率,从而提高热词推荐的及时性。
1.一种词库更新方法,其特征在于,包括:
2.如权利要求1所述的词库更新方法,其特征在于,所述基于比对结果和所述第一权重值对所述目标词库进行更新,包括:
3.如权利要求2所述的词库更新方法,其特征在于,所述根据比对结果和所述第一权重值确定所述目标热门词库的当前权重值,包括:
4.如权利要求1所述的词库更新方法,其特征在于,所述采用nlp技术从所述待处理文本源中提取目标热词,包括:
5.如权利要求4所述的词库更新方法,其特征在于,所述对若干所述词汇单元进行第一筛选,得到若干初级热词,包括:
6.如权利要求4所述的词库更新方法,其特征在于,所述对若干所述初级热词进行第二筛选,得到目标热词,包括:
7.如权利要求1所述的词库更新方法,其特征在于,所述获取待处理文本源,包括:
8.一种词库更新装置,其特征在于,包括:
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-7任一项所述的词库更新方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的词库更新方法。