本技术涉及自然语言处理,特别是涉及一种文本处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、在自然语言处理、数据分析和机器学习等领域,高质量的文本数据是关键要素之一,能够显著影响模型训练和系统性能。
2、传统技术中,对于文本的处理通常是采用关键词密度筛选等方法,从采样数据中筛选出低质量语料和广告语料。使用关键词密度筛选的效果依赖于分词结果,如果某个词组被切分成了两个部分,那么在做关键词提取时无法将它们合并。
3、因此,急需一种能够提高文本处理质量的文本处理方法。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高文本处理质量的文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供一种文本处理方法,所述方法包括:
3、获取待处理文本集合,所述待处理文本集合包括若干第一文本;
4、获取质量检测指标,并计算每一所述第一文本对应的所述质量检测指标的指标值;
5、获取文本过滤目标,并基于所述文本过滤目标确定各所述质量检测指标对应的初始过滤阈值;
6、获取所述质量检测指标对应的初始过滤阈值处的第二文本的文本质量;
7、基于所述质量检测指标与文本质量的相关关系以及所述第二文本的文本质量,调整所述初始过滤阈值,包括:在所述质量检测指标与所述文本质量的相关关系为正相关,且所述第二文本的文本质量高于质量阈值时,降低所述初始过滤阈值;在所述质量检测指标与所述文本质量的相关关系为负相关,且所述第二文本的文本质量高于质量阈值时,增加所述初始过滤阈值;
8、基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本。
9、在其中一个实施例中,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
10、对所述第三文本进行去重处理,得到第四文本;
11、其中所述去重处理包括以下至少一种:基于各所述第三文本的文本摘要进行去重处理;或基于各所述第三文本的各所述质量检测指标的指标值得到各所述第三文本对应的信息数组,基于所述信息数组对所述第三文本进行去重处理。
12、在其中一个实施例中,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
13、在所述第三文本的字符数大于模型目标字符处理量时,获取所述第三文本对应的文本结构类型;
14、确定所述文本结构类型对应的文本切分逻辑,基于所述文本切分逻辑对所述第三文本进行文本切分。
15、在其中一个实施例中,所述获取质量检测指标之前,还包括:
16、对所述第一文本进行模板识别,并基于识别得到的模板进行去重处理;
17、对去重处理后的所述第一文本进行文本结构类型识别,其中,所述文本结构类型包括有具有章节结构和不具有章节结构。
18、在其中一个实施例中,所述确定所述文本结构类型对应的文本切分逻辑,基于所述文本切分逻辑对所述第三文本进行文本切分,包括:
19、在所述文本结构类型为具有章节结构时,按照所述章节结构的顺序确定每一层文本;
20、在当前层的文本的字符数大于所述模型目标字符处理量时,继续按照所述章节结构的顺序对所述当前层的文本进行切分,直至所述当前层的文本的字符数小于或等于所述模型目标字符处理量时,切分结束。
21、在其中一个实施例中,所述方法还包括:
22、在所述文本结构类型为不具有章节结构时,或在到达所述章节结构的最小层,且所述最小层的文本的字符数大于所述模型目标字符处理量时,将所述第三文本或者所述最小层的文本作为待切分文本,确定各分隔符的第一顺序,并基于所述第一顺序得到当前分隔符;
23、基于所述当前分隔符对所述待切分文本进行切分得到当前切分文本;
24、在当前切分文本的字符数大于所述模型目标字符处理量时,基于各分隔符的第一顺序得到下一分隔符作为当前分隔符,并对当前切分文本继续切分,直至各切分后的所述当前切分文本的字符数小于或等于所述模型目标字符处理量,切分结束。
25、在其中一个实施例中,对所述待切分文本的切分方式包括:
26、基于待切分文本的字符数以及所述模型目标字符处理量确定切片数量;
27、基于所述切片数量以及所述待切分文本的字符数,得到切分文本长度;
28、基于所述切分文本长度,对所述待切分文本进行切分得到当前切分文本。
29、在其中一个实施例中,在其中一个实施例中,所述获取质量检测指标之前,还包括:
30、对所述第一文本进行格式转换,其中所述第一文本中的表格转换为markdown格式,公式转换为latex格式,且标记所述表格以及所述公式的起点和终点;
31、所述基于所述文本切分逻辑对所述第三文本进行文本切分,包括:
32、基于所述文本切分逻辑对所述表格或所述公式切分,且标记切分后的各所述表格以及所述公式的起点和终点,并在所述表格的切断位置处的后一切片标注表头以及续表标识,在所述公式的切断位置处的后一切片标注连续标识。
33、在其中一个实施例中,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
34、确定所述第三文本的文本类型;
35、基于所述文本类型对所述第三文本进行清洗。
36、第二方面,本技术还提供一种文本处理装置,所述装置包括:
37、待处理文本集合获取模块,用于获取待处理文本集合,所述待处理文本集合包括若干第一文本;
38、指标值计算模块,用于获取质量检测指标,并计算每一所述第一文本对应的所述质量检测指标的指标值;
39、初始过滤阈值确定模块,用于获取文本过滤目标,并基于所述文本过滤目标确定各所述质量检测指标对应的初始过滤阈值;
40、文本质量确定模块,用于获取所述质量检测指标对应的初始过滤阈值处的第二文本的文本质量;
41、阈值调整模块,用于基于所述质量检测指标与文本质量的相关关系以及所述第二文本的文本质量,调整所述初始过滤阈值;
42、过滤模块,用于基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本。
43、在其中一个实施例中,所述装置还包括:文本去重模块,用于对所述第三文本进行去重处理,得到第四文本;其中所述去重处理包括以下至少一种:基于各所述第三文本的文本摘要进行去重处理;或基于各所述第三文本的各所述质量检测指标的指标值得到各所述第三文本对应的信息数组,基于所述信息数组对所述第三文本进行去重处理。
44、在其中一个实施例中,所述装置还包括:文本切分模块,用于在所述第三文本的字符数大于模型目标字符处理量时,获取所述第三文本对应的文本结构类型;确定所述文本结构类型对应的文本切分逻辑,基于所述文本切分逻辑对所述第三文本进行文本切分。
45、在其中一个实施例中,所述装置还包括结构分类模块,用于对所述第一文本进行模板识别,并基于识别得到的模板进行去重处理;对去重处理后的所述第一文本进行文本结构类型识别,其中,所述文本结构类型包括有具有章节结构和不具有章节结构。
46、在其中一个实施例中,所述文本切分模块还用于在所述文本结构类型为具有章节结构时,按照所述章节结构的顺序确定每一层文本;在当前层的文本的字符数大于所述模型目标字符处理量时,继续按照所述章节结构的顺序对所述当前层的文本进行切分,直至所述当前层的文本的字符数小于或等于所述模型目标字符处理量时,切分结束。
47、在其中一个实施例中,所述文本切分模块还用于在所述文本结构类型为不具有章节结构时,或在到达所述章节结构的最小层,且所述最小层的文本的字符数大于所述模型目标字符处理量时,将所述第三文本或者所述最小层的文本作为待切分文本,确定各分隔符的第一顺序,并基于所述第一顺序得到当前分隔符;基于所述当前分隔符对所述待切分文本进行切分得到当前切分文本;在当前切分文本的字符数大于所述模型目标字符处理量时,基于各分隔符的第一顺序得到下一分隔符作为当前分隔符,并对当前切分文本继续切分,直至各切分后的所述当前切分文本的字符数小于或等于所述模型目标字符处理量,切分结束。
48、在其中一个实施例中,所述文本切分模块还用于基于待切分文本的字符数以及所述模型目标字符处理量确定切片数量;基于所述切片数量以及所述待切分文本的字符数,得到切分文本长度;基于所述切分文本长度,对所述待切分文本进行切分得到当前切分文本。
49、在其中一个实施例中,在其中一个实施例中,所述装置还包括:格式转换模块,用于对所述第一文本进行格式转换,其中所述第一文本中的表格转换为markdown格式,公式转换为latex格式,且标记所述表格以及所述公式的起点和终点;
50、所述文本切分模块还用于基于所述文本切分逻辑对所述表格或所述公式切分,且标记切分后的各所述表格以及所述公式的起点和终点,并在所述表格的切断位置处的后一切片标注表头以及续表标识,在所述公式的切断位置处的后一切片标注连续标识。
51、在其中一个实施例中,所述装置还包括清洗模块,用于确定所述第三文本的文本类型;基于所述文本类型对所述第三文本进行清洗。
52、第三方面,本技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。
53、第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
54、第五方面,本技术还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
55、上述文本处理方法、装置、计算机设备、存储介质和计算机程序产品,获取待处理文本集合后,确定质量检测指标,并计算每一第一文本对应的质量检测指标的指标值;获取文本过滤目标,并基于文本过滤目标确定各所述质量检测指标对应的初始过滤阈值;获取质量检测指标对应的初始过滤阈值处的第二文本的文本质量;基于质量检测指标与文本质量的相关关系以及所述第二文本的文本质量,调整初始过滤阈值;基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本,这样包括多个质量检测指标,且基于文本过滤目标来动态确定初始过滤阈值,从而提高过滤的质量,进而提高文本处理质量。
1.一种文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取质量检测指标之前,还包括:
5.根据权利要求3所述的方法,其特征在于,所述确定所述文本结构类型对应的文本切分逻辑,基于所述文本切分逻辑对所述第三文本进行文本切分,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,对所述待切分文本的切分方式包括:
8.根据权利要求3所述的方法,其特征在于,所述获取质量检测指标之前,还包括:
9.根据权利要求1所述的方法,其特征在于,所述基于调整后的所述初始过滤阈值以及各所述第一文本对应的所述质量检测指标的指标值,对所述第一文本进行过滤得到第三文本之后,包括:
10.一种文本处理装置,其特征在于,所述装置包括:
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:文本去重模块,用于对所述第三文本进行去重处理,得到第四文本;其中所述去重处理包括以下至少一种:基于各所述第三文本的文本摘要进行去重处理;或基于各所述第三文本的各所述质量检测指标的指标值得到各所述第三文本对应的信息数组,基于所述信息数组对所述第三文本进行去重处理。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:文本切分模块,用于在所述第三文本的字符数大于模型目标字符处理量时,获取所述第三文本对应的文本结构类型;确定所述文本结构类型对应的文本切分逻辑,基于所述文本切分逻辑对所述第三文本进行文本切分。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括结构分类模块,用于对所述第一文本进行模板识别,并基于识别得到的模板进行去重处理;对去重处理后的所述第一文本进行文本结构类型识别,其中,所述文本结构类型包括有具有章节结构和不具有章节结构。
14.根据权利要求12所述的装置,其特征在于,所述文本切分模块还用于在所述文本结构类型为具有章节结构时,按照所述章节结构的顺序确定每一层文本;在当前层的文本的字符数大于所述模型目标字符处理量时,继续按照所述章节结构的顺序对所述当前层的文本进行切分,直至所述当前层的文本的字符数小于或等于所述模型目标字符处理量时,切分结束。
15.根据权利要求14所述的方法,其特征在于,所述文本切分模块还用于在所述文本结构类型为不具有章节结构时,或在到达所述章节结构的最小层,且所述最小层的文本的字符数大于所述模型目标字符处理量时,将所述第三文本或者所述最小层的文本作为待切分文本,确定各分隔符的第一顺序,并基于所述第一顺序得到当前分隔符;基于所述当前分隔符对所述待切分文本进行切分得到当前切分文本;在当前切分文本的字符数大于所述模型目标字符处理量时,基于各分隔符的第一顺序得到下一分隔符作为当前分隔符,并对当前切分文本继续切分,直至各切分后的所述当前切分文本的字符数小于或等于所述模型目标字符处理量,切分结束。
16.根据权利要求15所述的装置,其特征在于,所述文本切分模块还用于基于待切分文本的字符数以及所述模型目标字符处理量确定切片数量;基于所述切片数量以及所述待切分文本的字符数,得到切分文本长度;基于所述切分文本长度,对所述待切分文本进行切分得到当前切分文本。
17.根据权利要求12所述的装置,其特征在于,所述装置还包括:格式转换模块,用于对所述第一文本进行格式转换,其中所述第一文本中的表格转换为markdown格式,公式转换为latex格式,且标记所述表格以及所述公式的起点和终点;
18.根据权利要求10所述的装置,其特征在于,所述装置还包括清洗模块,用于确定所述第三文本的文本类型;基于所述文本类型对所述第三文本进行清洗。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
21.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。