一种获得识别模型的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及手写识别技术领域,尤其涉及一种获得识别模型的方法及装置。
【背景技术】
[0002] 随着信息技术的迅猛发展以及智能触屏类的移动终端设备日益普及,新的智能人 机交互应用日新月异。手写输入作为最常见、最主流的人机交互方式之一,其特点在于操作 方便、识别正确率高,适用于各类人群,特别是文化程度不高、不能较好掌握拼音的人群。因 此,手写输入方式得到了越来越多用户的青睐。
[0003] 目前手写识别系统主要采用基于数据驱动的方法,通过大量采集真实的样本数 据,利用样本数据进行模型训练获得手写识别模型,以实现字符的区分。显然,手写识别系 统性能和样本数据密切相关,样本数据覆盖面越广、内容越丰富则系统性能越好。然而,样 本数据的收集、标注往往需耗费较大的人力、财力。特别是少数民族语言的数据采集工作更 是困难重重,如藏语、维吾尔语等少数民族的手写样本数据。显然,若训练样本数据较为匮 乏,则手写识别系统容易产生过拟合问题,从而导致识别准确率较低。
【发明内容】
[0004] 为解决上述技术问题,本申请实施例提供一种获得识别模型的方法及装置,能够 有效增加样本数据,提高识别准确率。技术方案如下:
[0005] -方面,提供一种获得识别模型的方法,包括:
[0006] 获得样本数据;
[0007] 对所述样本数据进行弹性形变和/或随机形变获得形变样本数据;
[0008] 利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。
[0009] 进一步,所述对所述样本数据进行弹性形变获得形变样本数据包括:
[0010] 在所述样本数据的作用区域内确定至少一个随机点;所述作用区域为所述样本数 据所占据的区域;
[0011] 计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力;
[0012] 根据所述牵引力对所述作用区域内的所述样本点进行位置修正,获得形变样本 占.
[0013] 根据所述形变样本点确定形变样本数据。
[0014] 进一步,所述在所述样本数据的作用区域内确定至少一个随机点,包括:
[0015] 计算所述样本数据的长宽比;
[0016] 根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域;
[0017] 在各所述子区域内分别确定一个随机点;
[0018] 所述计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力,包 括:
[0019] 计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
[0020] 进一步,所述对所述样本数据进行随机形变获得形变样本数据包括:
[0021] 对所述样本数据上的每个样本点依次生成单位随机向量;
[0022] 对所述单位随机向量进行平滑处理和归一化处理;
[0023] 根据处理后的所述单位随机向量分别对其对应的样本点进行修正,获得形变样本 占.
[0024] 根据所述形变样本点确定形变样本数据。
[0025] 进一步,在对所述样本数据进行弹性形变和/或随机形变获得形变样本数据之 后,还包括:
[0026] 对所述形变样本数据进行筛选;
[0027] 所述利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型,包 括:
[0028] 利用所述样本数据及筛选后的所述形变样本数据进行模型训练,获得识别模型。
[0029] 进一步,所述对所述形变样本数据进行筛选,包括:
[0030] 利用预建识别模型对所述形变样本数据进行识别;所述预建识别模型为预先根据 所述样本数据进行模型训练获得的;
[0031] 将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据,N为 预设候选数量阈值。
[0032] 进一步,所述对所述形变样本数据进行筛选,包括:
[0033] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的 第二特征向量;
[0034] 计算所述第一特征向量与所述第二特征向量的距离;
[0035] 将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0036] 进一步,所述利用所述样本数据及所述形变样本数据进行模型训练,获得识别模 型,包括:
[0037] 设置所述形变样本数据的权重;
[0038] 利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练,获得识别 模型。
[0039] 进一步,所述设置所述形变样本数据的权重,包括:
[0040] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的 第二特征向量;
[0041] 计算所述第一特征向量与所述第二特征向量的距离;
[0042] 根据所述距离设置所述形变样本数据的权重,其中,所述距离越大的形变样本数 据权重越小。
[0043] 另一方面,提供一种获得识别模型的装置,包括:
[0044] 数据获取单元,用于获得样本数据;
[0045] 数据形变单元,用于对所述样本数据进行弹性形变和/或随机形变获得形变样本 数据;
[0046] 模型训练单元,用于利用所述样本数据及所述形变样本数据进行模型训练,获得 识别模型。
[0047] 进一步,所述数据形变单元包括:
[0048] 选取子单元,用于在所述样本数据的作用区域内确定至少一个随机点;所述作用 区域为所述样本数据所占据的区域;
[0049] 计算子单元,用于计算所述随机点对所述作用区域内所述样本数据上的样本点的 牵引力;
[0050] 第一修正子单元,用于根据所述牵引力对所述作用区域内的所述样本点进行位置 修正,获得形变样本点;
[0051] 第一数据确定子单元,用于根据所述形变样本点确定形变样本数据。
[0052] 进一步,所述选取子单元包括:
[0053] 第一计算子单元,用于计算所述样本数据的长宽比;
[0054] 划分子单元,用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子 区域;
[0055] 确定子单元,用于在各所述子区域内分别确定一个随机点;
[0056] 所述计算子单元,具体用于计算所述随机点对其所在的所述子区域内所述样本数 据上的样本点的牵引力。
[0057] 进一步,所述数据形变单元包括:
[0058] 生成子单元,用于对所述样本数据上的每个样本点依次生成单位随机向量;
[0059] 处理子单元,用于对所述单位随机向量进行平滑处理和归一化处理;
[0060] 第二修正子单元,用于根据处理后的所述单位随机向量分别对其对应的样本点进 行修正,获得形变样本点;
[0061] 第二数据确定子单元,用于根据所述形变样本点确定形变样本数据。
[0062] 进一步,所述装置还包括:
[0063] 筛选单元,用于在所述数据形变单元获得形变样本数据之后,对所述形变样本数 据进行筛选;
[0064] 所述模型训练单元,具体用于利用所述样本数据及筛选后的所述形变样本数据进 行模型训练,获得识别模型。
[0065] 进一步,所述筛选单元包括:
[0066] 识别子单元,用于利用预建识别模型对所述形变样本数据进行识别;所述预建识 别模型为预先根据所述样本数据进行模型训练获得的;
[0067] 第一选择子单元,用于将识别错误且位于前N个候选的形变样本数据作为筛选后 的形变样本数据,N为预设候选数量阈值。
[0068] 进一步,所述筛选单元包括:
[0069] 第一提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数 据对应的标准数据的第二特征向量;
[0070] 第一距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离;
[0071] 第二选择子单元,用于将所述距离小于预设距离阈值的形变样本数据作为筛选后 的形变样本数据。
[0072] 进一步,所述模型训练单元包括:
[0073] 权重设置子单元,用于设置所述形变样本数据的权重;
[0074] 训练子单元,用于利用所述样本数据及占有不同权重的所述形变样本数据进行模 型训练,获得识别模型。
[0075] 进一步,所述权重设置子单元包括:
[0076] 第二提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数 据对应的标准数据的第二特征向量;
[0077] 第二距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离;
[0078] 设置子单元,用于根据所述距离设置所述形变样本数据的权重,其中,所述距离越 大的形变样本数据权重越小。
[0079] 本发明实施例至少具有以下有益效果:
[0080] 本发明实施例通过对少量样本数据进行形变获得形变样本数据来扩充数据量,从 而可以以大量样本数据为基础构建得到对应的手写识别模型,该方法有效增加了样本数据 量,较好地解决了因样本数据量匮乏而导致的识别模型不稳定,识别准确率低的问题,尤其 对于少数民族语言,如藏语维吾尔语等,手写识别样本难以采集造成的手写识别模型构建 问题。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了 手写识别系统的性能,进而提高了识别准确率。
【附图说明】
[0081] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0082]
图1为本发明实施例一种获得识别模型的方法流程图;
[0083] 图2为本发明实施例中一种对样本数据进行弹性形变获得形变样本数据的方法 流程图;
[0084] 图3为图2所示实施例中选择多个随机点的方法流程图;
[0085] 图4为图3所示实施例中划分的子区域及各子区域内的随机点的示意图;
[0086] 图5为图3所示实施例中产生的牵引力的示意图;
[0087] 图6为对图4所示的样本数据修正后获得的形变样本点的示意图;
[0088] 图7为本发明实施例中一种对样本数据进行随机形变获得形变样本数据的方法 流程图;
[0089] 图8为本发明实施例另一种获得识别模型的方法流程图;
[0090] 图9为本发明实施例中一种对样本数据进行筛选的方法流程图;
[0091] 图10为本发明实施例中另一种对样本数据进行筛选的方法流程图;
[0092] 图11为本发明实施例中进行模型训练获得识别模型的方法流程图;
[0093] 图12为本发明实施例中设置权重的方法流程图;
[0094] 图13为本发明实施例一种获得识别模型的装置的结构示意图;
[0095] 图14为本发明实施例中一种数据形变单元的结构示意图;
[0096] 图15为本发明实施例中另一种数据形变单元的结构示意图;
[0097] 图16为本发明实施例中另一种获得识别模型的装置的结构示意图;
[0098] 图17为本发明实施例中一种筛选单元的结构示意图;
[0099] 图18为本发明实施例中另一种筛选单元的结构示意图;
[0100] 图19为本发明实施例中一种模型训练单元的结构示意图。
【具体实施方式】
[0101] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护 的范围。
[0102] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本申请作进一步详细的说明。
[0103] 参见图1,为本发明实施例一种获得识别模型的方法流程图。
[0104] 该方法可以包括:
[0105] 步骤101,获得样本数据。
[0106] 首先获得少量的样本数据,例如少数民族语言的手写样本数据。
[0107] 步骤102,对样本数据进行弹性形变和/或随机形变获得形变样本数据。
[0108] 该对样本数据进行形变的过程可以是弹性形变或随机形变,也可以是两种形变的 结合,例如先进行弹性形变再进行随机形变或反之。
[0109] 该对样本数据进行形变的过程包括提取样本数据上的样本点,并对该样本点的位 置或坐标进行修正,由修正后的样本点形成形变样本数据。具体请参见后续实施例的描述。 [0110] 形变生成的形变样本数据量可以根据模型复杂度或由用户预先指定。一般来说字 符模型越复杂,如字符GMM模型中高斯数越多,则需要生成越多的形变样本数据。
[0111] 步骤103,利用样本数据及形变样本数据进行模型训练,获得识别模型。
[0112] 在获得形变样本数据后,即可结合样本数据及形变样本数据进行模型训练获得识 别模型了。该模型训练的过程以及建立识别模型的过程与现有技术类似,此处不再赘述。
[0113] 本发明实施例通过对少量样本数据进行形变获得形变样本数据来扩充数据量,从 而可以以大量样本数据为基础构建得到对应的手写识别模型,该方法有效增加了样本数据 量,较好地解决了因样本数据量匮乏而导致的识别模型不稳定,识别准确率低的问题,尤其 对于少数民族语言,如藏语维吾尔语等,手写识别样本难以采集造成的手写识别模型构建 问题。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了 手写识别系统的性能,进而提高了识别准确率。
[0114] 在本发明另一实施例中,在对样本数据进行形变时,均可以首先对样本数据进行 预处理,然后再对预处理后的样本数据进行形变。其中,该预处理可以包括重采样和平滑, 以保证引入的形变对样本数据产生均匀形变的效果。其中,重采样是指在样本数据相邻采 样点之间按照一定的步长重采样;平滑处理具体指对重采样后的采样点作一些数学处理如 加权平均,使得采样点更合理。该重采样和平滑处理与现有技术类似,此处不再赘述。
[0115] 本发明实施例中,在对样本数据进行形变时,一种对样本数据进行弹性形变获得 形变样本数据的方法,如图2所示,可以包括:
[0116] 步骤201,在样本数据的作用区域内确定至少一个随机点。
[0117] 其中,样本数据的作用区域为样本数据所占据的区域,假设采集到的手写的样本 数据在区域[o,w]x[o,h]中,该作用区域即为[0,《]乂[0,1 1],其中《为样本数据的宽度,11 为样本数据的高度。
[0118] 随机点是指在作用域内随机产生一个点,以便确定样本数据的字体笔迹在进行弹 性形变时牵引力的作用方向。
[0119] 如果样本数据的字体笔迹比较简单或作用区域比较小,则可以在作用区域内随机 产生一个随机点,在区间[0,w]中随机生成一个数X,在区间[0,h]中随机生成一个数Y,则 点(X,Y)即是所需随机点。
[0120] 如果样本数据的字体笔迹比较复杂或作用区域比较大时,还可以选择多个随机 点,具体可以设置一定的作用区域阈值或规则来衡量是否需要选择多个随机点。该选择多 个随机点的方法,如图3,图4所示,可以包括:
[0121] 步骤301,计算样本数据的长宽比。
[0122] 该样本数据的长宽比为
[0123] 步骤302,根据长宽比将样本数据的作用区域划分为至少两个子区域。
[0124] 具体的,可以根据长宽比,将样本数据占据的作用区域分成近似正方形的 若干块子区域,如图4所示的子区域41、42。假设ratio彡m时第一块子区域为 [0, min (w, h) ] X [0, min (w, h)],第二块子区域为[min (w, h),2 Xmin (w, h) ] X [0, min (w, h)] …,最后一块子区域为[ratio Xmin (w, h),max (w, h) ] X [0, min (w, h)]。
[0125] 步骤303,在各子区域内分别确定一个随机点。
[0126] 然后按照前述生成随机点的方法在各个子区域内分别确定一个随机点,如图4所 示的随机点43、44。
[0127] 在获得一个或多个随机点后执行步骤202。
[0128] 步骤202,计算随机点对作用区域内样本数据上的样本点的牵引力。
[0129] 其中,样本点可以根据一定的提取算法在样本数据中提取。然后按照如下公式计 算随机点(X,Y)对样本数据的作用区域内各样本点的牵引力;
[0130]
[0131 ] 其中,xn、yn分别为样本点的横、纵坐标。
[0132] 如果上步骤中确定的随机点有多个,则可以按照上述公式分别计算随机点对其所 在子区域内的样本数据上的样本点的牵引力,如图5中箭头所示的牵引力。
[0133] 步骤203,根据牵引力对作用区域内的样本点进行位置修正,获得形变样本点。
[0134] 在获得牵引力d后,根据牵引力对其对应区域内的各样本点进行位置修正,具体 的,如果随机点为一个,则对应计算的牵引力为一个,则应用该牵引力对样本数据的作用区 域内的所有样本点进行位置修正。如果随机点为多个,则对应计算的牵引力也为多个,则分 别应用各牵引力对其对应的各子区域内的样本点进行位置修正。在对样本点修正后获得形 变样本点H,λ,)如图6所示为对图4所示的样本数据修正后获得的形变样本点61。 G
[0135] 形变样本点获取公式
其中,
[0136] 优选的,本案还可以采用自适应调整方法,采取的调整力度计算为
[0137] 其中,boxsize为当前随机点所对应的区域的边长;k为弹性形变系数,用于控制 形变程度的大小,可以根据实验及经验系统预先设置。
[0138] 步骤204,根据形变样本点确定形变样本数据。
[0139] 根据由位置修正后获得的形变样本点, 即可组成形变样本数据。
[0140] 本发明另一实施例中,在对样本数据进行形变时,一种对样本数据进行随机形变 获得形变样本数据的方法,如图7所示,可以包括:
[0141] 步骤701,对样本数据上的每个样本点依次生成单位随机向量。
[0142] 首先通过现有样本点提取方法在样本数据中提取样本点,然后对每个样本点依次 生成单位随机向量(X n,Yn)。
[0143] 具体的,假设样本点坐标为(x^ ,(x2, y2),......,(xN, yN),对标个桂太占处 标相应生成一个单位随机向量(Χη, Υη) (η = 1,2,…,N),生成公式为:
;中sn、tn为(0, 1)之间随机生成的两个数。
[0144] 步骤702,对单位随机向量进行平滑处理和归一化处理。[0145] 其中平滑处理方法具体如下所示:
[0146]
[0147]
[0148] 其中
σ参数用于控制随机形变处理的随机程度,〇 越小,随机性越大,σ越大,随机性越小。
[0149] 平滑向量(足4,)归一化处理,具体方法如下:
[0150]
[0151]
[0152] 步骤703,根据处理后的单位随机向量分别对其对应的样本点进行修正,获得形变 样本点。
[0153] 对样本点(xn,yn)修正获得形变样本点
(?,Λ)的具体方法可以为:
[0154]
[0155]
[0156] 其中,α为随机形变系数,此系数控制形变程度的大小,由系统预先设定。[0157] 优选的,本案还可以采用自适应调整方法:
[0158]
[0159]
[0160] 其中,boxsize为当前样本数据的作用区域的边长。
[0161] 步骤704,根据形变样本点确定形变样本数据。
[0162] 根据由位置修正后获得的形变样本点(?η,Λ)即可组成形变样本数据。
[0163] 在本发明的另一实施例中,在对样本数据进行形变时,还可以将弹性形变和随机 形变进行结合,例如先按照步骤201~204进行弹性形变,然后再按照步骤701~704进行 随机形变,或者反之。
[0164] 通过上述对样本数据的形变处理即可获得丰富的样本数据以进行模型训练。然 而,基于形变生成的样本由于带有随机性,能够生成各式各样的样本,其中有些形变样本数 据与原有样本数据相似度过大,属于冗余样本;而有些样本产生了畸变,不具备字符特征。 对此,还可以增加对形变样本数据进行筛选的步骤,具体如图8所示。
[0165] 参见图8,为本发明实施例另一种获得识别模型的方法流程图。
[0166] 该方法可以包括:
[0167] 步骤801,获得样本数据。
[0168] 步骤802,对样本数据进行弹性形变和/或随机形变获得形变样本数据。
[0169] 步骤801~802与前述实施例中的对应步骤类似,此处不再赘述。
[0170] 步骤803,对形变样本数据进行筛选。
[0171] 其中一种对样本数据进行筛选的方法,如图9所示,可以包括:
[0172] 步骤901,利用预建识别模型对形变样本数据进行识别。
[0173] 预先根据已获得的样本数据进行模型训练获得预建识别模型。然后基于该预建识 别模型对上步骤获得的形变样本数据进行识别。
[0174] 步骤902,将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本 数据,N为预设候选数量阈值。
[0175] 将返回的识别错误的识别结果中位于前N个候选的形变样本数据作为筛选后的 形变样本数据。
[0176] 另外一种对样本数据进行筛选的方法,如图10所示,可以包括:
[0177] 步骤1001,分别提取形变样本数据的第一特征向量及样本数据对应的标准数据的 第二特征向量。
[0178] 样本数据对应的标准数据也即标准字符。可以采用现有方法提取特征向量。
[0179] 步骤1002,计算第一特征向量与第二特征向量的距离。
[0180] 可以计算第一特征向量与第二特征向量的欧式距离。
[0181] 步骤1003,将距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数 据。
[0182] 当然还可以采用其它方法筛选形变样本数据。
[0183] 步骤804,利用样本数据及筛选后的形变样本数据进行模型训练,获得识别模型。
[0184] 该模型训练的过程可以与现有技术类似,此处不再赘述。
[0185] 本实施例通过增加对形变样本数据进行筛选的步骤,使得模型训练所依据的样本 数据更加符合真实情况,从而可以获得更加稳定可靠的识别模型。
[0186] 在上述进行模型训练获得识别模型时,可以将样本数据与筛选后的形变样本数据 等同对待,也可以差别对待。在另一实施例中,该进行模型训练获得识别模型的过程,如图 11所示,还可以包括:
[0187] 步骤1101,设置形变样本数据的权重。
[0188] 形变样本数据权重的设置可以根据需要或经验值设置,也可以采用如图12中所 示的方法设置,该方法可以包括:
[0189] 步骤1201,分别提取形变样本数据的第一特征向量及样本数据对应的标准数据的 第二特征向量。
[0190] 步骤1202,计算第一特征向量与第二特征向量的距离。
[0191] 步骤1201~1202与前述步骤1001~1002类似。该距离具体可以是欧式距离。
[0192] 步骤1203,根据距离设置形变样本数据的权重。
[0193] 其中,距离越大的形变样本数据权重越小。
[0194] 步骤1102,利用样本数据及占有不同权重的形变样本数据进行模型训练,获得识 别丰吴型。
[0195] 本实施例中通过对不同形变程度的样本数据赋予不同权重,提高了识别模型的鲁 棒性和准确性。
[0196] 以上是对本发明方法实施例的说明,下面对实现上述方法的装置进行介绍。
[0197] 参见图13,为本发明实施例一种获得识别模型的装置的结构示意图。
[0198] 该装置可以包括:
[0199] 数据获取单元1301,用于获得样本数据。
[0200] 数据形变单元1302,用于对样本数据进行弹性形变和/或随机形变获得形变样本 数据。
[0201] 模型训练单元1303,用于利用样本数据及形变样本数据进行模型训练,获得识别 模型。
[0202] 本发明实施例通过上述单元对少量样本数据进行形变获得形变样本数据来扩充 数据量,从而可以以大量样本数据为基础构建得到对应的手写识别模型,该装置有效增加 了样本数据量,较好地解决了因样本数据量匮乏而导致的识别模型不稳定,识别准确率低 的问题,尤其对于少数民族语言,如藏语维吾尔语等,手写识别样本难以采集造成的手写识 别模型构建问题。本装置通过自动生成形变样本数据,极大地减少了收集手写样本的人力 成本,提高了手写识别系统的性能,进而提高了识别准确率。
[0203] 在其中一实施例中,如图14所示,数据形变单元1302可以包括:
[0204] 选取子单元1401,用于在所述样本数据的作用区域内确定至少一个随机点;所述 作用区域为所述样本数据所占据的区域。
[0205] 计算子单元1402,用于计算所述随机点对所述作用区域内所述样本数据上的样本 点的牵引力。
[0206] 第一修正子单元1403,用于根据所述牵引力对所述作用区域内的所述样本点进行 位置修正,获得形变样本点。
[0207] 第一数据确定子单元1404,用于根据所述形变样本点确定形变样本数据。
[0208] 其中,选取子单元1401可以进一步包括:
[0209] 第一计算子单元,用于计算所述样本数据的长宽比。
[0210] 划分子单元,用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子 区域。
[0211] 确定子单元,用于在各所述子区域内分别确定一个随机点。
[0212] 计算子单元1402,具体用于计算所述随机点对其所在的所述子区域内所述样本数 据上的样本点的牵引力。
[0213] 在另一实施例中,如图15所示,数据形变单元1302可以包括:
[0214] 生成子单元1501,用于对所述样本数据上的每个样本点依次生成单位随机向量。
[0215] 处理子单元1502,用于对所述单位随机向量进行平滑处理和归一化处理。
[0216] 第二修正子单元1503,用于根据处理后的所述单位随机向量分别对其对应的样本 点进行修正,获得形变样本点。
[0217] 第二数据确定子单元1504,用于根据所述形变样本点确定形变样本数据。
[0218] 在另一实施例中,如图16所示,该装置除了可以包括数据获取单元1301,数据形 变单元1302,模型训练单元1303之外,还可以包括:
[0219] 筛选单元1601,用于在所述数据形变单元获得形变样本数据之后,对所述形变样 本数据进行筛选。
[0220] 模型训练单元1303,具体用于利用所述样本数据及筛选后的所述形变样本数据进 行模型训练,获得识别模型。
[0221] 在一种实现方式中,如图17所示,筛选单元1601可以进一步包括:
[0222] 识别子单元1701,用于利用预建识别模型对所述形变样本数据进行识别;所述预 建识别模型为预先根据所述样本数据进行模型训练获得的;
[0223] 第一选择子单元1702,用于将识别错误且位于前N个候选的形变样本数据作为筛 选后的形变样本数据,N为预设候选数量阈值。
[0224] 在另一实现方式中,如图18所示,该筛选单元1601可以进一步包括:
[0225] 第一提取子单元1801,用于分别提取所述形变样本数据的第一特征向量及所述样 本数据对应的标准数据的第二特征向量。
[0226] 第一距离计算子单元1802,用于计算所述第一特征向量与所述第二特征向量的距 离。
[0227] 第二选择子单元1803,用于将所述距离小于预设距离阈值的形变样本数据作为筛 选后的形变样本数据。
[0228] 本实施例通过增加筛选单元使得模型训练所依据的样本数据更加符合真实情况, 从而可以获得更加稳定可靠的识别模型。
[0229] 在本发明另一实施例中,如图19所示,模型训练单元1303可以进一步包括:
[0230] 权重设置子单元1901,用于设置所述形变样本数据的权重。
[0231] 训练子单元1902,用于利用所述样本数据及占有不同权重的所述形变样本数据进 行模型训练,获得识别模型。
[0232] 其中,权重设置子单元1901可以进一步包括:
[0233] 第二提取子单元1,用于分别提取所述形变样本数据的第一特征向量及所述样本 数据对应的标准数据的第二特征向量。
[0234] 第二距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离。
[0235] 设置子单元,用于根据所述距离设置所述形变样本数据的权重,其中,所述距离越 大的形变样本数据权重越小。
[0236] 本实施例中通过上述单元对
不同形变程度的样本数据赋予不同权重,提高了识别 模型的鲁棒性和准确性。
[0237] 以上装置中各单元及子单元的具体实现过程请参见前述方法实施例部分的相应 描述,此处不再赘述。
[0238] 为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本 申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0239] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可 借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质 上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品 可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些 部分所述的方法。
[0240] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例 的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明 的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是 物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要 选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出 创造性劳动的情况下,即可以理解并实施。
[0241] 本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务 器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶 盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的 分布式计算环境等等。
[0242] 本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序 模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组 件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由 通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以 位于包括存储设备在内的本地和远程计算机存储介质中。
[0243] 以上所述仅是本申请的【具体实施方式】,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本申请的保护范围。
【主权项】
1. 一种获得识别模型的方法,其特征在于,包括: 获得样本数据; 对所述样本数据进行弹性形变和/或随机形变获得形变样本数据; 利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。2. 根据权利要求1所述的方法,其特征在于,所述对所述样本数据进行弹性形变获得 形变样本数据包括: 在所述样本数据的作用区域内确定至少一个随机点;所述作用区域为所述样本数据所 占据的区域; 计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力; 根据所述牵引力对所述作用区域内的所述样本点进行位置修正,获得形变样本点; 根据所述形变样本点确定形变样本数据。3. 根据权利要求2所述的方法,其特征在于,所述在所述样本数据的作用区域内确定 至少一个随机点,包括: 计算所述样本数据的长宽比; 根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域; 在各所述子区域内分别确定一个随机点; 所述计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力,包括: 计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。4. 根据权利要求1所述的方法,其特征在于,所述对所述样本数据进行随机形变获得 形变样本数据包括: 对所述样本数据上的每个样本点依次生成单位随机向量; 对所述单位随机向量进行平滑处理和归一化处理; 根据处理后的所述单位随机向量分别对其对应的样本点进行修正,获得形变样本点; 根据所述形变样本点确定形变样本数据。5. 根据权利要求1至4中任意一项所述的方法,其特征在于,在对所述样本数据进行弹 性形变和/或随机形变获得形变样本数据之后,还包括: 对所述形变样本数据进行筛选; 所述利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型,包括: 利用所述样本数据及筛选后的所述形变样本数据进行模型训练,获得识别模型。6. 根据权利要求5所述的方法,其特征在于,所述对所述形变样本数据进行筛选,包 括: 利用预建识别模型对所述形变样本数据进行识别;所述预建识别模型为预先根据所述 样本数据进行模型训练获得的; 将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据,N为预设 候选数量阈值。7. 根据权利要求5所述的方法,其特征在于,所述对所述形变样本数据进行筛选,包 括: 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二 特征向量; 计算所述第一特征向量与所述第二特征向量的距离; 将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。8. 根据权利要求1至4中任意一项所述的方法,其特征在于,所述利用所述样本数据及 所述形变样本数据进行模型训练,获得识别模型,包括: 设置所述形变样本数据的权重; 利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练,获得识别模 型。9. 根据权利要求8所述的方法,其特征在于,所述设置所述形变样本数据的权重,包 括: 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二 特征向量; 计算所述第一特征向量与所述第二特征向量的距离; 根据所述距离设置所述形变样本数据的权重,其中,所述距离越大的形变样本数据权 重越小。10. -种获得识别模型的装置,其特征在于,包括: 数据获取单元,用于获得样本数据; 数据形变单元,用于对所述样本数据进行弹性形变和/或随机形变获得形变样本数 据; 模型训练单元,用于利用所述样本数据及所述形变样本数据进行模型训练,获得识别 模型。11. 根据权利要求10所述的装置,其特征在于,所述数据形变单元包括: 选取子单元,用于在所述样本数据的作用区域内确定至少一个随机点;所述作用区域 为所述样本数据所占据的区域; 计算子单元,用于计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引 力; 第一修正子单元,用于根据所述牵引力对所述作用区域内的所述样本点进行位置修 正,获得形变样本点; 第一数据确定子单元,用于根据所述形变样本点确定形变样本数据。12. 根据权利要求11所述的装置,其特征在于,所述选取子单元包括: 第一计算子单元,用于计算所述样本数据的长宽比; 划分子单元,用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子区 域; 确定子单元,用于在各所述子区域内分别确定一个随机点; 所述计算子单元,具体用于计算所述随机点对其所在的所述子区域内所述样本数据上 的样本点的牵引力。13. 根据权利要求10所述的装置,其特征在于,所述数据形变单元包括: 生成子单元,用于对所述样本数据上的每个样本点依次生成单位随机向量; 处理子单元,用于对所述单位随机向量进行平滑处理和归一化处理; 第二修正子单元,用于根据处理后的所述单位随机向量分别对其对应的样本点进行修 正,获得形变样本点; 第二数据确定子单元,用于根据所述形变样本点确定形变样本数据。14. 根据权利要求10至13中任意一项所述的装置,其特征在于,所述装置还包括: 筛选单元,用于在所述数据形变单元获得形变样本数据之后,对所述形变样本数据进 行筛选; 所述模型训练单元,具体用于利用所述样本数据及筛选后的所述形变样本数据进行模 型训练,获得识别模型。15. 根据权利要求14所述的装置,其特征在于,所述筛选单元包括: 识别子单元,用于利用预建识别模型对所述形变样本数据进行识别;所述预建识别模 型为预先根据所述样本数据进行模型训练获得的; 第一选择子单元,用于将识别错误且位于前N个候选的形变样本数据作为筛选后的形 变样本数据,N为预设候选数量阈值。16. 根据权利要求14所述的装置,其特征在于,所述筛选单元包括: 第一提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数据对 应的标准数据的第二特征向量; 第一距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离; 第二选择子单元,用于将所述距离小于预设距离阈值的形变样本数据作为筛选后的形 变样本数据。17. 根据权利要求10至13中任意一项所述的装置,其特征在于,所述模型训练单元包 括: 权重设置子单元,用于设置所述形变样本数据的权重; 训练子单元,用于利用所述样本数据及占有不同权重的所述形变样本数据进行模型训 练,获得识别模型。18. 根据权利要求17所述的装置,其特征在于,所述权重设置子单元包括: 第二提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数据对 应的标准数据的第二特征向量; 第二距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离; 设置子单元,用于根据所述距离设置所述形变样本数据的权重,其中,所述距离越大的 形变样本数据权重越小。
【专利摘要】本申请提供一种获得识别模型的方法及装置。一种获得识别模型的方法,包括:获得样本数据;对所述样本数据进行弹性形变和/或随机形变获得形变样本数据;利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了手写识别系统的性能,进而提高了识别准确率。
【IPC分类】G06K9/68
【公开号】CN105488543
【申请号】CN201410472832
【发明人】吴嘉嘉, 竺博, 何婷婷, 乔玉平, 魏思, 胡国平, 胡郁, 刘庆峰
【申请人】科大讯飞股份有限公司
【公开日】2016年4月13日
【申请日】2014年9月16日