一种恶意网页综合检测方法及系统的制作方法

xiaoxiao2021-2-27  235

一种恶意网页综合检测方法及系统的制作方法
【技术领域】
[0001]本发明涉及网络安全技术领域,尤其涉及一种恶意网页综合检测方法及系统。
【背景技术】
[0002]随着信息技术的发展,网络安全问题日益突出,如今越来越多的攻击者专注于有组织有目的的攻击方式,主要目标则是获取用户的敏感信息,例如个人隐私、账号密码等。由于防火墙、入侵检测系统等安全技术的发展,使得攻击者在传统攻击方式上收效甚微,因此基于客户端的攻击方式逐渐流行,而恶意网页则是诸多攻击方式中具有典型性的一种。
[0003]恶意网页是一种利用软件或系统漏洞,通过Web页面作为载体,在互联网中迅速而广泛的传播,常见的网页文件后缀名为html、asp、php、jsp等。在这些文件中嵌入可自动执行的代码,当用户浏览该页面时,嵌入的恶意代码则会在后台执行,用于修改用户操作系统的设置或软件配置文件信息、非法窃取用户敏感信息、删除用户数据等。由于编写网页代码的难度较低,因此目前很多攻击者大都会通过设置恶意网站,吸引用户访问该站点,然后通过嵌入在网页中的恶意代码发起进一步攻击活动。对于正常网站而言,由于WEB服务器配置不当或是服务器存在安全隐患,此时攻击者可以通过非常规手段在正常页面中嵌入恶意代码,达到进一步攻击目的。
[0004]嵌入在正常web页面中的可执行恶意代码,为了规避检测,通常通过以下方式进行藏匿:代码混淆、代码加密、URL重定向等。例如在恶意代码中使用document.Write ()函数和evalO函数实现动态代码注入,或者使用escape ()函数将字符进行编码,在恶意代码其它位置使用解码函数、自定义解码程序或者直接转换为浏览器可以解析的编码。而URL重定向主要是在正常页面中通过脚本函数指向其它URL地址,指示浏览器自动浏览一个或多个其它URL链接,而不影响对用户内容所显示的正常页面。研究结果表明,恶意网页的发展趋势大致如下:种类模糊,多种攻击方式结合;多平台攻击,恶意网页代码类型增多?’传播速度快,传播范围广,难以预防。

【发明内容】

[0005]针对上述技术问题,本发明提供了一种恶意网页综合检测方法及系统,该发明使用自定义规则库对待检测URL的网页内容进行检测,对于无法成功匹配的待检测URL则利用流量特征库对其返回的PCAP数据包进行匹配操作,从而判别其是否是恶意URL。本发明能够有效解决网页内容加密等情况下的恶意检测问题,从而避免漏报情况的发生。
[0006]本发明采用如下方法来实现:一种恶意网页综合检测方法,包括:
将待检测URL批量添加至队列中,并为每条待检测URL设置唯一 ID编号;
提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求,获取返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果包括:web服务器的响应状态码和访问产生的页面代码;
对所述返回结果进行格式化处理后,与自定义规则库进行匹配,若成功匹配,则待检测URL为恶意URL,否则利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包;
将PCAP数据包与所述流量特征库进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行;
所述自定义规则库中的匹配规则包括:匹配方式、匹配内容和匹配规则ID号;
所述流量特征库中的匹配特征包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。
[0007]进一步地,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。
[0008]进一步地,在所述提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求之前还包括:将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则编写自动化脚本模拟所述待检测URL的HTTP请求,并进行后续操作。
[0009]进一步地,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。
[0010]进一步地,将判定为恶意URL的待检测URL的相关数据存储至显示数据库中,用于可视化展示。
[0011]本发明采用如下系统来实现:一种恶意网页综合检测系统,包括:
队列,用于存储待检测URL,并为每条待检测URL设置唯一 ID编号;
自动化脚本模拟模块,用于提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求;
请求结果获取模块,用于获取自动化脚本模拟模块的返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果包括:web服务器的响应状态码和访问产生的页面代码;
自定义规则匹配模块,用于对所述返回结果进行格式化处理后,与自定义规则库进行匹配,若成功匹配,则待检测URL为恶意URL,否则由流量特征匹配模块完成后续操作;
流量特征匹配模块,用于利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包,并将PCAP数据包与所述流量特征库进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行;
自定义规则库,用于存储匹配规则,包括:匹配方式、匹配内容和匹配规则ID号;
流量特征库,用于存储匹配特征,包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。
[0012]进一步地,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。
[0013]进一步地,还包括白名单匹配模块,用于将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则由自动化脚本模拟模块完成后续操作。
[0014]进一步地,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。
[0015]进一步地,还包括显示数据库,用于存储判定为恶意URL的待检测URL的相关数据,进行可视化展示。
[0016]综上所述,本发明提供了一种恶意网页综合检测方法及系统,针对待检测URL,利用自动化脚本模拟HTTP访问请求,并针对返回结果进行网页内容的检测,利用自定义规则库进行匹配,若匹配成功,则待检测URL为恶意URL,否则抓取PCAP数据包,并利用流量特征库进行数据包的特征匹配,若匹配成功,则待检测URL为恶意URL,否则予以放行。
[0017]本发明的有益效果为:本发明所述技术方案,首先通过编写自动化脚本来模拟浏览器访问待检测URL,并获取所产生的返回结果和流量数据包;对于返回结果进行格式化处理后,以自定义规则库中规定的匹配方式进行匹配,若成功匹配则待检测URL为恶意URL;其中,所述自定义规则库的优劣会影响检测系统的精确度;但是,对于网页中存在恶意代码片段进行加密或者混淆处理的情况,利用自定义规则库可能无法进行有效检测,此时,通过配置的ID编号,获取未匹配成功的待检测URL相关的PCAP数据包,并利用流量特征库进行流量特征匹配,从而保证减少误报和漏报的发生几率。
【附图说明】
[0018]为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本发明提供的一种恶意网页综合检测方法实施例流程图;
图2为本发明提供的一种恶意网页综合检测系统实施例结构图。
【具体实施方式】
[0020]本发明给出了一种恶意网页综合检测方法及系统,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了一种恶意网页综合检测方法实施例,如图1所示,包括:
S101将待检测URL批量添加至队列中,并为每条待检测URL设置唯一 ID编号;
S102提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求;S103获取返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果即为模拟浏览器访问待检测URL所产生的后果,包括:web服务器的响应状态码和访问产生的页面代码;所述与待检测URL对应的ID编号,用于将每个待检测URL与其返回结果和PCAP数据包一一对应,方便检测中使用;
S104对所述返回结果进行格式化处理后,与自定义规则库进行匹配,判断是否成功匹配,若是,则待检测URL为恶意URL,否则执行S105 ;其中,所述格式化方法包括:生成XML或者JS0N格式页面内容;
S105利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包;
S106将PCAP数据包与所述流量特征库进行匹配,判断是否成功匹配,若是,则待检测URL为恶意URL,否则予以放行;
所述自定义规则库中的匹配规则包括:匹配方式、匹配内容和匹配规则ID号;
其中,匹配方式包括但不限于:advance > intermediate、low-level、warning 和ignore ;匹配内容为匹配规则的重点,包括但不限于:关键字匹配或者正则表达式匹配;所述匹配规则ID用于标示规则的唯一性,便于后续查找测试和修改;
所述流量特征库中的匹配特征包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。
[0021]其中,所述流量特征库需要不定时更新,能够有效检测恶意代码加密或者混淆等不易识别的情况。
[0022]优选地,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。
[0023]优选地,在所述提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求之前还包括:将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则编写自动化脚本模拟所述待检测URL的HTTP请求,并进行后续操作。其中,所述白名单需要不定时更新,避免发生误报或者漏报的情况。
[0024]优选地,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。其中,解析隐藏URL可以通过检查重点标签,包括iframe、script或者link等。
[0025]优选地,将判定为恶意URL的待检测URL的相关数据存储至显示数据库中,用于可视化展示。将对应链接数、运行时间、检测耗时、检测结果、危害等级等生成可视化报告,便于统计分析或进一步预测近期恶意网页的发展趋势。
[0026]本发明其次提供了一种恶意网页综合检测系统实施例,如图2所示,包括:
队列201,用于存储待检测URL,并为每条待检测URL设置唯一 ID编号;
自动化脚本模拟模块202,用于提取队列201中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求;
请求结果获取模块203,用于获取自动化脚本模拟模块202的返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果包括:web服务器的响应状态码和访问产生的页面代码;
自定义规则匹配模块204,用于对所述返回结果进行格式化处理后,与自定义规则库206进行匹配,若成功匹配,则待检测URL为恶意URL,否则由流量特征匹配模块205完成后续操作;
流量特征匹配模块205,用于利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包,并将PCAP数据包与所述流量特征库207进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行;
自定义规则库206,用于存储匹配规则,包括:匹配方式、匹配内容和匹配规则ID号;流量特征库207,用于存储匹配特征,包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。
[0027]优选地,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。
[0028]优选地,还包括白名单匹配模块,用于将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则由自动化脚本模拟模块完成后续操作。
[0029]优选地,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。
[0030]优选地,还包括显示数据库,用于存储判定为恶意URL的待检测URL的相关数据,进行可视化展示。
[0031]综上所述,对于传统方法来说,由于恶意网页存在种类模糊、攻击方式多样、攻击平台多样和恶意网页代码类型较多等情况,从而使得传统检测方式无法有效检测恶意URL,存在很多漏报情况。本发明所给出的恶意网页综合检测方法及系统实施例,是一个搭建便捷并且操作可行的恶意网页检测方法及系统,整个方法及系统可以自动化分析并判断,避免过多的人工干预所带来的负面影响并且应用场景广泛,可以作为恶意URL检测识别的首要环节,也可以根据检测结果对未来一段时间的恶意网页形式进行预测。通过编写自动化脚本模拟待检测URL的HTTP请求,并利用自定义规则库对返回结果进行判断,利用流量特征库对于PCAP数据包进行是否恶意的检测,从而有效避免恶意代码执行之后对用户计算机带来的危害,针对恶意网页的多种攻击类型进行检测,有效减少漏报和误报。
[0032]以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
【主权项】
1.一种恶意网页综合检测方法,其特征在于,包括: 将待检测URL批量添加至队列中,并为每条待检测URL设置唯一 ID编号; 提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求,获取返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果包括:web服务器的响应状态码和访问产生的页面代码; 对所述返回结果进行格式化处理后,与自定义规则库进行匹配,若成功匹配,则待检测URL为恶意URL,否则利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包; 将PCAP数据包与所述流量特征库进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行; 所述自定义规则库中的匹配规则包括:匹配方式、匹配内容和匹配规则ID号; 所述流量特征库中的匹配特征包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。2.如权利要求1所述的方法,其特征在于,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。3.如权利要求1所述的方法,其特征在于,在所述提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求之前还包括:将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则编写自动化脚本模拟所述待检测URL的HTTP请求,并进行后续操作。4.如权利要求1所述的方法,其特征在于,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。5.如权利要求1所述的方法,其特征在于,将判定为恶意URL的待检测URL的相关数据存储至显示数据库中,用于可视化展示。6.一种恶意网页综合检测系统,其特征在于,包括: 队列,用于存储待检测URL,并为每条待检测URL设置唯一 ID编号; 自动化脚本模拟模块,用于提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求; 请求结果获取模块,用于获取自动化脚本模拟模块的返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;所述返回结果包括:web服务器的响应状态码和访问产生的页面代码; 自定义规则匹配模块,用于对所述返回结果进行格式化处理后,与自定义规则库进行匹配,若成功匹配,则待检测URL为恶意URL,否则由流量特征匹配模块完成后续操作;流量特征匹配模块,用于利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包,并将PCAP数据包与所述流量特征库进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行; 自定义规则库,用于存储匹配规则,包括:匹配方式、匹配内容和匹配规则ID号; 流量特征库,用于存储匹配特征,包括:基于已知恶意URL请求获取PCAP数据包,并基于PCAP数据包内容所提取的特征。7.如权利要求6所述的系统,其特征在于,所述待检测URL包括:自定义URL列表、网络爬虫抓取的互联网上的URL或者搜索关键词获取的相关URL。8.如权利要求6所述的系统,其特征在于,还包括白名单匹配模块,用于将队列中的待检测URL与已知白名单匹配,若成功匹配,则待检测URL为安全URL,否则由自动化脚本模拟丰旲块完成后续操作。9.如权利要求6所述的系统,其特征在于,所述编写自动化脚本模拟所述待检测URL的HTTP请求,包括:检查并解密出现的加密函数、高危可执行脚本函数,跟踪重定向URL和解析隐藏URL。10.如权利要求6所述的系统,其特征在于,还包括显示数据库,用于存储判定为恶意URL的待检测URL的相关数据,进行可视化展示。
【专利摘要】本发明公开了一种恶意网页综合检测方法及系统,包括:将待检测URL批量添加至队列中,并为每条待检测URL设置唯一ID编号;提取队列中的待检测URL,并编写自动化脚本模拟所述待检测URL的HTTP请求,获取返回结果和所产生的PCAP数据包,并配置与待检测URL对应的ID编号;对所述返回结果进行格式化处理后,与自定义规则库进行匹配,若成功匹配,则待检测URL为恶意URL,否则利用ID编号获取未成功匹配的待检测URL对应的PCAP数据包;将PCAP数据包与所述流量特征库进行匹配,若成功匹配,则待检测URL为恶意URL,否则予以放行。本发明可以有效检测恶意URL和相关恶意页面内容,能有效解决恶意网页漏报的问题。
【IPC分类】G06F21/56, G06F17/30
【公开号】CN105488400
【申请号】CN201410763648
【发明人】李勇, 李柏松
【申请人】哈尔滨安天科技股份有限公司
【公开日】2016年4月13日
【申请日】2014年12月13日

最新回复(0)