一种用于光伏电站数据采集系统的数据处理方法
【技术领域】
[0001]本发明涉及一种用于光伏电站数据采集系统的数据处理方法,属于光伏电站数据处理技术领域。
【背景技术】
[0002]随着人类社会的不断进步,人们需要消耗大量的能源来满足自身的需要,而太阳能是一个清洁型和安全型的可再生资源,因此,世界上很多国家都掀起了开发和利用太阳能的热潮。我国也不例外,针对此项发展,政府制定了一系列扶持光伏发电发展的优惠政策,推动我国光伏事业的发展。
[0003]目前,由于光伏行业数据采集系统普遍只重视数据实时性和高效性,却不重视数据的质量,也没有对数据进行合理的筛选与处理;所以,这直接影响到了数据库中存储数据的速度和质量,也对数据二次价值开发产生了很大的影响。因此本发明针对光伏电站调研数据的特征和数据中出现的问题,制定一种用于光伏电站数据采集系统的数据处理方法。
【发明内容】
[0004]本发明的目的是:为克服现有技术的不足,本发明提供一种用于光伏电站数据采集系统的数据处理方法,针对光伏电站数据采集系统采集数据的质量低,数据不完善等缺点,对数据系统做了一个数据处理模型,采用此模型不仅能提高数据质量,而且还能提高数据的二次利用价值。
[0005]本发明所采用的技术方案是:一种用于光伏电站数据采集系统的数据处理方法,其特征在于,包括以下步骤:
(1)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,把异常数据分为人为原因和系统原因;
A:人为原因用判断域值的方法修正,即根据日常规定或者经验来进行修正;若不能修正,则直接删除;
B:系统原因用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正;若不能修正,则直接删除;
(2)合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机缺失和非随机缺失;
A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值,用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充;
B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身,非随机缺失变量分为字符型和数值型;字符型变量采用多项式填补法来进行填补,数值型变量采用均值填补法进行填补;
(3)通过以上步骤即完成光伏电站数据采集系统的数据处理。
[0006]本发明的有益效果是:本发明提供的光伏电站数据采集系统的数据处理方法:1、利用通俗易懂的方法,对数据进行数据处理、数据修正和缺失值填充;2、使用此方法能提高数据质量,增加数据的利用价值;3、技术人员可根据数据的存储情况来排除设备故障,第一时间与维修人员联系,增加工作效率,减少企业的损失。
【附图说明】
[0007]图1为本发明的用于光伏电站数据采集系统的数据处理方法流程图。
【具体实施方式】
[0008]为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
[0009]如图1所示,本发明实施例提供的一种用于光伏电站数据采集系统的数据处理方法,包括如下步骤:
(I)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,将异常数据分为人为原因和系统原因。
[0010]A:在把原数据录入软件时,日志提示在某行某变量数据错误,导致数据无法录入软件,在保证数据的完整性下,检查出数据中有多个小数点、小数点是逗号、数据后面有小数点等情况;将这种由于人的主观失误、历史局限等造成的数据异常,称为人为原因。用判断域值的方法修正,即根据日常规定或者经验来进行修正,若不能修正,则直接删除。
[0011]B:对数据做描述性统计分析和频数分析,了解数据的最大值、最小值、均值、分位数和频数情况;在频数分析时,出现天气观测有“O”字样;将这种由于数据存储失败、存储器损坏或者其他原因导致的数据异常叫系统原因,用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正,若不能修正,则直接删除。
[0012](2)处理缺失值,把缺失的数据分为随机缺失和非随机缺失。
[0013]A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值。用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。即使用相关系数矩阵来确定哪个变量(如A变量)与缺失值所在变量(B变量)最相关。然后把所有个案按A的取值大小进行排序。那么变量B的缺失值就可以用排在缺失值前的那个个案的数据来代替了。
[0014]B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身。因非随机缺失值只依赖变量本身,在进行填充时,只能借助变量自身的特性;在填充之前,将非随机缺失变量分为字符型和数值型;对字符型变量的缺失值填充可以使用原变量的分布来解决。由于字符型变量的分布一定是离散分布。所以,首先要验证该变量可能是什么离散分布;但是为了简便起见,我们只假定需要填充的变量是服从多项分布的。有了这样一个前提之后,在接下来的填补中,就必须要求填补后的变量分布和填补前的变量分布是相同的,否则就失去了假定的意义。对数字型变量采用均值填补法。处理步骤如下:
B1、确定非随机缺失变量;
B2、把变量分组,一组是字符型,另外一组是数值型(转到B4);
B3、用FREQ过程步求出每个指标出现的频数,即能看到变量存在缺失值的情况,并且能了解到其它的一些信息;
B4、对出现缺失值的变量用SAS程序填补,即可完成;
B5、用SUMMARY过程步求出每个变量的均值;
B6、再把均值对应填补上即可。
[0015]下面以某光伏电站为例详细描述本发明的实施方案,实施的流程和方法如附图1。
[0016](I)该电站数据出现异常数据类型为:1、数据文件为空;2、数据乱码;3、数据异常;针对此数据,首先是处理空文件和乱码数据,然后修正异常数据.A:在把原数据录入软件时,日志提示在35580行开始变量数据错误且风速数据文件是空,导致数据无法录入软件,返回原数据,发现数据乱码,风速数据文件是空集;则用软件删除乱码数据和空文件夹。其它的异常数据处理方法一致,这里不一一举例。
[0017]B:对数据进行描述性统计分析,发现故障状态观测是O,在修正时,可以查看运行日志和日发电量数据,若运行日志记录故障或日发电量数据异常(确定不是由天气异常原因引起的),则故障状态是I,但此电站未给运行日志数据,因此,只能修正一部分发电系统出现故障的数据,其他的则认为系统未出现故障。
[0018](2)缺失值处理。
[0019 ] A:随机缺失值,通过SPEARMAN相关性分析发现AC相电流和电流变量有较强的相关性,并且AC相电流和电流变量特性相同,因此,可以利用热卡填充法对AC相电流和电流变量的缺失值进行填充。首先对AC相电流和电流变量按时间进行排序,然后AC相电流的缺失值用相同时间的电流值来代替即可。其他的随机缺失值处理方法一致,这里不一一举例。
[0020]B:非随机缺失值处理,用SAS软件实现;步骤如下:
B1、确定非随机缺失变量;
B2、把变量分组,一组是字符型,另外一组是数值型(转到B4);
B3、用FREQ过程步求出每个指标出现的频数,即能看到变量存在缺失值的情况,并且能了解到其它的一些信息;
B4、对出现缺失值的变量用SAS程序填补,即可完成;
B5、用SUMMARY过程步求出每个变量的均值;
B6、再把均值对应填补上即可。
[0021]此方法修正了75%的异常数据,其中,人为原因占33.2%,系统原因占41.8%;填补了33.4%的数据,为数据二次价值开发提供了很大的帮助。且技术人员也可根据数据的存储情况来排除设备故障,第一时间与维修人员联系,保证数据库中数据的质量,增加工作效率,减少企业的损失。
[0022]本方法的主要发明点在于:1.本方法针对不同变量的特性,制定填补缺失值的方法,既保留了变量的特性,又充分利用了数据资源,在一定程度上保证了数据的完整性;2.本方法删除无法进行修正的异常数据,是便于正常数据与异常数据的区分,既节省数据库的存储空间,又节省了数据分析人员的数据清洗时间。
[0023]以上仅为本发明的实施例而已,并不用于限制本发明,因此,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
【主权项】
1.一种用于光伏电站数据采集系统的数据处理方法,其特征在于,包括以下步骤: (1)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,把异常数据分为人为原因和系统原因; A:人为原因用判断域值的方法修正,即根据日常规定或者经验来进行修正;若不能修正,则直接删除; B:系统原因用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正;若不能修正,则直接删除; (2)合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机缺失和非随机缺失; A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值,用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充; B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身,非随机缺失变量分为字符型和数值型;字符型变量采用多项式填补法来进行填补,数值型变量采用均值填补法进行填补; (3)通过以上步骤即完成光伏电站数据采集系统的数据处理。
【专利摘要】本发明提供了一种用于光伏电站数据采集系统的数据处理方法,其特征在于,首先对数据做一个细分,将数据分为正常数据和异常数据,通过对异常数据的分析和校验,将异常数据分为人为原因导致和系统原因导致;人为原因导致的,用判断域值的方法修正,不能修正的直接删除;系统原因导致的数据异常,用变量联合匹配的方法修正,不能修正的直接删除;接着合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机和非随机,再分别运用热卡填充法、多项式填补或均值填补方法进行缺失值填补。该方法不仅能提高数据质量,而且还能提高数据的二次利用价值。
【IPC分类】G06Q10/00, G06Q50/06
【公开号】CN105488736
【申请号】CN201510869111
【发明人】王东方, 赵争鸣, 张海宁, 杨晟, 李春来, 杜贵兰, 李正曦, 赵越, 杨立滨, 杨军, 张节潭, 孟可风, 贾昆, 赵世昌
【申请人】国家电网公司, 国网青海省电力公司, 国网青海省电力公司电力科学研究院, 清华大学
【公开日】2016年4月13日
【申请日】2015年12月2日