一种面向电力大数据可视化的数据挖掘方法

xiaoxiao2021-2-25  265

一种面向电力大数据可视化的数据挖掘方法
【技术领域】
[0001] 本发明属于电力大数据数据融合与处理技术领域,特别是涉及一种面向电力大数 据可视化的数据挖掘方法。
【背景技术】
[0002] 电力关系经济发展、社会稳定和群众生活,电力需求变化是经济运行的"晴雨表" 和"风向标",能够真实、客观地反映国民经济的发展状况与态势。根据麦肯锡(McKinsey) 2011年5月发布的《大数据:创新、竞争和生产力的下一个新领域》报告,数据已经渗透到每 一个行业和业务职能领域,逐渐成为重要的生产因素。对于电力行业而言,电力生产涉及的 运行工况、参数、设备运行状态等实时生产数据,现场总线系统所采集的设备监测数据以及 发电量、电压稳定性等方面的数据,电力企业运营和管理数据,如交易电价、售电量、用电客 户信息、ERP综合数据等,共同构成了"电力大数据"。不仅历史数据量巨大,而且实时采集及 产生的数据量正迅速增长。目前面临的问题不仅是如何采集、存储和检索数据,关键是如何 分析和利用此类数据并提供有价值的信息,进而全面管控电力企业业务,为电力企业管理 和战略决策提供数据支撑。
[0003] 由于电力大数据综合了电力企业的产、运、销及运营和管理数据,因此已成为电力 企业深化应用、提升应用层次、强化集团企业管控的有力技术手段。例如,用电行为模式的 认知是发现众多用电行为的规律,利用各类数据分析发现影响用电行为的各种关联因素。 提取用电负荷、电量、电费台账、缴费信息、客户信息、电网网架结构、电价政策、天气参数等 相关数据,建立多层次、多粒度、多刻面的用电行为模型,从不同分类视角(如行业、规模 等)、不同时空粒度,综合全面描述用户用电行为,建立模式识别方法。并以此为依据,利用 各类数据,从用电行为上将相似的用户聚类,并对每类用户的行为模式进行识别与分析,提 取模式特征,支持用电行为模式的深入理解。而这些都必须通过数据分析来完成。
[0004] 数据分析是大数据发挥其核心价值的重要流程,传统的分析技术有数据挖掘、机 器学习、统计分析等,分析的结论可用于推荐系统、专家系统、商业智能和决策支持系统等。 而聚类分析作为数据挖掘中的重要部分可以用来把大量电力客户分组,其中组内的客户具 有非常类似的特征。聚类分析迎合电力大数据的应用需求,例如异常用能、反窃电分析,目 前对于低压用户,主要是通过开盖次数或者用电量突增突减来确定是否有窃电的嫌疑;对 于高压用户,通过检测电压、电流是否异常来确定是否有窃电的嫌疑。因为单纯通过这些数 据得来的疑似用户较多,所以只能对疑似用户数的5%进行现场检查,完成确定工作。借助 数据分析,进行用户用电行为特征分析,分析得出用电行为将作为历史数据存至大数据平 台。从而确定用户有无异常用电行为和窃电行为。避免违章、违规用电,减少偷窃电行为,提 升售电收入。同时,可对窃电重点区域设置预警功能。
[0005] 在数据分析的基础上,终端用户往往最关心的是数据的展示方式,如果分析结果 没有采用适当的解释方法,所得到的分析结论往往让用户难以理解,极端情况下甚至会误 导用户。传统的解释方法仅是文本、图表等电脑终端上的直观显示,提升数据解释能力可以 引入标签云(tagc loud)等数据可视化技术解决,甚至可以采用人机交互技术,在交互过程 中逐步引导用户进入分析流程,达到最佳的数据解释效果。
[0006] 电网业务数据大致可分为生产数据(如发电量、电压稳定性等数据)、运营数据(如 交易电价、售电量、用电客户等数据)和管理数据(如ERP、一体化平台、协同办公等数据)。随 着电网企业信息化建设的不断推进,电网企业的数据量、数据类型、来源等都有了巨大变 化,数据量以几何级爆炸式速度增长,同时数据类型越来越复杂、多样。利用大数据的概念 和技术,深度分析利用电网企业大容量、类型繁多的数据,能够获取大量的数据附加价值, 为电网企业在大数据背景下的发展、管理、规划提供有效支撑。但目前尚缺少有效的面向电 力大数据可视化的数据挖掘方法。

【发明内容】

[0007] 为了解决上述问题,本发明的目的在于提供一种面向电力大数据可视化的数据挖 掘方法。
[0008] 为了达到上述目的,本发明提供的面向电力大数据可视化的数据挖掘方法包括按 顺序执行的下列步骤:
[0009] 步骤1)获取所采集的由&1,&2,一,&"共11个数据样本构成的电力营销数据集4,其中 数据样本 &1为多维向量,将上述η个数据样本中的数据聚类划分成k类,分别为Q,C2,…,Ck, 然后利用核函数将上述划分后的数据映射到核空间中,并确定出各聚类的中心nu,m 2,…, mk;
[0010] 步骤2)构建数据集A相对应的核矩阵;
[0011] 步骤3)缩减核矩阵的规模:削减后的核矩阵记为K%
[0012] 步骤4)为全体数据样本^构造分类向量,然后根据上述步骤获取的缩减后的核矩 阵K1夬速计算距离,更新分类向量,以重新确定该数据样本^的分类归属。
[0013] 在步骤1)中,所述的利用核函数将划分后的数据映射到核空间所采用的公式为:
[0014] 其中:
[0015] k(Xi,Xj)表示核函数;
[0016]函数Φ将Xi,Xj从输入空间#到一个新的空间Rd;
[0017] 〇>〇,是核函数的半径;
[00?8] 所述的确定各聚类的中心mi,m2,…,mk所采用的公式为:
[0019]
[0020] 具中| Q |为类Qi的基数。
[0021 ]在步骤2)中,所述的构建数据集A相对应的核矩阵为:
[0022]
[0023] 其中:
[0024] Kij = K(xi,xj)
[0025] K(xi,xj)= φ (xi) φ (xj)。
[0026] 在步骤3)中,所述的缩减核矩阵的规模的具体方法为:
[0027] 步骤3.1)以升序方式排列核矩阵K中第i行Ki,i = 1,2,…,η,得到一个排序向量 ri:rij,i = l,2,···,]!;其中:
[0028]
[0029] 步骤3.2)将上一步骤中的1^'二值化,然后以降序方式排列1^',」=1,2,-_,11,若 阳'为排序中的前10%,则令^ = 1;否则,令^ = 0;所设置的阈值为10%,得到构造的二值 向量Vi,Vi= [Vil,Vi2,…,Vin]T;
[0030] 步骤3.3)将上一步骤中得到的所有二值向量相加得到/ = Σ二h,定义<是聚 类基数j所得权值;
[0031 ] 步碟3.4)诵讨h-步碟得到的v*计筧出得分向量s:其中:
[0039]
[0040] d中的最小值决定了节点i的新的分类,然后更新分类向量〇直到不再变化为止;
[0041] 步骤4.3)最后将数据样本^中的数据划分到与之最近的聚类中心所在的聚类中, 由此确定出数据样本^的准确聚类。
[0042] 本发明提供的面向电力大数据可视化的数据挖掘方法可以对营销数据进行有效 的聚类和分类分析,可以更好地识别用户群体、获取分类用户用电特征,从而能够为电力营 销智能化奠定基础。
【附图说明】
[0043] 图1为本发明提供的基于面向电力大数据可视化的数据挖掘方法流程图。
【具体实施方式】
[0044] 下面结合附图和具体实施例对本发明提供的面向电力大数据可视化的数据挖掘 方法进行详细说明。
[0045] 如图1所示,本发明提供的面向电力大数据可视化的数据挖掘方法包括按顺序执 行的下列步骤:
[0046] 步骤1)获取所采集的由&1,&2,一,&"共11个数据样本构成的电力营销数据集4,其中 数据样本 &1为多维向量,将上述η个数据样本中的数据聚类划分成k类,分别为Q,C2,…,Ck, 然后利用核函数将上述划分后的数据映射到核空间中,并确定出各聚类的中心nu,m 2,…, mk;
[0047] 步骤2)构建数据集A相对应的核矩阵:在计算高维空间中点积时,并不是在每次计 算距离时再计算核函数,而是一次计算出空间点的所有可能组合的核函数,并存储于核矩 阵中;
[0048] 步骤3)缩减核矩阵的规模:当数据集A规模较大时,则由全体样本^数据点形成 的所有可能组合核函数构成的核矩阵规模巨大,若直接对如此规模的核矩阵进行处理,会 严重降低处理的效率,为此,需要将核矩阵的规模进行缩减,削减后的核矩阵记为K%
[0049] 步骤4)由于初始划分的数据样本而得到的聚类并不是最优的,为此,首先为全体 数据样本^构造分类向量,然后根据上述步骤获取的缩减后的核矩阵K1 夬速计算距离,更 新分类向量,以重新确定该数据样本^的分类归属。
[ 0050] 在步骤1)中,所述的利用核函数将划分后的数据映射到核空间所采用的公式为:
[0051] 其中:
[0052] k(Xi,Xj)表示核函数;
[0053]函数Φ将Xi,Xj从输入空间#到一个新的空间RD;
[0054] 〇>〇,是核函数的半径。
[0055]所述的确定各聚类的中心mi,m2,…,mk所采用的公式为:
[0056]
[0057] 其中|Cs|为类Cs的基数。
[0058] 在步骤2)中,所述的构建数据集A相对应的核矩阵为:
[0059]
[0060] 其中:
[0061] Kij = K(xi,xj)
[0062] K(xi,xj)= φ (xi) φ (xj)。
[0063] 在步骤3)中,所述的缩减核矩阵的规模的具体方法为:
[0064] 步骤3.1)以升序方式排列核矩阵K中第i行Ki,i = 1,2,…,η,得到一个排序向量 ri:rij,i = l,2,···,]!;其中:
[0065]
[0066] 步骤3.2)将上一步骤中的1^'二值化,然后以降序方式排列1^',」=1,2,-_,11,若 阳'为排序中的前10%,则令^ = 1;否则,令^ = 0;所设置的阈值为10%,得到构造的二值 向量Vi,Vi= [Vil,Vi2,…,Vin]T;
[0067] 步骤3.3)将上一步骤中得到的所有二值向量相加得到/ = ,定义 < 是聚 类基数j所得权值;
[0068] 步骤3.4)通过上一步骤得到的/计算出得分向量s;其中:
[0069]
[0070]步骤3.5)选取得分向量8中最大值所属聚类」,即¥ = 3找11^1」(8」);对任一数据样 本&1,若其二值向量为Vl,如果Vlw= 1,则&1属于基数为W的聚类;否则不属于该聚类;
[0071] 步骤3.6)令,= 代入步骤3.4)的公式中,若,矣0,重复步骤3.4)-3.5);若/ =0,进入第i+Ι彳丁,重复步骤3.1)-3.5);
[0072] 步骤3.7)根据步骤3.5)得到的聚类基数w将核矩阵K中某些项置为〇:假设数据样 本&1所属的聚类基数为 Wl,在第i行中,保留Ky值中较大的前¥1项,其余所有项全部设置为 〇;削减后的核矩阵记为Κ '其中的非零项个数记为ηζ。
[0073] 在步骤4)中,所述的为全体数据样本^构造分类向量,然后根据上述步骤获取的 缩减后的核矩阵Κ1 夬速计算距离,更新分类向量,以重新确定该数据样本^的分类归属的 具体方法为:
[0074]步骤4.1)构造分类向量〇,已知节点j ;其中数据样本aj属于〇j,则将所有和节点j同 类的项累加,即其中直接从核矩阵取得;然后对不同的节点j求和;将所 有聚类计算所得Σ+αK;/存储在向量9中,其中qi:i = l,2,…,k;
[0075] 步骤4.2)计算距离d,重复划分聚类:初始化向量dncU表示数据样本ai距其它聚类 的长度,dis = Κ ?+( 1/ | Cs |2)qk;然后遍历与节点i所属同一聚类中的节点j,从d中减去对应 的2(1^」/|〇;|)项,即
[0076]
[0077] d中的最小值决定了节点i的新的分类,然后更新分类向量〇直到不再变化为止;
[0078] 步骤4.3)最后将数据样本^中的数据划分到与之最近的聚类中心所在的聚类中, 由此确定出数据样本^的准确聚类。
【主权项】
1. 一种面向电力大数据可视化的数据挖掘方法,其特征在于:所述的面向电力大数据 可视化的数据挖掘方法包括按顺序执行的下列步骤: 步骤1)获取所采集的由&1,&2,一,&11共11个数据样本构成的电力营销数据集4,其中数据 样本B1为多维向量,将上述η个数据样本中的数据聚类划分成k类,分别为C1,C2, ...,&,然 后利用核函数将上述划分后的数据映射到核空间中,并确定出各聚类的中心nu,m2,...,m k; 步骤2)构建数据集A相对应的核矩阵; 步骤3)缩减核矩阵的规模:削减后的核矩阵记为K% 步骤4)为全体数据样本^构造分类向量,然后根据上述步骤获取的缩减后的核矩阵 快速计算距离,更新分类向量,以重新确定该数据样本^的分类归属。2. 根据权利要求1所述的面向电力大数据可视化的数据挖掘方法,其特征在于:在步骤 1 )中,所述的利用核函数将划分后的数据映射到核空间所采用的公式为:其中: K(Xi,Xj)表示核函数; 函数Φ将Xl,Xj从输入空间Rd到一个新的空间Rd; 〇>0,是核函数的半径; 所述的确定各聚类的中心mi,m2,...,mk所采用的公式为:其中I (? I为类(?的基数。3. 根据权利要求1所述的面向电力大数据可视化的数据挖掘方法,其特征在于:在步骤 2) 中,所述的构建数据集A相对应的核矩阵为:其中: Kij = K(xi,xj) K(Xi,Xj) = Φ (Xi) Φ (Xj)。4. 根据权利要求1所述的面向电力大数据可视化的数据挖掘方法,其特征在于:在步骤 3) 中,所述的缩减核矩阵的规模的具体方法为: 步骤3.1)以升序方式排列核矩阵K中第i行Ki,? = 1,2,···,η,得到一个排序向量ri: rij, ? = 1,2,···,η;其中:步骤3.2)将上一步骤中的ri'二值化,然后以降序方式排列rij' J = 1,2, ...,η,若rij' 为排序中的前IO %,则令Vij = I;否则,令Vij = O;所设置的阈值为IO %,得到构造的二值向 里Vi,Vi = [ Vil,Vi2,. . . , Vin]; 步骤3.3)将上一步骤中得到的所有二值向量相加得到定义是聚类基数 j所得权值; 步骤3.4)通过上一步骤得到的/计算出得分向量s;其中:步骤3.5)选取得分向量8中最大值所属聚类」,8卩¥ = 3找1]^1」(8」);对任一数据样本31, 若其二值向量为^,如果Vlw= 1,则&1属于基数为w的聚类;否则不属于该聚类; 步骤3.6)令V* = Z-V1代入步骤3.4)的公式中,若V*矣O,重复步骤3.4)-3.5);若v* = 0, 进入第i+1彳丁,重复步骤3.1)-3.5); 步骤3.7)根据步骤3.5)得到的聚类基数w将核矩阵K中某些项置为〇:假设数据样本ai 所属的聚类基数为W1,在第i行中,保留Klj值中较大的前^项,其余所有项全部设置为0;削 减后的核矩阵记为K '其中的非零项个数记为nz。5.根据权利要求1所述的面向电力大数据可视化的数据挖掘方法,其特征在于:在步骤 4)中,所述的为全体数据样本^构造分类向量,然后根据上述步骤获取的缩减后的核矩阵 K1 夬速计算距离,更新分类向量,以重新确定该数据样本^的分类归属的具体方法为: 步骤4.1)构造分类向量〇,已知节点j ;其中数据样本^属于Oj,则将所有和节点j同类的 Kjl项累加,即其中Kjl直接从核矩阵取得;然后对不同的节点j求和;将所有聚 类计算所得存储在向量q中,其中qi:i = l,2, . . .,k; 步骤4.2)计算距离d,重复划分聚类:初始化向量Cl1,Cl1表示数据样本&1距其它聚类的长 度,dis= Κ?+(1/ I Cs 12)qk;然后遍历与节点:1所属同一聚类中的节点j,从d中减去对应的2 (Kij/|Qi|)项,即d中的最小值决定了节点i的新的分类,然后更新分类向量O直到不再变化为止; 步骤4.3)最后将数据样本^中的数据划分到与之最近的聚类中心所在的聚类中,由此 确定出数据样本^的准确聚类。
【专利摘要】一种面向电力大数据可视化的数据挖掘方法。其包括获取所采集的由a1,a2,…,an共n个数据样本构成的电力营销数据集A,将n个数据样本中的数据聚类划分成k类,然后利用核函数将上述划分后的数据映射到核空间中,并确定出各聚类的中心;构建数据集A相对应的核矩阵;缩减核矩阵的规模;为全体数据样本aj构造分类向量,然后根据上述步骤获取的缩减后的核矩阵Κ*快速计算距离,更新分类向量,以重新确定该数据样本aj的分类归属。本发明提供的面向电力大数据可视化的数据挖掘方法可以对营销数据进行有效的聚类和分类分析,可以更好地识别用户群体、获取分类用户用电特征,从而能够为电力营销智能化奠定基础。
【IPC分类】G06Q50/06, G06Q30/02, G06Q10/06
【公开号】CN105488628
【申请号】CN201510863738
【发明人】章斌, 赵文清, 王扬, 何金, 赵长伟, 郭晓艳, 崔柏, 刘晨
【申请人】国网天津市电力公司, 国家电网公司
【公开日】2016年4月13日
【申请日】2015年11月30日

最新回复(0)