用于预测空气质量的系统和方法

xiaoxiao2021-2-27  181

用于预测空气质量的系统和方法
【技术领域】
[0001] 本申请涉及数据分析领域,具体涉及一种用于预测空气质量的系统和方法。
【背景技术】
[0002] 空气污染与空气质量越来越被人们重视。但由于空气污染物检测设备通常造价很 高、操作麻烦,所W利用其它环境信息(如温度、湿度及可见度等)对空气中有害颗粒(如 PM 2. 5等)进行预测具有极高的社会效益和经济价值。
[0003] 通常,借助历史信息、邻近地区信息等污染物变化信息,对未来时间段和不具有实 地检测条件的空间进行污染物浓度预测。为了预测浓度,主要依赖于统计方法去寻找污染 物浓度分布相似的站点,对待测站点的浓度进行拟合。然而,各种环境因素的实时变化导致 地理上相邻点的污染物浓度信息无法被直接运用到实际的预测当中。

【发明内容】

[0004] 空气污染物浓度除了和地理位置相近有关,很大程度上受到风向的影响。随着风 向变化,不同站点间的污染物浓度关系会产生很大变化。比如,当风向发生180度的变化 时,原来处在上风向的台站就变成了下风向的台站,而台站间的相互关系也发生了变化。为 了提高预测能力,本发明对风向造成的相邻区域的污染物浓度变化进行建模,从而对无监 测站的地点的污染物浓度进行实时预测。
[0005] 根据本发明的第一方面,提供了一种用于预测空气质量的系统,包括:确定单元, 被配置为:根据距离阔值来确定待测地点的邻近区域;训练单元,被配置为:训练预测模型 W获得所述预测模型的最优参数,其中,所述预测模型是基于风向和所述邻近区域的空间 特征而构建的;W及预测单元,被配置为:利用具有所述最优参数的所述预测模型来预测 待测地点的空气质量。
[0006] 在一个实施例中,邻近区域的空间特征包括数值型特征和布尔型特征。
[0007] 在一个实施例中,数值型特征包括W下一项或更多项;邻近区域中的监测站处测 量的风速、温度、湿度、降水量,W及邻近区域中的监测站之间的距离和夹角。
[0008] 在一个实施例中,布尔型特征包括W下一项或更多项;邻近区域中的监测站的相 对方位是否满足特定条件,W及邻近区域中的监测站的相对距离是否大于阔值。
[0009] 在一个实施例中,训练单元被配置为;针对邻近区域中的任意两个监测站,计算所 述任意两个监测站的空间特征和预测值;W及针对邻近区域中的所有监测站,根据计算出 的任意两个监测站的空间特征和预测值,计算预测模型的最优参数,使得通过具有最优参 数的预测模型得到的预测值与真实测量值之差的绝对值之和最小。
[0010] 在一个实施例中,预测单元被配置为:利用待测地点的邻近区域的空间特征,计算 邻近区域中的各个监测站的预测值的加权求和,由此来预测待测地点的空气质量。
[0011] 在一个实施例中,用于每一个监测站的权重与该监测站的训练误差的倒数成正 比,所述训练误差与该监测站的真实测量值和通过具有最优参数的预测模型得到的预测值 的差有关。
[0012] 根据本发明的第二方面,提供了一种用于预测空气质量的方法,包括:根据距离阔 值来确定待测地点的邻近区域;训练预测模型W获得所述预测模型的最优参数,其中,所述 预测模型是基于风向和邻近区域的空间特征而构建的;W及利用具有最优参数的预测模型 来预测待测地点的空气质量。
[0013] 在一个实施例中,邻近区域的空间特征包括数值型特征和布尔型特征。
[0014] 在一个实施例中,数值型特征包括W下一项或更多项;邻近区域中的监测站处测 量的风速、温度、湿度、降水量,W及邻近区域中的监测站之间的距离和夹角。
[0015] 在一个实施例中,布尔型特征包括W下一项或更多项;邻近区域中的监测站的相 对方位是否满足特定条件,W及邻近区域中的监测站的相对距离是否大于阔值。
[0016] 在一个实施例中,针对所述邻近区域中的任意两个监测站,计算任意两个监测站 的空间特征和预测值;W及针对邻近区域中的所有监测站,根据计算出的任意两个监测站 的空间特征和预测值,计算预测模型的最优参数,使得通过具有最优参数的预测模型得到 的预测值与真实测量值之差的绝对值之和最小。
[0017] 在一个实施例中,利用待测地点的邻近区域的空间特征,计算邻近区域中的各个 监测站的预测值的加权求和,由此来预测待测地点的空气质量。
[0018] 在一个实施例中,用于每一个监测站的权重与该监测站的训练误差的倒数成正 比,所述训练误差与该监测站的真实测量值和通过具有最优参数的预测模型得到的预测值 的差有关。
[0019] 本发明通过将风向因素与地理信息结合,克服了邻近区域污染物指数之间关系不 稳定的问题,充分利用了相邻区域间的关联性,提高了空气污染预测的精确度。
【附图说明】
[0020] 通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其 中:
[0021] 图1是示出了根据本发明的用于预测空气质量的系统的框图。
[0022] 图2是示出了根据本发明的用于确定邻近区域的示意图。
[0023] 图3是示出了根据本发明的两个示例监测站与风向的关系的示意图。
[0024] 图4是示出了根据本发明的待测地点与邻近的监测站的示意图。
[0025] 图5是示出了根据本发明的待测地点与邻近的监测站的示意图。
[0026] 图6是示出了根据本发明的用于预测空气质量的方法的流程图。
【具体实施方式】
[0027] 下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变 得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见, 省略了与本发明无关的公知技术的详细描述。
[0028] 图1是示出了根据本发明的用于预测空气质量的系统的框图。如图1所示,系统 10包括确定单元110、训练单元120和预测单元130。下面,详细描述用于预测空气质量的 系统10中的各个单元的操作。
[0029] 确定单元110根据距离阔值来确定待测地点的邻近区域。通过定义距离阔值,获 得待测地点的邻近监测站。距离阔值可W依靠经验来确定。距离阔值越大,则待测地点的 邻近监测站的数目越多。图2是示出了根据本发明的用于确定邻近区域的示意图。如图2 所示,P表示待测地点。当确定距离阔值后,郝些距离P小于送一距离阔值的监测站A、B、 C、D被看成P的邻近监测站,而距离P大于送一距离阔值的监测站E和F不被看成P的邻 近监测站,因此监测站E和F的空气污染指数不用于预测P点的污染指数。
[0030] 训练单元120训练预测模型W获得所述预测模型的最优参数,该预测模型是基于 风向和邻近区域的空间特征而构建的。在本发明的一个实施例中,邻近区域的空间特征可 W包括数值型特征和布尔型特征。例如,数值型特征可W包括W下一项或更多项:邻近区域 中的监测站处测量的风速、
[0031] 温度、湿度、降水量,W及邻近区域中的监测站之间的距离和夹角。布尔型特征可 W包括W下一项或更多项;邻近区域中的监测站的相对方位是否满足特定条件,W及邻近 区域中的监测站的相对距离是否大于阔值。下面,结合附图3来说明数值型特征和布尔型 特征的示例。
[0032] 如图3所示,从监测站A的角度出发,A包括与邻近监测站B的一组数值型特征。 例如,该数值型特征可W是A和B之间的距离或夹角,W及其他特征(例如距离乘W夹角、 距离乘W夹角乘W风速等)。同时,A也包含与其他监测站无关的数值型特征,例如风速、温 度、湿度、降水量等。需要注意的是,A与B之间的夹角是W A为起点的风向为基准而计算 的夹角,取值范围是大于等于0度且小于等于180度。
[0033] 此外,监测站A还 具有布尔型特征(即0-1特征)。送组特征可用于描述监测站 A到其他监测站的关系。例如,布尔型特征可W描述监测站B是否处于监测站A的正东、正 西、正南、正北等方向(比如,对于正东特征,当取值为1时代表B处在A的正东方向,当取 值为0时代表B不在A的正东方向),或监测站B与监测站A的距离是否超过一定阔值(比 女口,当取值为1时代表监测站B与监测站A的距离超过一定阔值,当取值为0时代表监测站 B与监测站A的距离小于一定阔值)。
[0034] 训练单元120针对所述邻近区域中的任意两个监测站,计算所述任意两个监测站 的空间特征和预测值。然后,训练单元120针对所述邻近区域中的所有监测站,根据计算出 的任意两个监测站的空间特征和预测值,计算所述预测模型的所述最优参数,使得通过具 有所述最优参数的所述预测模型得到的预测值与真实测量值之差的绝对值之和最小。下 面,结合图2所示场景来描述训练单元120的具体操作。
[0035] 表1示出了训练单元120计算得到的与监测站A和监测站B有关的特征值。具体 地,表1的第一行描述了 A- > B的特征,第二行描述了从B- > A的特征。表1的最后一列 为每行数据需要预测的目标值。送里,预测目标是两个监测站A和B之间的污染指数的差。
[0036]
[0037] 表 1
[0038] 训练单元120可W按照类似方式,计算邻近区域中的其他监测站彼此之间的特征 值。例如,对于图2的场景来说来说,训练单元120还计算A- > C,A- > D,B- > C,B- > D,C- > A,C- > B,C- > D,D- > A,D- > B,D- > C 的特征值。
[0039] 在一个实施例中,训练单元120采用如下预测模型:
[0040] f (X) = λ 声1+ λ 2而+. . . + 入 ηΧη
[0041] 其中,λ表示预测模型的参数,代表每种特征对预测结果的重要程度。X表示特征 值。送里,特征值共有η项。fOO表示特征值向量X所对应的待测巧,yOO代表特征巧向 量X所对应待测巧的真实巧。在本实施例中,优化目标可W是:求得一组λ,使If狂)-y〇() 最小,其中X=找i,X2,···,ΧιΚ?是训练样本的个数(对于图2的场景来说1 = 12),Xi表 示第i个特征值向量。因此,最终求得的一组参数具有使;
最小的性 质。
[0042] 预测单元130利用具有最优参数的预测模型来预测待测地点的空气质量。优选 地,预测单元130利用待测地点的邻近区域的空间特征,计算所述邻近区域中的各个监测 站的预测值的加权求和,由此来预测待测地点的空气质量。其中,用于每一个监测站的权重 与该监测站的训练误差的倒数成正比,所述训练误差与该监测站的真实测量值和通过具有 最优参数的预测模型得到的预测值的差有关。
[0043] 下面,结合图4所示的示例场景,详细描述训练单元120和预测单元130的操作。
[0044] 如图4所示,待测地点P的周围存在4个邻近监测站A、B、C、D。待测地点P与其 所有邻近监测站A、B、C、D之间都可W计算出一组特征值。因为各邻近监测站的真实值都 是已知的,通过计算差值和真实值的和就可W计算出待测地点P的估计值。通过对各点估 计出的值进行融合,就得到最终的预测结果。
[0045] 具体地,设diffA(i)表示监测站A和地点i的空气质量的真实差值。fA(i)表示 监测站A和地点i的空气质量的预测差值,index表示空气污染指数。
[0046] cliffy (i) = I index (A)-index (i)
[0047] 定义监测站A的损失值如下:
[0048]
[0049] 其中,监测站A的损失值loss(A)表示监测站A到其他各个邻近监测站的训练误 差之和。该值越大,说明W监测站A为基准做出的偏差预测越不精确,所W其在最终预测待 测地点P时所占比重就应当越小。Φ为预设的正值,其目的是防止被零除的发生。例如, Φ可W取0到1之间的某个值。
[0050] 监测站A点的权重可W是监测站A的损失值的倒数与倒数总和的比例:
[0051]
[0052] 其中,分母表示邻近区域内的所有监测站的损失值的倒数之和。
[0053] 最终的预测结果index (巧是各个预测值的加权和,如下:
[0054]
[00巧]其中,fi (巧表示地点i和待测地点P的空气质量的预测差值。
[0056] 下面的算法描述了训练单元120的整个训练过程:
[0057]
[005引上述算法的详细描述如下:
[0059] 输入;数据矩阵X,特征值个数η,数据实例个数1,学习率η
[0060] 输出;模型参数λ 1,...,入。
[0061] 具体过程:
[0062] 1 ;初始化所有模型参数λ 1,...,λ。,即给所有参数赋一个随机值。
[0063] 2 ;计算每个训练样本的损失值之和,即真实值和预测值之间的误差。
[0064] 3 ;对η个特征的参数进行循环
[0065] 4 ;根据误差求得各参数的更新梯度值。
[0066] 5 ;根据求得的梯度值,对每个参数值进行更新,使总误差变小。其中,学习率是梯 rioss 度下降的步长,·^是梯度下降的方向。 J
[0067] 6 :结束循环
[0068] 7-9 :检测是否收敛,若模型收敛则结束迭代过程。判断标准为:如果更新后的模 型得出的误差比前一次模型的误差大,模型就会收敛。收敛表示模型已经达到最优的位置, 再向其他方向寻找得到的都不是最优的。
[006引 10;返回模型参数入1,...,入η。
[0070] 下面,结合图5所示的示例场景,给出系统10用于预测ΡΜ2. 5值的一个具体操作 示例。
[0071] 在设定距离阔值后,确定单元110确定待测地点Ρ的周围存在3个邻近监测站Α、 Β、C,如图5所示。
[0072] 然后,训练单元120抽取出A、B、C Η点的特征值(即上文中提到的布尔型特征和 数值型特征)。然后,训练单元120抽取A、B、C之间的空气污染指数的差。送样,得到下表 2中的训练数据。
[0073]
[0074] 表 2
[00巧]训练单元120按照上文所描述的过程计算使整体预测误差最小的一组参数值 (即,获得基于A、B、C Η点的最优模型)。之后,再次将训练数据输入到最优模型中,得到空 气质量差值的预测值(见下表3的最后一列)。
[0076]
[0077]表 3
[0078] 之后,训练单元120求出各个监测站的训练误差,如下表4所示。
[0079]
[0080] 表 4
[0081] 进一步,训练单元120得到各个监测站的权重值,如下表5所示。
[0082]
[0083] 表 5
[0084] 然后,预测单元130计算各个监测站对待测地点P的预测值(即,预测P与其他监 测站之间的空气质量的差值,见下表6中的最后一列)。
[0085]
[0086] 表 6
[0087] 最后,预测单元130根据之前生成的权重值对送些预测值进行融合,得到最终结 果如下:
[0088] PM2. 5 任)=(2/5) * (-化37) + (1/5) * (-14+48) + (2/5) * (7巧9) = 35. 2
[0089] 本实施例的空气质量预测系统将风向因素与地理信息结合 ,充分利用了相邻区域 间的关联性,从而提高了空气污染预测的精确度。
[0090] 图6是示出了根据本发明一个示例实施例的用于预测空气质量的方法的流程图。 如图6所示,方法60在步骤S610处开始。
[0091] 在步骤S620,根据距离阔值来确定待测地点的邻近区域。
[0092] 在步骤S630,训练预测模型W获得预测模型的最优参数,其中预测模型是基于风 向和邻近区域的空间特征而构建的。例如,邻近区域的空间特征可w包括数值型特征和布 尔型特征。优选地,数值型特征可W包括W下一项或更多项:邻近区域中的监测站处测量的 风速、温度、湿度、降水量,W及邻近区域中的监测站之间的距离和夹角。布尔型特征可W包 括W下一项或更多项;邻近区域中的监测站的相对方位是否满足特定条件,W及邻近区域 中的监测站的相对距离是否大于阔值。
[0093] 优选地,针对邻近区域中的任意两个监测站,计算所述任意两个监测站的空间特 征和预测值。然后,针对邻近区域中的所有监测站,根据计算出的任意两个监测站的空间特 征和预测值,计算预测模型的最优参数,使得通过具有最优参数的预测模型得到的预测值 与真实测量值之差的绝对值之和最小。
[0094] 在步骤S640,利用具有最优参数的预测模型来预测待测地点的空气质量。优选地, 可W利用待测地点的邻近区域的空间特征,计算邻近区域中的各个监测站的预测值的加权 求和,由此来预测待测地点的空气质量。优选地,用于每一个监测站的权重与该监测站的训 练误差的倒数成正比,训练误差与该监测站的真实测量值和通过具有最优参数的预测模型 得到的预测值的差有关。
[009引最后,方法60在步骤S650处结束。
[0096] 应该理解,本发明的上述实施例可W通过软件、硬件或者软件和硬件两者的结合 来实现。例如,上述实施例中的设备内的各种组件可W通过多种器件来实现,送些器件包括 但不限于:模拟电路、数字电路、通用处理器、数字信号处理值SP)电路、可编程处理器、专 用集成电路(ASIC)、现场可编程口阵列(FPGA)、可编程逻辑器件(CPLD),等等。
[0097] 另外,本领域的技术人员可W理解,本发明实施例中描述的初始参数可W存储在 本地数据库中,也可W存储在分布式数据库中或者可W存储在远程数据库中。
[0098] 此外,送里所公开的本发明的实施例可W在计算机程序产品上实现。更具体地,该 计算机程序产品是如下的一种产品;具有计算机可读介质,计算机可读介质上编码有计算 机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作W实现本发明的 上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执 行本发明实施例所述的操作(方法)。本发明的送种设置典型地提供为设置或编码在例如 光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结 构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或 多个模块中的可下载的软件图像、共享数据库等。软件或固件或送种配置可安装在计算设 备上,W使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。
[0099] 尽管W上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将 会理解,在不脱离本发明的精神和范围的情况下,可W对本发明进行各种修改、替换和改 变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
【主权项】
1. 一种用于预测空气质量的系统,包括: 确定单元,被配置为:根据距离阈值来确定待测地点的邻近区域; 训练单元,被配置为:训练预测模型以获得所述预测模型的最优参数,其中,所述预测 模型是基于风向和所述邻近区域的空间特征而构建的;以及 预测单元,被配置为:利用具有所述最优参数的所述预测模型来预测待测地点的空气 质量。2. 根据权利要求1所述的系统,其中,所述邻近区域的空间特征包括数值型特征和布 尔型特征。3. 根据权利要求2所述的系统,其中,所述数值型特征包括以下一项或更多项:所述邻 近区域中的监测站处测量的风速、温度、湿度、降水量,以及所述邻近区域中的监测站之间 的距离和夹角。4. 根据权利要求2所述的系统,其中,所述布尔型特征包括以下一项或更多项:所述邻 近区域中的监测站的相对方位是否满足特定条件,以及所述邻近区域中的监测站的相对距 离是否大于阈值。5. 根据权利要求1所述的系统,其中,所述训练单元被配置为: 针对所述邻近区域中的任意两个监测站,计算所述任意两个监测站的空间特征和预测 值;以及 针对所述邻近区域中的所有监测站,根据计算出的任意两个监测站的空间特征和预测 值,计算所述预测模型的所述最优参数,使得通过具有所述最优参数的所述预测模型得到 的预测值与真实测量值之差的绝对值之和最小。6. 根据权利要求1所述的系统,其中,所述预测单元被配置为:利用待测地点的邻近区 域的空间特征,计算所述邻近区域中的各个监测站的预测值的加权求和,由此来预测待测 地点的空气质量。7. 根据权利要求6所述的系统,其中,用于每一个监测站的权重与该监测站的训练误 差的倒数成正比,所述训练误差与该监测站的真实测量值和通过具有所述最优参数的所述 预测模型得到的预测值的差有关。8. -种用于预测空气质量的方法,包括: 根据距离阈值来确定待测地点的邻近区域; 训练预测模型以获得所述预测模型的最优参数,其中,所述预测模型是基于风向和所 述邻近区域的空间特征而构建的;以及 利用具有所述最优参数的所述预测模型来预测待测地点的空气质量。9. 根据权利要求8所述的方法,其中,所述邻近区域的空间特征包括数值型特征和布 尔型特征。10. 根据权利要求9所述的方法,其中,所述数值型特征包括以下一项或更多项:所述 邻近区域中的监测站处测量的风速、温度、湿度、降水量,以及所述邻近区域中的监测站之 间的距离和夹角。11. 根据权利要求9所述的方法,其中,所述布尔型特征包括以下一项或更多项:所述 邻近区域中的监测站的相对方位是否满足特定条件,以及所述邻近区域中的监测站的相对 距离是否大于阈值。12. 根据权利要求8所述的方法,其中, 针对所述邻近区域中的任意两个监测站,计算所述任意两个监测站的空间特征和预测 值;以及 针对所述邻近区域中的所有监测站,根据计算出的任意两个监测站的空间特征和预测 值,计算所述预测模型的所述最优参数,使得通过具有所述最优参数的所述预测模型得到 的预测值与真实测量值之差的绝对值之和最小。13. 根据权利要求8所述的方法,其中,利用待测地点的邻近区域的空间特征,计算所 述邻近区域中的各个监测站的预测值的加权求和,由此来预测待测地点的空气质量。14. 根据权利要求13所述的方法,其中,用于每一个监测站的权重与该监测站的训练 误差的倒数成正比,所述训练误差与该监测站的真实测量值和通过具有所述最优参数的所 述预测模型得到的预测值的差有关。
【专利摘要】提供了一种用于预测空气质量的系统,包括:确定单元,被配置为根据距离阈值来确定待测地点的邻近区域;训练单元,被配置为训练预测模型以获得所述预测模型的最优参数,其中所述预测模型是基于风向和所述邻近区域的空间特征而构建的;以及预测单元,被配置为利用具有所述最优参数的所述预测模型来预测待测地点的空气质量。还提供了一种用于预测空气质量的方法。本发明通过将风向因素与地理信息结合,充分利用了相邻区域间的关联性,提高了空气污染预测的精确度。
【IPC分类】G06F19/00
【公开号】CN105488316
【申请号】CN201410474871
【发明人】刘博 , 邬亮, 胡卫松, 刘晓炜
【申请人】日本电气株式会社
【公开日】2016年4月13日
【申请日】2014年9月17日

最新回复(0)