旅客目的地预测方法及系统的制作方法
【技术领域】
[0001] 本发明涉及航空领域的数据处理技术,尤其涉及一种旅客目的地预测方法及系 统。
【背景技术】
[0002] 随着航空市场的飞速发展,越来越多的旅客选择乘坐飞机出行,但对于旅客出行 目的地的预测技术目前在航空领域寥寥无几,其问题主要在于如果以小规模数据进行预 测,结果的准确度不尽如人意;而使用全市场民航旅客数据,计算时间过长,所需空间过大, 这些都是不可接受的。
[0003] 为了解决旅客目的地预测在计算时间与计算空间上的技术难题,需要一种能够应 用于航空领域的旅客目的地预测技术。
【发明内容】
[0004] 为解决现有存在的技术问题,本发明实施例提供一种旅客目的地预测方法及系 统。
[0005] 为达到上述目的,本发明实施例的技术方案是这样实现的:
[0006] -种旅客目的地预测方法,所述方法包括:
[0007] 根据旅客历史出行记录的多种特征向量,判断出行类型,得到包含出行类型信息 的旅客历史出行记录;
[0008] 对所述旅客历史出行记录进行目的区域整合,得到包含目的地区域信息的旅客历 史出行记录;
[0009] 根据所述出行类型,将所述旅客历史出行记录进行分类,并计算各分类的权重;
[0010] 对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的地的指定出行概 率;
[0011]使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进行关联分析,得 到各个目的地与其他所有目的地之间的随机出行概率;
[0012]根据各个目的地的指定出行概率与随机出行概率、以及各分类的权重,进行权重 整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预测旅客到各个目的 地的概率。
[0013]其中,在对所述旅客历史出行记录进行目的区域整合之前,所述方法还包括:将所 述旅客历史出行记录中的中转地以及常驻地去除,以去除所述旅客历史出行记录的噪音。
[0014] 其中,所述对所述旅客历史出行记录进行目的区域整合,包括:
[0015] 以旅客量越大分类越细致的原则对各个目的地机场进行整合细分,得到机场三字 码与目的地区域之间的映射列表;
[0016] 对于目的地为机场三字码的旅客历史出行记录,根据所述机场三字码与目的地区 域之间的映射列表,将机场三字码转换为目的地区域信息,得到包含目的地区域信息的旅 客历史出行记录。
[0017] 其中,根据所述出行类型,将所述旅客历史出行记录进行分类,并计算各分类的权 重,包括:
[0018] 根据所述出行类型,将所述旅客历史出行记录分为两类:指定目的地和随机目的 地;
[0019] 根据旅客不同分类的出行次数,确定各个分类的权重,得到指定目的地权重和随 机目的地权重。
[0020] 其中:所述出行类型为预先配置;所述出行类型与所述旅客历史出行记录分类之 间的关系为预先配置;根据所述出行类型,将所述旅客历史出行记录分为两类,为:基于预 先配置的出行类型与所述旅客历史出行记录分类之间的关系,将将所述旅客历史出行记录 分为两类。
[0021] 其中,所述使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进行关 联分析,包括:
[0022] 扫描当前旅客的事务数据库,计算每个目的地在所有旅客历史出行记录中出现的 频数,并删除频数小于预设的最小支持度的目的地,将剩余的所有目的地按照频数递减排 序,得到频繁项集;
[0023] 基于所述频繁项集,对当前旅客的每条旅客历史出行记录中各个目的地进行重新 排序;
[0024] 将重新排序得到的旅客历史出行记录插入FPTree,所述FPTree中一个节点表示一 个目的地,一条路径对应一条旅客历史出行记录,每条路径上节点的计数值表示支持度,所 述支持度用于确定任意两个目的地间的关联程度;
[0025]从所述FPTree找出频繁项,得到每个目的地二项之间的频繁项集合,所述频繁项 集合包括每个目的地与其他各个目的地之间的支持度;
[0026] 基于所述每个目的地二项之间的频繁项集合,得到每个目的地到其它各个目的地 的随机出行概率。
[0027] 其中,一个目的地到其它任意一个目的地的随机出行概率为:该目的地与其它任 意一个目的地之间的支持度与该目的地到各个目的地的支持度之和之间的比值。
[0028] -种旅客目的地预测系统,所述系统包括:出行类型判断模块、目的地整合模块、 历史记录分类模块、统计归纳模块、关联分析模块以及权重整合模块;其中,
[0029] 出行类型判断模块,用于根据旅客历史出行记录的多种特征向量,判断出行类型, 得到包含出行类型信息的旅客历史出行记录;
[0030] 目的地整合模块,用于对所述旅客历史出行记录进行目的区域整合,得到包含目 的地区域信息的旅客历史出行记录;
[0031] 历史记录分类模块,用于根据所述出行类型,将所述旅客历史出行记录进行分类, 并计算各分类的权重;
[0032] 统计归纳模块,用于对指定目的地的旅客历史出行记录进行统计归纳,得到各个 目的地的指定出行概率;
[0033]关联分析模块,用于使用频繁模式树FPTree算法对随机目的地的旅客历史出行记 录进行关联分析,得到各个目的地与其他所有目的地之间的随机出行概率;
[0034] 权重整合模块,用于根据各个目的地的指定出行概率与随机出行概率、以及各分 类的权重,进行权重整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预 测旅客到各个目的地的概率。
[0035] 其中,所述系统还包括:历史记录筛选模块,用于在所述目的地整合模块对所述旅 客历史出行记录进行目的区域整合之前,将所述旅客历史出行记录中的中转地以及常驻地 去除,以去除所述旅客历史出行记录的噪音。
[0036] 其中,所述目的地整合模块,具体用于:以旅客量越大分类越细致的原则对各个目 的地机场进行整合细分,得到机场三字码与目的地区域之间的映射列表;对于目的地为机 场三字码的旅客历史出行记录,根据所述机场三字码与目的地区域之间的映射列表,将机 场三字码转换为目的地区域信息,得到包含目的地区域信息的旅客历史出行记录。
[0037] 其中,所述历史记录分类模块,具体用于:根据所述出行类型,将所述旅客历史出 行记录分为两类:指定目的地和随机目的地;根据旅客不同分类的出行次数,确定各个分类 的权重,得到指定目的地权重和随机目的地权重。
[0038] 其中,所述出行类型为预先配置;所述出行类型与所述旅客历史出行记录分类之 间的关系为预先配置;所述历史记录分类模块具体用于基于预先配置的出行类型与所述旅 客历史出行记录分类之间的关系,将将所述旅客历史出行记录分为两类。
[0039] 其中,所述关联分析模块具体用于:扫描当前旅客的事务数据库,计算每个目的地 在当前旅客所有旅客历史出行记录中出现的频数,并删除频数小于预设的最小支持度的目 的地,将剩余的所有目的地按照频数递减排序,得到频繁项集;基于所述频繁项集,对当前 旅客的每条旅客历史出行记录中各个目的地进行重新排序;将重新排序得到的旅客历史出 行记录插入FPTree,所述FPTree中一个节点表示一个目的地,一条路径对应一条旅客历史 出行记录,每条路径上节点的计数值表示支持度,所述支持度用于确定任意两个目的地间 的关联程度;从所述FPTree找出频繁项,得到每个目的地二项之间的频繁项集合,所述频繁 项集合包括每个目的地与其他各个目的地之间的支持度;基于所述每个目的地二项之间的 频繁项集合,得到每个目的地到其它各个目的地的随机出行概率。
[0040] 其中,一个目的地到其它任意一个目的地的随机出行概率为:该目的地与其它任 意一个目的地之间的支持度与该目的地到各个目的地的支持度之和之间的比值。
[0041] 本发明实施例将关联分析算法频繁模式树(FPTree,Frequent Pattern tree)与 旅客历史出行记录相结合,结合旅客出行目的划分,使用关联分析与统计归纳预测旅客出 行目的地,使得计算时间大幅减少,解决了旅客目的地预测在计算时间与计算空间上的技 术难题,为旅客级数据增加了新的元素。
[0042]本发明实施例具有以下优点:使用FPTree算法进行数据关联分析,大幅减少计算 时间。由于旅客级别数据在数据融合方面也有着得天独厚的条件,所有旅客级数据均可以 以旅客身份唯一标识进行数据融合,从而得到多维度的旅客个体信息,大而全的旅客数据 集保证了本发明实施例预测结果的准确性与实用性。
【附图说明】
[0043]在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相 似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而 非限制的方式大体示出了本文中所讨论的各个实施例。
[0044] 图1为本发明实施例旅客目的地预测方法的流程示意图;
[0045] 图2为本发明实施例旅客目的地预测方法具体实现过程的流程示意图;
[0046] 图3为本发明实施例旅客目的地预测系统的组成结构示意图;
[0047]图4~7为本发明实施例一示例中生成FP-Tree的示意图。
【具体实施方式】
[0048] 实施例一
[0049] 本发明实施例提供了一种旅客目的地预测方法,如图1所示,主要可以包括如下步 骤:
[0050] 步骤101:根据旅客历史出行记录的多种特征向量,判断出行类型,得到包含出行 类型信息的旅客历史出行记录;
[0051] 步骤102:对所述旅客历史出行记录进行目的区域整合,得到包含目的地区域信息 的旅客历史出行记录;
[0052] 步骤103:根据所述出行类型,将所述旅客历史出行记录进行
分类,并计算各分类 的权重;
[0053] 步骤104:对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的地的指 定出行概率;
[0054]步骤105:使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进行关 联分析,得到各个目的地与其他所有目的地之间的随机出行概率;
[0055]步骤106:根据各个目的地的指定出行概率与随机出行概率、以及各分类的权重, 进行权重整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预测旅客到 各个目的地的概率。
[0056] 本发明实施例将关联分析算法即频繁模式树(FPTree,Frequent Pattern tree) 与民航的历史出行记录相结合,使得计算时间大幅减少,可以使用民航全市场四年旅客出 行记录为数据基础,结合旅客出行目的划分,使用关联分析与统计归纳预测旅客出行目的 地。
[0057] 实施例二
[0058] 本发明实施例对旅客目的地预测方法的具体实现过程进行详细说明。
[0059] 如图2所示,旅客目的地预测方法的具体实现过程可以包括如下步骤:
[0060] 步骤201:根据旅客历史出行记录的多种特征向量,判断出行类型,得到包含出行 类型信息的旅客历史出行记录;
[0061] 步骤202:将所述旅客历史出行记录中的中转地以及常驻地去除,以去除所述旅客 历史出行记录的噪音;
[0062] 步骤203:对所述旅客历史出行记录进行目的区域整合,得到包含目的地区域信息 的旅客历史出行记录;
[0063] 具体地,以旅客量越大分类越细致的原则对各个目的地机场进行整合细分,得到 机场三字码与目的地区域之间的映射列表;对于目的地为机场三字码的旅客历史出行记 录,根据所述机场三字码与目的地区域之间的映射列表,将机场三字码转换为目的地区域 信息,得到包含目的地区域信息的旅客历史出行记录。
[0064] 步骤204:根据所述出行类型,将所述旅客历史出行记录分为两类:指定目的地和 随机目的地;根据旅客不同分类的出行次数,确定各个分类的权重,得到指定目的地权重和 随机目的地权重;
[0065] 这里,所述出行类型为预先配置;所述出行类型与所述旅客历史出行记录分类之 间的关系为预先配置;根据所述出行类型,将所述旅客历史出行记录分为两类,为:基于预 先配置的出行类型与所述旅客历史出行记录分类之间的关系,将将所述旅客历史出行记录 分为两类。
[0066] 步骤205:对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的地的指 定出行概率;
[0067]步骤206:使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进行关 联分析,得到各个目的地与其他所有目的地之间的随机出行概率;
[0068]步骤207:根据各个目的地的指定出行概率与随机出行概率、以及各分类的权重, 进行权重整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预测旅客到 各个目的地的概率。
[0069]其中,步骤206的关联分析具体可以通过如下流程实现:
[0070] 步骤al:扫描当前旅客的事务数据库,计算每个目的地在所有旅客历史出行记录 中出现的频数,并删除频数小于预设的最小支持度的目的地,将剩余的所有目的地按照频 数递减排序,得到频繁项集;
[0071] 步骤a2:基于所述频繁项集,对当前旅客的每条旅客历史出行记录中各个目的地 进行重新排序;
[0072] 步骤a3:将重新排序得到的旅客历史出行记录插入FPTree,所述FPTree中一个节 点表示一个目的地,一条路径对应一条旅客历史出行记录,每条路径上节点的计数值表示 支持度,所述支持度用于确定任意两个目的地间的关联程度;
[0073]步骤a4:从所述FPTree找出频繁项,得到每个目的地二项之间的频繁项集合,所述 频繁项集合包括每个目的地与其他各个目的地之间的支持度;
[0074] 步骤a5:基于所述每个目的地二项之间的频繁项集合,得到每个目的地到其它各 个目的地的随机出行概率。
[0075] 这里,一个目的地到其它任意一个目的地的随机出行概率为:该目的地与其它任 意一个目的地之间的支持度与该目的地到各个目的地的支持度之和之间的比值。
[0076] 本发明实施例将关联分析算法即频繁模式树(FPTree,Frequent Pattern tree) 与民航的历史出行记录相结合,结合旅客出行目的划分,使用关联分析与统计归纳预测旅 客出行目的地,不仅解决了旅客目的地预测在计算时间与计算空间上的技术难题,为旅客 级数据增加了新的元素。而且可以结合Hadoop集群,以分布式存储的方式解决全市场民航 数据的空间存储问题。实际应用中,本发明实施例能够帮助航空公司及航空生态系统其他 环节相关企业提高对航空市场的了解与把控,随着旅客出行目的地预测准确率的上升,航 空运输成本将持续降低,吸引更多旅客进入航空市场。伴随着加入目的地建模预测旅客人 数的增加,旅客出行目的地预测的准确率也将进一步提升,从而形成一个良好的闭环,同时 也为此技术的持续发展提供有力的支持。
[0077] 实施例三
[0078] 本发明实施例还提供了一种旅客目的地预测系统,所述系统可以包括:出行类型 判断模块、目的地整合模块、历史记录分类模块、统计归纳模块、关联分析模块以及权重整 合模块。其中,
[0079] 出行类型判断模块,用于根据旅客历史出行记录的多种特征向量,判断出行类型, 得到包含出行类型信息的旅客历史出行记录;
[0080] 目的地整合模块,用于对所述旅客历史出行记录进行目的区域整合,得到包含目 的地区域信息的旅客历史出行记录;
[0081] 历史记录分类模块,用于根据所述出行类型,将所述旅客历史出行记录进行分类, 并计算各分类的权重;
[0082] 统计归纳模块,用于对指定目的地的旅客历史出行记录进行统计归纳,得到各个 目的地的指定出行概率;
[0083]关联分析模块,用于使用频繁模式树FPTree算法对随机目的地的旅客历史出行记 录进行关联分析,得到各个目的地与其他所有目的地之间的随机出行概率;
[0084]权重整合模块,用于根据各个目的地的指定出行概率与随机出行概率、以及各分 类的权重,进行权重整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预 测旅客到各个目的地的概率。
[0085] 本发明实施例将关联分析算法即频繁模式树(FPTree,Frequent Pattern tree) 与民航的历史出行记录相结合,结合旅客出行目的划分,使用关联分析与统计归纳预测旅 客出行目的地,不仅解决了旅客目的地预测在计算时间与计算空间上的技术难题,为旅客 级数据增加了新的元素。而且可以结合Hadoop集群,以分布式存储的方式解决全市场民航 数据的空间存储问题。实际应用中,本发明实施例能够帮助航空公司及航空生态系统其他 环节相关企业提高对航空市场的了解与把控,随着旅客出行目的地预测准确率的上升,航 空运输成本将持续降低,吸引更多旅客进入航空市场。伴随着加入目的地建模预测旅客人 数的增加,旅客出行目的地预测的准确率也将进一步提升,从而形成一个良好的闭环,同时 也为此技术的持续发展提供有力的支持。
[0086] 实施例四
[0087] 本发明实施例对旅客目的地预测系统进行详细说明。
[0088] 如图3所示,本发明实施例的旅客目的地预测系统系统可以包括:出行类型判断模 块、历史记录筛选模块、目的地整合模块、历史记录分类模块、统计归纳模块、关联分析模块 以及权重整合模块;各个模块相对独立,所有模块均可用功能相似之方法实现,并替换原有 功能模块。其中,
[0089] 出行类型判断模块,用于对旅客历史出行记录进行出行目的判断,得到包含出现 类型信息的旅客历史出行记录。输入是原始旅客历史出行记录,输出是添加了出行类型信 息后的旅客历史出行记录。
[0090] 历史记录筛选模块,用于筛选适合数据挖掘的旅客出行目的记录,去除原始旅客 历史出行记录的噪音,提高数据质量。噪音包括旅客中转地、旅客客源地等信息。本模块的 输入是原始旅客历史出行记录,输出为去除噪音后的旅客历史出行记录。
[0091]目的地整合模块,用于对目的地稀疏矩阵进行稠密化,将不同目的地机场三字码 按照预先设定的规律进行整合,得到目的地机场与目的地区域的映射列表,根据所述映射 列表将以机场三字码为目的地的旅客历史出行记录转换为以目的地区域为目的地的旅客 历史出行记录。本模块的输入为以机场三字码为目的地的旅客历史出行记录,输出为以目 的地区域为目的地的旅客历史出行记录。
[0092] 历史记录分类模块,用于对旅客历史出行记录进行分类,以便后续使用不同的挖 掘算法。分类按照不同出行目的确定,最终将旅客历史出行记录分为指定目的地与随机目 的地两类。本模块输入为加工后的旅客历史出行记录,输出包括指定目的地旅客历史出行 记录和随机目的地旅客历史出行记录。
[0093] 统计归纳模块,用于针对于分类后的指定目的地旅客历史出行记录,进行统计归 纳后得到指定目的地旅客目的地概率列表。本模块输入为指定目的地旅客历史出行记录, 输出为指定目的地旅客目的地概率列表。
[0094] 关联分析模块,用于对随机出行目的的旅客历史出行记录进行关联挖掘,使用 FPTree算法进行分析预测,并将结果转化为百分比概率,得到随机目的地旅客目的地概率 列表。本模块输入为加工后的随机目的地旅客历史出行记录,输出为随机目的地旅客目的 地概率列表。
[0095] 权重整合模块,用于将指定目的地旅客概率列表与随机目的地旅客概率列表按照 出行区域进行汇总。本模块输入包括指定目的地旅客目的地概率列表与随机目的地旅客目 的地概率列表,输出为整合后的旅客出行目的地预测概率列表。
[0096] 本发明实施例中,出行类型判断模块用于依
据旅客出行随行人员等多个特征向 量,判断旅客当前次出行的真实出行类型。其中,旅客出行随行人员等多个特征向量可以从 旅客历史出行记录中获得。例如,可以将出行类型暂分为四个子类:商务出行、旅游休闲、探 亲访友、外出求学。关于出行类型,可以根据实际需要进行预先配置或者预先设定。
[0097] 鉴于旅客历史出行记录中的目的地不仅仅包含旅客真实目的地,还包括中转地以 及返程时的旅客常驻地,而这些记录无疑对旅客出行目的地预测起到干扰的作用。因此为 了减少噪音,提高目的地预测的准确性,本发明实施例中历史记录筛选模块将旅客历史出 行记录中的中转地以及常驻地去除。
[0098] 实际上,旅客出行信息以航线为单位,目的地为机场三字码。为克服旅客目的地矩 阵过于稀疏的问题,旅客目的地需要一定程度的归纳整合。本发明实施例中目的地整合模 块以旅客量越大分类越细致的原则对各个目的地机场进行整合细分,最终得到机场三字码 与目的地区域的映射列表。对于某一个或多个,基于上述的映射列表,将旅客历史出行记录 中的机场三字码转换为目的地区域,得到包含有目的地区域的旅客历史出行记录。对于已 经包含有目的地区域的旅客历史出行记录,可以不做上述处理。
[0099] 本发明实施例中历史记录分类模块依据旅客出行目的地是否受旅客主观意识影 响,将该旅客历史出行记录按照指定目的地与随机目的地进行分类。根据出行类型判断模 块得到的出行类型,确定旅客历史出行记录的目的地为指定目的地还是随机目的地。一般 来说,商务出行其目的地取决于旅客所在公司或客户地点,探亲访友目的地取决于亲友所 在地,外出求学目的地取决于学校所在地,此三类出行的目的地不随旅客主观意识的改变 而改变,因此将此三类出行统称为指定目的地出行,其旅客历史出行记录为指定目的地旅 客历史出行记录。而旅游休闲出行目的地则不尽相同,其目的地随机性较大,随旅客主观意 识的改变而改变,因此将其归入随机目的地出行。
[0100] 本发明实施例中历史记录分类模块在分类完成后,需要按照不同分类的出行次 数,确定某个旅客的分类权重。
[0101] 分类权重公式为:
[0102] 指定目的地权重=(商务出行次数+探亲访友次数+外出求学次数)/该旅客总出行 次数;
[0103] 随机目的地权重=旅游休闲次数/该旅客总出行次数;
[0104] 基于上述分类权重公式,可以确定某个旅客出行的指定目的地权重和随机目的地 权重。
[0105] 本发明实施例的统计归纳模块,将指定目的地旅客历史出行记录按照不同目的地 进行分类统计,用于确定各个指定目的地的出行概率。由于指定目的地出行有着不受旅客 主观意识影响的特性,因此,本发明实施例对于指定目的地出行的旅客历史出行记录采用 统计归纳的方式计算各个目的地的统计归纳概率。
[0106] 具体地,目的地的统计归纳概率公式为:指定出行概率=指定目的地出行次数/该 分类下旅客出行总数。
[0107] 本发明实施例中关联分析模块,是最核心的部分。关联分析模块将随机目的地旅 客历史出行记录进行关联分析,预测该旅客出行各个目的地的可能性。关联分析算法众多, 鉴于I/O开支对性能的影响,本发明实施例选用无需多次扫描事务数据库的FPTree算法进 行关联分析。
[0108] 严格地说,FP-Tree是寻找频繁项集的算法,频繁项集就是所谓的"支持度"比较高 的项集,下面解释一下支持度和置信度的概念。FP-Tree即通过设置支持度与置信度得到各 个目的地之间关联关系的算法,基于强关联规则找到各个目的地之间的关联关系进行分 析,得到各个目的地的随机出行概率。支持度用于最后确定两个目的地间的关联程度,置信 度的设置是为了排除小概率事件对结果的影响。强关联规则是在满足一定支持度的情况下 寻找置信度达到阈值的所有模式。
[0109] 例如,设事务数据库为: 北京 上海 深圳 沈阳 北京 深圳 沈阳
[0110] 北京 广州 上海 深圳 沈阳 上海 深圳 沈阳
[0111]贝IJ {北京,深圳,沈阳}的支持度数为3,支持度为3/4。
[0112] {深圳,沈阳}的支持度数为4,支持度为4/4。
[0113] {北京}的支持度数为3,支持度为3/4。
[0114] {深圳,沈阳}=>{北京}的置信度为:{北京,深圳,沈阳}的支持度数除以{深圳,沈 阳}的支持度数,即3/4。
[0115] {北京}=>{深圳,沈阳}的置信度为:{北京,深圳,沈阳}的支持度数除以{北京}的 支持度数,即3/3。
[0116] 由此可以得到每个目的地二项之间频繁项集集合的支持度如下表1所示,其中,每 一行表示第一列的目的地与其他目的地之间的支持度,第一列表示当前目的地,第二列表 示当前目的地与其他各个目的地之间的支持度数值,该支持度数值表示经过当前目的地的 所有出行经过其他各个目的地的次数,总出行次数表示经过当前目的地的所有出行次数。
[0117] L0118J 表1
[0119] 从某个地域到目的地的随机出行概率为:该地域与目的地之间的支持度与该地域 到各个目的地的支持度之和之间的比值。例如,某个旅客从北京到上海的随机出行概率为: 北京到上海的支持度2与北京到各个目的地的支持度之和9(9 = 2+1+3+3)的比值。
[0120] 下面举例详细说明FP-Tree算法的完整实现过程。
[0121] 例如,事务数据库如下表2所示,其中,一行表示一条旅客历史出行记录。
[0122]
[0123] 表2
[0124] 本发明实施例关联分析的目的是要找出哪些目的地总是相伴出现的,比如去厦门 的旅客通常去过上海,贝[厦门,上海]就是一条频繁模式(frequent pattern)。
[0125] FP-Tree算法的实现过程包括如下步骤:
[0126] 步骤bl:扫描事务数据库,每项旅客历史出行记录按频数递减排序,并删除频数小 于最小支持度(MinSup)的目的地。这是第一次扫描数据库。
[0127] 对于上述表1所示的例子,步骤301处理后得到的结果是:厦门7,上海7西安7,北京 6,广州4,这里,令MinSup = 3。
[0128] 以上结果就是频繁1项集,记为F1。
[0129] 步骤b2:对于每一条旅客历史出行记录,按照F1中的顺序重新排序,得到的结果如 下:
[0130] 厦门,上海,西安,北京
[0131]厦门,上海,广州
[0132]厦门,上海,西安
[0133]厦门,上海,西安,北京,广州
[0134]西安,北京,广州
[0135]上海,西安,广州
[0136]厦门,西安,北京
[0137]厦门,上海,西安,北京
[0138]厦门,上海,北京
[0139] 步骤b3:将步骤b2得到的各条记录插入到FP-Tree中。刚开始时后缀模式为空。
[0140] 首先,插入第一条记录(厦门,上海,西安,北京),得到的FP-Tree如图4所示。
[0141]其次,插入第二条记录(厦门,上海,广州),得到的FP-Tree如图5所示。
[0142] 再次,插入第三条记录(西安,北京,广州),得到的FP-Tree如图6所示。
[0143] 以此类推,最终生成的FP-Tree如图7所示。
[0144]图4~6中,左边的那一叫做表头项,树中相同名称的节点要链接起来,链表的第一 个元素就是表头项里的元素。如果FP-Tree为空(只含一个虚的root节点),则FP-Growth函 数返回。此时输出表头项的每一项+p〇stModel,支持度为表头项中对应项的计数。其中,节 点名称为目的地名称,每个节点的计数值为支持度。
[0145] 步骤b4:从FP-Tree中找出频繁项,得到每个目的地二项之间的频繁项集合,所述 频繁项集合包括每个目的地与其他各个目的地之间的支持度。
[0146] 遍历表头项中的每一项(以"北京6"为例),对于各项都执行以下(1)到(5)的操作:
[0?47] (1)从FP-Tree中找到所有的"北京"节点,向上遍历它的祖先节点,得至丨」4条记录如 下表:
[0148]
[0149] (2)对于每一条路径上的节点,其count都设置为北京的count,得到如下四条记 录:
[0150]
?〇?5?~(3)因为每一项末尾都是北京,可以把北京去掉,得到北京的条件模式基如下表所^ 示(Conditional Pattern Base,CPB),此时的后缀模式是:(北京)。
[0152]
L〇153」(4)按照(1)~(3)分别得到其他各个地域的条仵模式基;
[0154] (5)根据各个地域的条件模式基,得到每个地域二项频繁项集的支持度表,并根据 该支持度表计算各个地域的随机出行概率。
[0155] 权重整合模块,用于将统计归纳模块与关联分析模块的结果按照权重进行整合。 首先按照目的地类型进行分类权重的计算,而后将同一目的地统计归纳的结果与关联分析 的结果按分类权重进行整合,得到目的地出行概率。其中,目的地出行概率是指某个特定旅 客(例如旅客甲)到某个特定目的地(例如,北京)的出行概率。
[0156] 目的地出行概率的公式为:目的地出行概率=指定目的地权重X该目的地的指定 出行概率+随机目的地权重X该目的地的随机出行概率。
[0157] 其中,根据旅客历史出行记录,如指定目的地出行8次,随机目的地出行12次,那么 指定目的地权重= 8 + (8+12) =40%,随机目的地同理,不再赘述。
[0158] 实际应用中,本发明实施例还可以与其他旅客及数据进行融合,根据融合数据的 不同类型,本发明实施例应用场景将十分广泛。预测结果可以为航
空市场分析报告提供有 利的数据支持。因为该技术可以运用到旅客个体,而不仅仅是全市场的区域性预测分析,航 空公司及各大0ΤΑ皆可以运用此技术实现自己的个性化推荐引擎。甚至随着预测准确率的 不断提升,航空公司完全有可能依据预测的结果来调整航班班期以及航线网络布局。旅客 出行目的地预测算法的问世,受益者将远不止航空公司。酒店、租车、景区旅游、餐饮行业等 与旅客出行相关产业均可以利用本发明实施例预测结果精准定位有效客源,而后加以推 广,从而提升其有效收益。
[0159] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形 式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储 介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0160] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0162] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
【主权项】
1. 一种旅客目的地预测方法,其特征在于,所述方法包括: 根据旅客历史出行记录的多种特征向量,判断出行类型,得到包含出行类型信息的旅 客历史出行记录; 对所述旅客历史出行记录进行目的区域整合,得到包含目的地区域信息的旅客历史出 行记录; 根据所述出行类型,将所述旅客历史出行记录进行分类,并计算各分类的权重; 对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的地的指定出行概率; 使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进行关联分析,得到各 个目的地与其他所有目的地之间的随机出行概率; 根据各个目的地的指定出行概率与随机出行概率、以及各分类的权重,进行权重整合 计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预测旅客到各个目的地的 概率。2. 根据权利要求1所述的方法,其特征在于,在对所述旅客历史出行记录进行目的区域 整合之前,所述方法还包括:将所述旅客历史出行记录中的中转地以及常驻地去除,以去除 所述旅客历史出行记录的噪音。3. 根据权利要求1所述的方法,其特征在于,所述对所述旅客历史出行记录进行目的区 域整合,包括: 以旅客量越大分类越细致的原则对各个目的地机场进行整合细分,得到机场三字码与 目的地区域之间的映射列表; 对于目的地为机场三字码的旅客历史出行记录,根据所述机场三字码与目的地区域之 间的映射列表,将机场三字码转换为目的地区域信息,得到包含目的地区域信息的旅客历 史出行记录。4. 根据权利要求1所述的方法,其特征在于,根据所述出行类型,将所述旅客历史出行 记录进行分类,并计算各分类的权重,包括: 根据所述出行类型,将所述旅客历史出行记录分为两类:指定目的地和随机目的地; 根据旅客不同分类的出行次数,确定各个分类的权重,得到指定目的地权重和随机目 的地权重。5. 根据权利要求4所述的方法,其特征在于: 所述出行类型为预先配置;所述出行类型与所述旅客历史出行记录分类之间的关系为 预先配置; 根据所述出行类型,将所述旅客历史出行记录分为两类,为:基于预先配置的出行类型 与所述旅客历史出行记录分类之间的关系,将将所述旅客历史出行记录分为两类。6. 根据权利要求1所述的方法,其特征在于,所述使用频繁模式树FPTree算法对随机目 的地的旅客历史出行记录进行关联分析,包括: 扫描当前旅客的事务数据库,计算每个目的地在所有旅客历史出行记录中出现的频 数,并删除频数小于预设的最小支持度的目的地,将剩余的所有目的地按照频数递减排序, 得到频繁项集; 基于所述频繁项集,对当前旅客的每条旅客历史出行记录中各个目的地进行重新排 序; 将重新排序得到的旅客历史出行记录插入FPTree,所述FPTree中一个节点表示一个目 的地,一条路径对应一条旅客历史出行记录,每条路径上节点的计数值表示支持度,所述支 持度用于确定任意两个目的地间的关联程度; 从所述FPTree找出频繁项,得到每个目的地二项之间的频繁项集合,所述频繁项集合 包括每个目的地与其他各个目的地之间的支持度; 基于所述每个目的地二项之间的频繁项集合,得到每个目的地到其它各个目的地的随 机出行概率。7. 根据权利要求6所述的方法,其特征在于: 一个目的地到其它任意一个目的地的随机出行概率为:该目的地与其它任意一个目的 地之间的支持度与该目的地到各个目的地的支持度之和之间的比值。8. -种旅客目的地预测系统,其特征在于,所述系统包括:出行类型判断模块、目的地 整合模块、历史记录分类模块、统计归纳模块、关联分析模块以及权重整合模块;其中, 出行类型判断模块,用于根据旅客历史出行记录的多种特征向量,判断出行类型,得到 包含出行类型信息的旅客历史出行记录; 目的地整合模块,用于对所述旅客历史出行记录进行目的区域整合,得到包含目的地 区域信息的旅客历史出行记录; 历史记录分类模块,用于根据所述出行类型,将所述旅客历史出行记录进行分类,并计 算各分类的权重; 统计归纳模块,用于对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的 地的指定出行概率; 关联分析模块,用于使用频繁模式树FPTree算法对随机目的地的旅客历史出行记录进 行关联分析,得到各个目的地与其他所有目的地之间的随机出行概率; 权重整合模块,用于根据各个目的地的指定出行概率与随机出行概率、以及各分类的 权重,进行权重整合计算,得到旅客到各个目的地的出行概率,以基于所述出现概率预测旅 客到各个目的地的概率。9. 根据权利要求8所述的系统,其特征在于,所述系统还包括:历史记录筛选模块,用于 在所述目的地整合模块对所述旅客历史出行记录进行目的区域整合之前,将所述旅客历史 出行记录中的中转地以及常驻地去除,以去除所述旅客历史出行记录的噪音。10. 根据权利要求8所述的系统,其特征在于,所述目的地整合模块,具体用于:以旅客 量越大分类越细致的原则对各个目的地机场进行整合细分,得到机场三字码与目的地区域 之间的映射列表;对于目的地为机场三字码的旅客历史出行记录,根据所述机场三字码与 目的地区域之间的映射列表,将机场三字码转换为目的地区域信息,得到包含目的地区域 信息的旅客历史出行记录。11. 根据权利要求8所述的系统,其特征在于,所述历史记录分类模块,具体用于:根据 所述出行类型,将所述旅客历史出行记录分为两类:指定目的地和随机目的地;根据旅客不 同分类的出行次数,确定各个分类的权重,得到指定目的地权重和随机目的地权重。12.根据权利要求11所述的系统,其特征在于: 所述出行类型为预先配置;所述出行类型与所述旅客历史出行记录分类之间的关系为 预先配置; 所述历史记录分类模块具体用于基于预先配置的出行类型与所述旅客历史出行记录 分类之间的关系,将将所述旅客历史出行记录分为两类。13. 根据权利要求8所述的系统,其特征在于,所述关联分析模块具体用于: 扫描当前旅客的事务数据库,计算每个目的地在当前旅客所有旅客历史出行记录中出 现的频数,并删除频数小于预设的最小支持度的目的地,将剩余的所有目的地按照频数递 减排序,得到频繁项集; 基于所述频繁项集,对当前旅客的每条旅客历史出行记录中各个目的地进行重新排 序; 将重新排序得到的旅客历史出行记录插入FPTree,所述FPTree中一个节点表示一个目 的地,一条路径对应一条旅客历史出行记录,每条路径上节点的计数值表示支持度,所述支 持度用于确定任意两个目的地间的关联程度; 从所述FPTree找出频繁项,得到每个目的地二项之间的频繁项集合,所述频繁项集合 包括每个目的地与其他各个目的地之间的支持度; 基于所述每个目的地二项之间的频繁项集合,得到每个目的地到其它各个目的地的随 机出行概率。14. 根据权利要求13所述的系统,其特征在于:一个目的地到其它任意一个目的地的随 机出行概率为:该目的地与其它任意一个目的地之间的支持度与该目的地到各个目的地的 支持度之和之间的比值。
【专利摘要】本发明公开了一种旅客目的地预测方法,所述方法包括:判断出行类型;进行目的区域整合;将所述旅客历史出行记录进行分类,并计算各分类的权重;对指定目的地的旅客历史出行记录进行统计归纳,得到各个目的地的指定出行概率;使用频繁模式树FPTree算法得到各个目的地与其他所有目的地之间的随机出行概率;根据各个目的地的指定出行概率与随机出行概率、以及各分类的权重,得到旅客到各个目的地的出行概率。本发明还公开了一种旅客目的地预测系统,解决了旅客目的地预测在计算时间与计算空间上的技术难题,且能够确保预测结果的准确性与实用性。
【IPC分类】G06Q50/30, G06Q10/04
【公开号】CN105488597
【申请号】CN201511000973
【发明人】余乐, 陈旭, 刘艳芳
【申请人】中国民航信息网络股份有限公司
【公开日】2016年4月13日
【申请日】2015年12月28日