基于大规模实时轨迹分析的出租车拒载行为检测方法
【技术领域】
[0001] 本发明涉及大数据在出租车产业的应用领域,尤其涉及一种基于大规模实时轨迹 分析的出租车拒载行为检测方法。
【背景技术】
[0002] 随着数据时代的到来,大数据开始展现出在生物、医药、社会、地理等各领域的应 用的强大潜力。出租车产业承受了城市交通的大量的负担,并且在大部分城区提供了灵活 的出行方式。近些年,为了更好的出租车的监督和管理,在现代信息技术的帮助下,大量的 出租车轨迹数据被生成、搜集和存储。同时为大数据的研究提供了丰富的机会。
[0003] 很多出租车产业值得调查研究的课题已经被执行,包括出租车司机的安全和健康 评估、通勤模式选择、劳动力供给问题等等。MSRA组织表示,出租车轨迹分析可以根据提取 出来的司机的经验帮助普通司机提高驾驶质量,并帮助出租车司机搜寻更多的潜在乘客。 高收入出租车司机的经验和知识还可以用来分析,以解释一些不明显的服务策略。加油行 为也被调查研究用以评估全市的整体油耗。出租车司机的恶意迂回行为也会被识别出来, 以防乘客支付不正当的收费。
[0004] 拒载行为一直存在于出租车行业,有关拒载的举报投诉也屡见不鲜。但是有关拒 载的调查研究目前还比较少,这就为出租车公司服务质量的提高造成了一定的困扰。
【发明内容】
[0005] 本发明的目的是提供一种基于大规模实时轨迹分析的出租车拒载行为检测方法, 从拒载的精确定位和宏观的拒载行为的估测两个方面着手,为有效的管理出租车行业提供 了有力的技术支持。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] -种基于大规模实时轨迹分析的出租车拒载行为检测方法,包括:
[0008] 将待分析的城市进行网格划分;
[0009] 获取各个待检测出租车的轨迹记录,并统计各个待检测出租车在各网格的上客或 下客次数;
[0010] 根据统计的各个待检测出租车在各网格的上客或下客次数来计算每一待检测出 租车上客多样性指标或下客多样性指标;
[0011] 逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在拒载行为 阈值相比较,若小于阈值,则认为待检测出租车存在拒载行为。
[0012] 进一步的,所述计算每一待检测出租车上客多样性指标或下客多样性指标包括:
[0013] 采用下述公式计算每一待检测出租车上客多样性指标1?% :
[0014]
[0015] 其中,W为待检测出租车i上客时的总网格数;烤为待检测出租车i在网格j范围 内上客次数的比例:
<为待检测出租车i在网格j范围内的上客数,<为 待检测出租车i的总上客数;
[0016] 采用下述公式计算每一待检测出租车下客多样性指标0/_<:
[0017]
[0018] 其中,iV/为待检测出租车i下客时的总网格数;g为待检测出租车i在网格j范围 内下客次数的比例
;;为待检测出租车i在网格j范围内的下客数,< 为 待检测出租车i的总下客数。
[0019] 进一步的,逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在 拒载行为阈值相比较包括:
[0020] 判断待检测出租车i的上客多样性指标βΛ?或者下客多样性指标Divf是否等于1;
[0021 ]若是,则令出租车i的上客多样性指标或者下客多样性指标D/vf为0,再与存 在拒载行为阈值σ进行比较;
[0022] 若否,则直接将待检测出租车i的上客多样性指标或者下客多样性指标 与存在拒载行为阈值σ进行比较。
[0023] 进一步的,存在拒载行为阈值σ的计算公式为:
[0024]
[0025]其中,Divaii、Divh分别为所有待检测出租车的平均上客多样性指标、收入达到预 定值的出租车群体的平均上客多样性指标;或者,Divaii、Divh分别为所有待检测出租车的 平均下客多样性指标、收入达到预定值的出租车群体的平均下客多样性指标。
[0026]进一步的,该方法还包括:
[0027] 估算有拒载行为的出租车的拒载率:
[0028]
[0029]其中,k为有拒载行为的出租车i比正常出租车上客量或下客量多的网格数量,,Dj 为有拒载行为的出租车i在网格j的下客次数,nonDj为正常出租车在网格j的下客次数,N为 有拒载行为的出租车i的总乘客数。
[0030]进一步的,该方法还包括:评估城市总体拒载率,设有拒载行为的出租车i有1^个 下客量超出正常出租车下客量的网格,则城市总体拒载率计算公式为:
[0031]
[0032] 其中,m为有拒载行为的出租车总数,Dj为有拒载行为的出租车在网格j的下客次 数,nonDj为正常出租车在网格j的下客次数,N为城市所有出租车的总乘客数。
[0033] 由上述本发明提供的技术方案可以看出,利用统计推断技术,通过海量出租车轨 迹,并基于多出租车上下车多样性的统计分析,实现了对拒载这种不规范行为的精确定位, 以及总体的拒载行为的评估,解决了国内长期以来出租车不规范服务行为的精确认定问 题,为政府和出租车管理公司更加有效的管理出租车行业提供了有力的技术支持。
【附图说明】
[0034] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 附图。
[0035] 图1为本发明实施例提供的一种基于大规模实时轨迹分析的出租车拒载行为检测 方法的流程图;
[0036]图2为本发明实施例提供的利用下客多样性指标检测出租车拒载行为的流程图;
[0037] 图3为本发明实施例提供的计算有拒载行为出租车拒载率的流程图。
【具体实施方式】
[0038] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明的保护范围。
[0039] 图1为本发明实施例提供的一种基于大规模实时轨迹分析的出租车拒载行为检测 方法的流程图。如图1所示,其主要包括如下步骤:
[0040] 步骤11、将待分析的城市进行网格划分。
[0041] 本发明实施例中,划分网络的数量,以及网格的大小可以根据待分析的城市大小 来确定。
[0042]示例性的,为了便于上下车多样性的分析,可以将北京市划分成一个个相邻的300 米X300米的网格。网格的划分不考虑公路、功能区域和不可达区域等等。为了进一步的研 究,我们将北京市的核心区域(经度[116.198,116.7125],炜度[39.75,40.1504]),包括东 城区、西城区、海淀区、朝阳区和顺义区,划分成了 148X144个网格。乘客的上下车分析都在 这些网格上执行。
[0043] 步骤12、获取各个待检测出租车的轨迹记录,并统计各个待检测出租车在各网格 的上客或下客次数。
[0044] 本发明实施例中,为了检测的精确性,数据处理中我们过滤掉了数据记录过少的 出租车数据、工作时间过低的异常出租车数据以及拥有错误GPS定位(例如,位置超出了东 经[115.4,117.6]和北炜[39.4,41.1]的范围)的数据。
[0045] 步骤13、根据统计的各个待检测出租车在各网格的上客或下客次数来计算每一待 检测出租车上客多样性指标或下客多样性指标。
[0046] 本发明实施例中,可以仅计算上客多样性指标或下客多样性指标,因此,在前述步 骤12中可以仅统计出待检测出租车在各网格的上客或下客次数。具体来说:
[0047] 采用下述公式计算每一待检测出租车上客多样性指标:
[0048]
[0049] 其中,iVf为待检测出租车i上客时的总网格数;Af为待检测出租车i在网格j范围 内上客次数的比伊
为待检测出租车i在网格j范围内的上客数,<为 待检测出租车i的总上客数;
[0050] 采用下述公式计算每一待检测出租车下客多样性指标D/rf :
[0051]
[0052] 其中,< 为待检测出租车i下客时的总网格数;4为待检测出租车i在网格j范围 内下客次数的比例,~待检测出租车i在网格j范围内的下客数,为 待检测出租车i的总下客数。
[0053]本发明实施例中,提出上(下)
客的多样性概念,即一个司机是怎么把上(下)客次 数分配到所有的网格的。
[0054]上(下)客多样性指标越高,表明上(下)客次数越平均的分配到各个网格;多样性 指标越低,表明上(下)客更倾向于发生在一些特定的网格中。
[0055]步骤14、逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在拒 载行为阈值相比较,若小于阈值,则认为待检测出租车存在拒载行为。
[0056] 其具体步骤如下:
[0057]判断待检测出租车i的上客多样性指标0/vf或者下客多样性指标Divf是否等于 1;
[0058]若是,则表示出租车i只在一个网格范围内上客或者下车,这种情况可以令出租车 i的上客多样性指标β/ν,"或者下客多样性指标为〇,再与存在拒载行为阈值0进行比 较;
[0059] 若否,则直接将待检测出租车i的上客多样性指标Dfvf或者下客多样性指标 与存在拒载行为阈值σ进行比较。
[0060] 存在拒载行为阈值σ的计算公式为:
[0061]
[0062]具中,Mvaii、Mvh分别为所有待检测出租车的平均上客多样性指标、收入达到预 定值的出租车群体的平均上客多样性指标;或者,Divaii、Divh分别为所有待检测出租车的 平均下客多样性指标、收入达到预定值的出租车群体的平均下客多样性指标。Div aii、Divh 的具体数值可以对应于步骤13中计算的是上客多样性指标,或是下客多样性指标。
[0063]本发明实施例中,根据正常出租车的轨迹数据计算出阈值因此上(下)客多样性 异常的出租车在某些网格比标准量超出的乘客数可以理解为拒载的结果。换句话说,这些 有拒载行为的出租车上拒载了一些目的地不在这些他们选择区域的乘客。根据下车次数的 差异计算有拒载行为的出租车的拒载率。近而根据有拒载行为的出租车的拒载率以及所占 的比例,我们可以估算出整个城市大概的拒载率。
[0064] 本发明实施例中,估算有拒载行为的出租车的拒载率的公式为:
[0065]
[0066]其中,k为有拒载行为的出租车i比正常出租车上客量或下客量多的网格数量,Dj 为有拒载行为的出租车i在网格j的下客次数,nonDj为正常出租车在网格j的下客次数,N为 有拒载行为的出租车i的总乘客数。
[0067] 本发明实施例中,还可以评估城市总体拒载率,设有拒载行为的出租车1有1^个下 客量超出正常出租车下客量的网格,则城市总体拒载率计算公式为:
[0068]
[0069] 兵干,软订73的出祖牛思数,Dj为有拒载行为的出租车在网格j的下客次 数,nonDj为正常出租车在网格j的下客次数,N为城市所有出租车的总乘客数。
[0070] 本发明实施例的上述方案根据提出的上下客多样性检测指标,基于多出租车上下 车多样性的统计分析,实现了对拒载这种不规范行为的精确定位,以及总体的拒载行为的 评估,为政府和出租车公司进一步的提升服务质量提供了依据。
[0071 ]下面结合一具体示例进行介绍。
[0072]如图2所示,为利用下客多样性指标检测出租车拒载行为的流程图。具体步骤为:
[0073] 首先,提取待检测出租车的轨迹记录,并利用前述步骤12的方式进行数据过滤。
[0074] 然后,根据统计的各个待检测出租车在各网格的下客次数来计算每一待检测出租 车下客多样性指标。
[0075]最后,逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在拒载 行为阈值相比较〇,若小于阈值,则认为待检测出租车存在拒载行为。此处的σ是利用前述步 骤14中的公式计算,公式中的Di Vall、Divh分别为所有待检测出租车的平均下客多样性指 标、收入达到预定值的出租车群体的平均下客多样性指标。
[0076]进一步的,对于检测出有拒载行为的出租车还可以计算其拒载率,如图3所示; [0077]首先,统计正常出租车在网格j的平均下客量作为标准值nonDj。
[0078]其次,计算待估计出租车i,在比正常用户下客量多的网格中,共多出的下客量之 和
[0079] 最后,估算出租车i的拒载率:見=-^-.。 d N
[0080] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可 以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解, 上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易 失性存储介质(可以是CD-R0M,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0081] 以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范 围为准。
【主权项】
1. 一种基于大规模实时轨迹分析的出租车拒载行为检测方法,其特征在于,包括: 将待分析的城市进行网格划分; 获取各个待检测出租车的轨迹记录,并统计各个待检测出租车在各网格的上客或下客 次数; 根据统计的各个待检测出租车在各网格的上客或下客次数来计算每一待检测出租车 上客多样性指标或下客多样性指标; 逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在拒载行为阈值 相比较,若小于阈值,则认为待检测出租车存在拒载行为。2. 根据权利要求1所述的方法,其特征在于,所述计算每一待检测出租车上客多样性指 标或下客多样性指标包括: 采用下述公式计算每一待检测出租车上客多样性指标Λν,":其中,缚为待检测出租车i上客时的总网格数; < 为待检测出租车i在网格j范围内上 客次数的比例,为待检测出租车i在网格j范围内的上客数,《f为待检 测出租车i的总上客数; 采用下述公式计算每一待检测出租车下客多样性指标其中,iVf为待检测出租车i下客时的总网格数;g为待检测出租车i在网格j范围内下 客次数的比例,为待检测出租车i在网格j范围内的下客数,《f为待检 测出租车i的总下客数。3. 根据权利要求1所述的方法,其特征在于,逐一将每一待检测出租车的上客多样性指 标或下客多样性指标与存在拒载行为阈值相比较包括: 判断待检测出租车i的上客多样性指标Avf或者下客多样性指标Dfvf是否等于1; 若是,则令出租车i的上客多样性指标或者下客多样性指标为〇,再与存在拒 载行为阈值σ进行比较; 若否,则直接将待检测出租车i的上客多样性指标β/ν,"或者下客多样性指标β/vf与存 在拒载行为阈值σ进行比较。4. 根据权利要求1或3所述的方法,其特征在于,存在拒载行为阈值〇的计算公式为:其中,Divaii、Divh分别为所有待检测出租车的平均上客多样性指标、收入达到预定值的 出租车群体的平均上客多样性指标;或者,Divaii、Divh分别为所有待检测出租车的平均下 客多样性指标、收入达到预定值的出租车群体的平均下客多样性指标。5. 根据权利要求1所述的方法,其特征在于,该方法还包括: 估算有拒载行为的出租车的拒载率:其中,k为有拒载行为的出租车i比正常出租车上客量或下客量多的网格数量,,Dj为有 拒载行为的出租车i在网格j的下客次数,nonh为正常出租车在网格j的下客次数,N为有拒 载行为的出租车i的总乘客数。6. 根据权利要求1所述的方法,其特征在于,该方法还包括:评估城市总体拒载率,设有 拒载行为的出租车1有1^个下客量超出正常出租车下客量的网格,则城市总体拒载率计算 公式为:其中,m为有拒载行为的出租车总数,Dj为有拒载行为的出租车在网格j的下客次数, nonDj为正常出租车在网格j的下客次数,N为城市所有出租车的总乘客数。
【专利摘要】本发明公开了一种基于大规模实时轨迹分析的出租车拒载行为检测方法,包括:将待分析的城市进行网格划分;获取各个待检测出租车的轨迹记录,并统计各个待检测出租车在各网格的上客或下客次数;根据统计的各个待检测出租车在各网格的上客或下客次数来计算每一待检测出租车上客多样性指标或下客多样性指标;逐一将每一待检测出租车的上客多样性指标或下客多样性指标与存在拒载行为阈值相比较,若小于阈值,则认为待检测出租车存在拒载行为。本发明公开的方法,从拒载的精确定位和宏观的拒载行为的估测两个方面着手,为有效的管理出租车行业提供了有力的技术支持。
【IPC分类】G06Q50/30
【公开号】CN105488752
【申请号】CN201610032750
【发明人】张四海, 周武旸
【申请人】中国科学技术大学
【公开日】2016年4月13日
【申请日】2016年1月18日