共计 4693 个字符,预计需要花费 12 分钟才能阅读完成。
代码链接:
论文链接:
实验室主页:
01 导读
精确的交通预测是实现高效城市规划和交通管理的关键,它有助于优化资源分配并改善出行体验。但是,现有的预测模型在面对未知区域和城市的零样本预测任务,以及长期预测时,表现往往不尽如人意。这些问题主要归因于交通数据在空间和时间上的异质性,以及跨时间和空间的显著分布变化。在本研究中,我们的目标是开发一个多功能、强鲁棒性和高适应性的时空基础模型,用于交通流量的预测。为此,我们设计了一种新型的基础模型——OpenCity,它能够捕捉并规范来自不同数据源的潜在时空模式,以促进在不同城市环境中的零样本泛化能力。OpenCity融合了Transformer和图神经网络,以模拟交通数据中的复杂时空依赖性。通过在大规模、多样化的交通数据集上进行预训练,OpenCity能够学习到丰富且具有泛化能力的特征表示,这些特征表示适用于多种交通预测场景。我们的实验结果表明,OpenCity在零样本预测方面表现出色。此外,OpenCity还显示出良好的可扩展性,这表明我们有望开发出一种能够适应所有交通预测需求的解决方案,并且能够以最小的额外成本适应新的城市环境。
02 概述
2.1 现有挑战
C1. 空间泛化挑战: 现有交通预测模型主要受限于其有限的空间泛化能力,难以适应因地区差异如基础设施和人口特征而异的交通模式。全面部署传感器网络收集数据在现实中不现实,因此,开发能够基于有限数据泛化到新区域的模型显得尤为重要。这样的模型不仅能减少在不同城市部署时的成本,还能确保交通预测系统在多样化的城市环境中有效运行,无需频繁的重新训练或调整。
C2. 时间泛化与长期预测: 尽管现有的交通预测模型在短期内(如未来一小时)的预测上表现良好,但它们在进行几小时甚至几天的长期预测时表现不佳。这是因为模型难以适应城市环境中随时间变化的复杂交通模式。这种局限性阻碍了城市规划者和交通管理者制定有效的长期策略。
C3. 通用表征学习 & 时空异质泛化: 开发能够广泛适用的交通模型,关键在于学习能够泛化的交通动态的通用特征。这样的学习使模型能够跨不同场景应用,即使缺乏特定场景的训练数据。城市交通的多样性和时空分布的显著变化要求模型能够适应这些变化,以保持其多功能性和灵活性。
图1:左侧展示了交通数据集间数据分布的显著差异,强调了开发能够适应这些差异的模型的重要性。右侧则对比了OpenCity在零样本条件下的表现与基线模型在全样本条件下的表现,尽管面临时空异质性分布偏移的挑战,OpenCity的性能依然与全样本基线相媲美。
2.2 本文贡献
(1)通用时空建模。OpenCity 专注于应对城市交通在不同地区和时间的多样性及其变化。
(2)出色的零样本预测表现。相较于仅在特定区域训练的模型,OpenCity 展现了更优的性能。这证明了其学习泛化特征的能力,允许模型在新环境中快速部署,无需大量重新训练。
(3)快速适应。OpenCity 在多种时空预测任务中表现出广泛的适用性,能够迅速适应不同情境,实现灵活部署。
(4)良好的扩展性。OpenCity 显示出积极的扩展潜力,意味着它可以在几乎不需要额外训练的情况下,有效适应新的未知场景。
03方法
图2: OpenCity 整体框架
3.1 用于分布偏移泛化的时空嵌入
3.1.1 上下文归一化
3.1.2 用于高效长期预测的Patch嵌入
3.2 时空上下文编码
为了捕获交通数据中复杂的时空模式,模型融合了时间和空间的上下文信息。通过明确模拟这两个维度的相互影响,OpenCity 能够更深入地理解影响交通模式的多种因素。这种综合方法使得该框架能够在不同的时间段和地理区域内提供更精确的预测。
3.2.1 时间上下文编码
3.2.2 空间上下文编码
3.3 时空依赖建模
3.3.1 时间依赖建模
OpenCity 基于提出的 TimeShift Transformer 架构,专注于编码时间依赖性。我们主要从两个视角来捕捉交通模式:(1)周期性交通模式。我们的模型识别周期性且重复出现的交通模式,例如每小时、每天和每周的循环。通过编码这些周期性变化,我们的方法能够更准确地解释交通网络中的规律性。(2)动态交通趋势。除了周期性变化,我们的时间编码器还捕捉交通数据随时间演变的复杂和非线性的动态趋势。
3.3.1.1 周期性交通转换建模
3.3.1.2 动态交通模式学习
3.3.2 空间依赖建模
04 实验
4.1 零样本 vs. 全样本
我们对OpenCity的零样本性能进行了全面的测试,涵盖了跨区域、跨城市和跨类型三种情况,并与基线模型的全样本性能进行了比较,测试结果如表1。
(1)优越的零样本预测性能。*OpenCity 在零样本学习领域实现了显著进展,无需额外微调即可超越多数基线模型。这一点凸显了该方法在掌握大规模交通数据中的复杂时空模式、提取适用于各种任务的通用知识方面的可靠性和高效性。在多个数据集上,OpenCity 能够保持在前两名,即使不是领先,与最佳性能(MAE)的差距也控制在8%以内。这种出色的零样本预测能力证明了 OpenCity 在应对多样化交通数据集时的普适性和适应性,无需广泛的重新训练。其核心优势在于能够迅速部署到新场景,大幅减少传统监督学习方法通常所需的时间和资源,为实际应用带来显著优势。
(2)卓越的跨任务泛化能力。我们在四个不同的交通数据类别中对OpenCity进行了评估:交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租车需求(CHI-TAXI)和自行车轨迹(NYC-BIKE)。基线分析表明,尽管各种模型在特定类型的数据上表现良好,但没有一个模型能在所有类别中持续提供最优结果,且在其他领域保持同等水平的表现存在挑战。与此相反,OpenCity 在所有测试类别中均提供了高质量的结果,展现了其出色的稳定性和多功能性。此外,为了测试 OpenCity 框架的通用性,我们评估了其在跨类别的零样本泛化能力(以NYC-BIKE为例)。结果显示,OpenCity 在多个评价指标上均保持了卓越的表现,进一步证实了其对多样数据类型的适应性和普适性。
(3)优秀的长期预测表现。OpenCity 架构的一个显著优势是出色的长期预测能力,在长期交通预测任务中表现优于基线方法。许多现有模型在时间范围延长时往往难以保持预测的准确性,因为它们可能会过度拟合历史数据,未能充分捕捉交通状况的动态性和演变。OpenCity 能够从多种交通数据源中学习到通用的时空特征,这使得它能够生成稳定的预测,即使在交通模式随时间变化的情况下,预测结果依然可靠。
表1:零样本 vs. 全样本性能
4.2 有监督预测性能
为了进一步验证OpenCity 的性能,我们进行了监督学习评估。在这一评估中,OpenCity 在 one-for-all 配置下与基线模型在单个数据集上进行了端到端的训练和测试对比。表 2 的结果表明,OpenCity 在监督学习设置中展现了卓越的性能,并在多数评估指标上保持领先。此外,我们注意到多数基线模型在 CAD-X 数据集上表现不佳,这可能是因为它们倾向于过度拟合历史时空模式,导致难以泛化到长期交通依赖的建模。与此相反,OpenCity 架构有效地从预训练阶段提取了通用的周期性和动态时空特征,解决了因跨时间和跨位置分布偏移导致的预测性能下降问题。
表2:有监督任务评估
4.3 模型快速适应能力探索
在本节中,我们评估了OpenCity 在下游任务中的快速适应性。我们专注于一个之前未接触过的交通数据集,并采用了“高效微调”策略,具体包括:仅更新模型的预测头部(最后一个线性层),且最多进行三个训练周期。如表 3 所示,尽管 OpenCity 在某些指标上的零样本性能起初不如基线模型的全样本性能,这可能是由于交通模式和数据采样的差异。然而,经过高效微调后,OpenCity 的表现显著提高,超越了所有对比模型。值得注意的是,OpenCity 的训练时间仅为基线模型所需时间的 2% 至 32%。这种快速适应性凸显了OpenCity 作为基础交通预测模型的潜力,能够迅速适应新的时空数据类型。
表3:OpenCity 快速适应性评测
4.4 消融实验
(1)动态交通建模的重要性。-DTP。移除动态交通建模模块后性能下降,表明该模块能够有效分析最新交通模式,并适应交通状况的突变来优化预测。
(2)周期性交通转移建模的作用。-PTTM。我们取消了周期性编码,直接将时间和空间上下文融入时空嵌入。性能的衰减表明,OpenCity 通过映射历史与未来时间对之间的交通流有效地捕获了影响时空模式演变的普遍规律。
(3)空间依赖性建模的作用。在 -SDM 变体中,我们移除了空间编码模块。分析表明,学习空间关系显著提升了时空预测能力。通过整合依赖空间区域的交通信息,模型有效地识别了动态交通流模式,为零样本交通预测提供了重要辅助。
(4)时空上下文编码的作用。在 -STC 变体中,我们移除了时空上下文信息的编码,导致性能显著下降。时间上下文信息帮助模型识别并学习特定时段的常见交通模式,而区域嵌入包含了关键的区域特定特征。这些元素共同为理解城市间动态时空模式提供了宝贵见解。
图3:OpenCity 消融实验
4.5 模型可扩展性研究
如图4 所示,本节研究了 OpenCity 在数据量和参数规模两个方面的可扩展性。参数规模可扩展性涵盖了三个版本:OpenCity-mini(2M万参数)、OpenCity-base(5M参数)和 OpenCity-plus(26M参数)。在数据规模可扩展性方面:对于模型plus,我们采用了 10%、50% 和 100% 的预训练数据,以探究增加数据量的优势。为了便于比较,纵轴表示的是相对预测误差。结果表明,随着参数数量和数据量的增加,OpenCity 的零样本泛化性能逐步提高。这证明了 OpenCity 能够从大规模数据集中提取有价值的信息,并且通过增加参数数量来增强其学习效能。展示的可扩展性潜力支持了 OpenCity 成为通用交通应用基础模型的可能性。
图4:模型可扩展性研究
4.6 与大规模时空预测模型的比较
本节中,我们将OpenCity 与其它先进的大型时空预训练模型进行了对比,包括以出色的零样本泛化能力闻名的 UniST 和 UrbanGPT。我们选用了三个模型预训练阶段均未涉及的 CHI-TAXI 数据集进行评估。表 4 的结果表明,OpenCity 在众多先进的大规模时空模型中保持了明显的性能优势。此外,与 UrbanGPT 相比,OpenCity 和 UniST 展现出了显著的效率提升。这可能是因为 UrbanGPT 依赖于问答格式的大型语言模型 (LLM) 进行预测,这限制了其处理批量数据的效率。OpenCity 模型在性能和效率上均实现了优异表现,彰显了其作为交通基准测试中强大大规模模型的潜质。
表4:与大规模时空预测模型的比较实验
05 总结与展望
本文提出了 OpenCity,一个用于交通预测的可扩展时空基础模型,它在多个交通预测场景中展现了精确的零样本预测能力。该模型采用 Transformer 编码器架构作为核心,以建模动态时空依赖性,并通过在大规模交通数据集上的预训练,OpenCity 在各种下游任务中表现出色,其零样本预测性能与全样本设置下的先进基线模型相媲美。提出的 OpenCity 框架能够有效处理不同分布的数据,并且具有高效的计算性能。考虑到其展现出的积极的扩展趋势,这为开发一个强大且通用的交通预测解决方案奠定了基础,该方案能够轻松适应不同的城市环境和交通网络。