北京大学与EVLO创新团队共同提出面向自动驾驶的四维时空预训练算法DriveWorld。
目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。
扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。