AI智慧秀 仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究 LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。
AI智慧秀 重磅发布: 「TeleTrip – 星辰文旅」亮相数字人大会, 大熊猫“苏琳”引围观 TeleTrip 以大语言模型为基础赋能文旅场景,集结了包括 3D 数字人、实时渲染与重建、多模态 AI 智能体(Agent)等多项前沿技术。
AI智慧秀 阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量 阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节
AI智慧秀 ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA! 来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。