AI智慧秀 NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law 研究大型语言模型(LLMs)的扩展法则(scaling laws)时,以前的工作主要关注模型参数和训练数据的大小,而忽略了词表大小的作用。
AI智慧秀 仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究 LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。
AI智慧秀 从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了 大语言模型(LLM)的发展同时往往伴随着硬件加速技术的进化,本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一次全面概览。
AI智慧秀 大模型边推理边纠错,有可能做到吗?这是ICML爆火的演讲 即便是最强大的语言模型(LLM),仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外,有没有更系统的方法解决这一问题呢?
AI智慧秀 李沐重返母校上海交大,从LLM聊到个人生涯,这里是演讲全文 昨天,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。本文是机器之心梳理的李沐演讲内容(根据 B 站用户@考拉klkl上传的视频整理,感谢这位同学的录制