语言模型 - AI有智慧

NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

AI智慧秀 NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

研究大型语言模型（LLMs）的扩展法则（scaling laws）时，以前的工作主要关注模型参数和训练数据的大小，而忽略了词表大小的作用。

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

AI智慧秀 综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。

用大模型优化大模型预训练数据，节省20倍计算量，实现显著性能提升！

AI智慧秀 用大模型优化大模型预训练数据，节省20倍计算量，实现显著性能提升！

Program-Every-

仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

AI智慧秀 仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。

从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够了

AI智慧秀 从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够了

大语言模型（LLM）的发展同时往往伴随着硬件加速技术的进化，本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一次全面概览。

阿里云Qwen2.5发布！再登开源大模型王座，Qwen-Max性能逼近GPT-4o

AI智慧秀 阿里云Qwen2.5发布！再登开源大模型王座，Qwen-Max性能逼近GPT-4o

人工智能领域再度迎来重磅消息！

大模型边推理边纠错，有可能做到吗？这是ICML爆火的演讲

AI智慧秀 大模型边推理边纠错，有可能做到吗？这是ICML爆火的演讲

即便是最强大的语言模型（LLM），仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外，有没有更系统的方法解决这一问题呢？

李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文

AI智慧秀 李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文

昨天，李沐回到了母校上海交大，做了一场关于 LLM 和个人生涯的分享。本文是机器之心梳理的李沐演讲内容（根据 B 站用户@考拉klkl上传的视频整理，感谢这位同学的录制

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

AI智慧秀 统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。