AI智慧秀 又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点! 大模型中,线性层的低比特量化(例如 INT8, INT4)已经逐步落地;对于注意力模块,目前几乎各个模型都还在用高精度(例如 FP16 或 FP32)的注意力运算进行训练和推理。
AI智慧秀 这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机 Transformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构
AI智慧秀 原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊 来自清华大学的研究人员提出了一种称为分数去噪(Fractional denoising,Frad)的分子预训练框架,以学习有效的分子表示。
AI智慧秀 使神经网络更容易理解,促进科学发现,MIT刘子鸣团队新架构 约翰霍普金斯大学计算机科学家 Alan Yuille 表示:「KAN 更易于解释,可能特别适用于科学应用,因为它们可以从数据中提取科学规则。
AI智慧秀 分子大模型升级,Uni-Mol+加速量子化学属性预测,深势科技、北大研究登Nature子刊 近日,深势科技与北京大学合作,推出新一代模型 Uni-Mol+,迭代升级后的模型拥有更大的参数量,更多的预训练数据量,并展现出更强大的通用性。