AI智慧秀 Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级 7 年前,谷歌在论文《Attention is All You Need》中提出了 Transformer。