共计 1242 个字符,预计需要花费 4 分钟才能阅读完成。
埃隆·马斯克领导的xAI公司开源了其首个大型语言模型Grok,拥有3140亿参数。该举措挑战了AI领域的现有格局,向其他竞争对手施加了压力。Grok的开源不仅是技术上的突破,也是商业和公关策略,彰显了马斯克对AI发展的前瞻性和影响力。
埃隆·马斯的xAI今天宣布开放了他们的首个大型语言模型(LLM)Grok。这一举措实现了马斯克之前的承诺,即现在任何其他企业家、程序员、公司或个人都可以获取Grok的权重和其他相关文档,并使用该模型的副本进行各种应用,包括商业用途。
据xAI在一篇博客文章中宣布:“我们正在发布Grok-1的基础模型权重和网络架构,这是我们的大型语言模型,拥有3140亿参数,由xAI从零开始训练。”。对于对Grok感兴趣的人,他们可以在Grok的Github页面或通过种子链接下载其代码。
Grok的开源意味着模型的权重和网络架构变得公开可用。在这其中,参数是指模型的权重和偏差,通常情况下,参数越多,模型就越先进、复杂和性能更好。在3140亿参数的情况下,Grok明显领先于竞争对手,如Meta公司的Llama 2(700亿参数)和Mistral 8x7B(120亿参数)。
此外,Grok是根据Apache许可证2.0开源的,允许商业使用、修改和分发,但不能注册商标,使用者也不会收到任何责任或保证。但需要注意的是,使用者必须复制原始许可证和版权声明,并声明他们所做的任何更改。
Grok的架构是在2023年10月使用自定义训练堆栈在JAX和Rust上开发的,采用了创新的神经网络设计方法。这种模型利用了25%的权重来处理给定的标记,从而增强了其效率和有效性。然而,Grok的发布并不包括其训练数据的全部语料库,这对于使用模型并不重要,因为它已经被训练过了。但这也意味着用户无法了解模型的学习来源。
另外,Grok的发布并不包括与xAI的实时信息的连接,这使得用户仍需要订阅xAI上的付费版本。马斯克最初将这一点视为Grok优于其他LLM的一个重要属性。
除了技术上的举措外,Grok的开源也是一种商业和公关策略。这款模型被设计为竞争OpenAI的ChatGPT,Grok的名称来源于俚语术语,意思是“理解”,被描述为“一款模拟《银河系漫游指南》的人工智能”。马斯克将Grok定位为ChatGPT和其他LLM的更加幽默和无节制的版本,以回应对AI审查制度的投诉以及对竞争对手Gemini的批评。Gemini被指控在意识形态立场和种族混淆图像生成方面存在问题。
Grok的开源对于马斯克在OpenAI诉讼和一般批评中也是一种有益的意识形态立场。最近,马斯克对OpenAI提起诉讼,指控其违反了“创立协议”,以营利性公司的形式运营。而OpenAI则发布了一些邮件作为自卫,表明马斯克知道并可能支持其专有、营利性技术的转向。
Grok的发布引起了xAI社区的好奇和兴奋反应,甚至包括OpenAI的员工。因此,Grok的发布可能会给其他LLM提供者施加压力,迫使他们向用户证明自己的优势。