当地时间3月17日,特斯拉首席执行官(CEO)马斯克的AI创企xAI正式发布3140亿参数的混合专家模型Grok-1。xAI官方网站称,其遵照Apache 2.0协议开放模型权重和架构。
据第一财经报道,Grok-1参数量远超OpenAI GPT-3.5的1750亿,是迄今参数量最大的开源大语言模型。
文章表示,Grok-1的研发经历了四个月。期间,Grok-1经历了多次迭代。“宣布创立xAI后,我们训练了一个330亿参数的LLM原型(Grok-0)。这个早期模型在标准LM测试基准上接近LLaMA 2(70B)的能力,但只使用了一半的训练资源。在过去两个月里,我们在模型的推理和编码能力方面取得了显著进步,Grok-1终于诞生。”
在这些基准测试中,Grok-1显示出了强劲的性能,超过了其计算类别中的所有其它模型,包括ChatGPT-3.5和Inflection-1。只有使用大量训练数据和计算资源训练的模型,例如GPT-4,才能超越它。“这展示了我们在高效训练LLM方面取得的快速进展”。