米xAIは、大規模言語モデル「Grok-1」の、基本モデルの重みとネットワークアーキテクチャを、3月17日(現地時間)にリリースした。 Grok-1は、同社がJAXとRust上のカスタムトレーニングスタックを使用してゼロからトレーニングした、3140億パラメータで与えられたトークンに対して重みの25%がアクティブなMixture-of-Expertsモデルとなる。 今回リリースされた基本モデルの重 …
米xAIは、大規模言語モデル「Grok-1」の、基本モデルの重みとネットワークアーキテクチャを、3月17日(現地時間)にリリースした。 Grok-1は、同社がJAXとRust上のカスタムトレーニングスタックを使用してゼロからトレーニングした、3140億パラメータで与えられたトークンに対して重みの25%がアクティブなMixture-of-Expertsモデルとなる。 今回リリースされた基本モデルの重 …