もっと詳しく

>LLMから行列乗算を完全に排除しつつ、大規模で高い性能を維持する手法を提案します。
まさか乗算は使わないけど除算(逆行列)が必要です、とかの落ちじゃないだろうな?と、思ったら
>通常、ニューラルネットワークの密な層では、入力と重みの行列を掛け合わせて計算を行います。しかし、本モデルでは、重みを-1、0、+1の3つの値に限定することで、掛け算を加算と減算に置き換えました。< ちょっと前に話題になった1ビットLLMの学習版かな?