Metaの「LLaMA」と同規模のAIモデル構築をオープンソースで目指す「RedPajama」開発元のTogetherが2000万ドルの資金調達に成功

Metaの大規模言語モデル(LLM)「LLaMA」と同等のパフォーマンスを発揮するオープンソースLLMの開発を手がけるTogetherが、複数の投資家たちから2000万ドル(約27億2000万円)を調達したことを明らかにしました。
Together’s $20M seed funding to build open-source AI and cloud platform — TOGETHER
https://www.together.xyz/blog/seed-funding

プロジェクト「RedPajama」をチューリッヒ工科大学などと共同で進めているAIスタートアップのTogetherが、テクノロジーベンチャーキャピタルのLux Capitalを筆頭に複数の企業・投資家から資金を集め、合計2000万ドルを調達することに成功したと発表しました。協賛者の中にはPayPalの共同創業者の一人であるスコット・バニスター氏やClouderaの創業社員であるジェフ・ハンメルバッハー氏など、著名な投資家が複数名を連ねています。
Togetherが開発するRedPajamaは、Metaが1兆2000億トークンのデータセットでトレーニングしたLLM「LLaMA」をベースとしています。このLLaMAはOpenAIの「GPT-3」に匹敵する性能ながら単体のGPUでも動作可能な軽量モデルとして今後の活用が期待されているのですが、クローズドな環境で開発されているため研究やカスタマイズの余地がありません。そのため、Togetherは制限を取り除いた「完全にオープンソースのモデル」の構築を進めてきました。

RedPajamaのプロジェクトにおいては、「高品質で広い範囲をカバーする必要のある事前学習用データ」「そのデータで大規模に学習させたベースモデル」「ベースモデルを改良し、使いやすく安全なものにしたチューニングデータとモデル」という3段階のマイルストーンが設けられており、2023年4月には第1段階、5月には第2段階がすでに登場しています。
オープンソースの大規模言語モデル開発プロジェクト「RedPajama」が最初のモデル「RedPajama-INCITE」をリリース、無料で商用利用も可能 - GIGAZINE

従来であれば大企業が内々で開発するようなプロジェクトをオープンソースで進めるという試みは、生成AIの台頭に伴い主流になりつつあります。例えば、ChatGPTを開発するOpenAIはテキストや画像から3Dモデルを自動生成する「Shap-E」をオープンソースで提供し、機械学習用のシステムを手がけるMosaicMLはLLMの「MPT-7B」を同じくオープンソースで提供しました。一般の人々が無料で触れることができ、世界中の開発者からアイデアを募ったり改善点を見つけてもらったりできるオープンソースの考え方は、LLMの開発競争に参入し始めたGoogleも「脅威だ」と指摘するほどの影響力を持っています。
「オープンソースは脅威」「勝者はMeta」「OpenAIは重要ではない」などと記されたGoogleのAI関連内部文書が流出 - GIGAZINE

Togetherは資金調達が成功したとの発表に合わせて「過去数十年にわたりAIのイノベーションをリードしてきたオープンなコミュニティは、来るべきAIの世界を形成する上で限られた権限しか持っていませんでした。私たちは、クローズドなシステムに代わるオープンで分散型のシステムがビジネスや社会にとって重要であり、おそらく不可欠になるという信念に基づき、Togetheを設立するに至りました。設立以来、私たちは研究者、エンジニアからなる素晴らしいチームを結成し、RedPajamaをはじめとする数々のミッションを推進してきました。私たちは今、AIの新時代の幕開けを迎えています」との声明を発表しました。
・関連記事
テキストや画像から3Dモデルを生成するオープンソースのAI「Shap-E」をOpenAIが発表 - GIGAZINE
オープンソースで商用利用可能な言語モデル「MPT-7B」リリース、GPT-4の2倍の長さの文章を受け付ける - GIGAZINE
ChatGPTの対抗馬としてオープンソースの対話型AIチャット「HuggingChat」をHuggingFaceがリリース - GIGAZINE
オープンソースコミュニティの健全性のためにPythonソフトウェア財団がEUの法律に警鐘 - GIGAZINE
・関連コンテンツ