コーネル大学、シグナル財団、Now InstituteのAI研究者チームは、Nature誌に掲載された視点記事で、人気のあるオープンソースの大規模言語モデル(LLM)が本当にオープンであるかどうかを疑問視しています。論文の中で、彼らは、LLMのソースコードを一般に公開するだけでは、それが本当にオープンだとは言えないと主張しています。本当のオープン性には、基盤となるトレーニングデータへのアクセスや、LLMを独自にトレーニングするために必要なリソースが必要だと指摘しています。
論文の要点
論文の著者であるデイヴィッド・ウィダー、メリディス・ウィッタカー、サラ・ウェストは、ChatGPTのようなLLMが急速に人気を集め、その成熟とともにその人気が増してきたことを挙げています。この人気の高まりに伴い、多くの人々がAIの将来について懸念を抱いており、プライバシーの喪失や仕事の減少、生成された画像や動画が本物かどうかの判断ができなくなるのではないかといった質問が浮かび上がっています。しかし、LLMの開発者は、モデルを公開して透明性を高め、ユーザーがソースコードをダウンロードしたり変更したりできるようにすることで、その懸念に対応しようとしています。
主な議論:ソースコードとトレーニングデータの違い
著者らは、LLMのソースコードをダウンロードすることは、ワードプロセッサのような一般的なコンピュータプログラムのコードをダウンロードすることとは異なると説明しています。ワードプロセッサの場合、ソースコードをダウンロードすると、そのまま使用したり変更したりできます。しかし、LLMの場合、コードをダウンロードして変更することはできますが、トレーニングによって学習した知識自体を変更することはできません。トレーニングには膨大な計算リソースが必要であり、そのためほとんどの開発者は自分でトレーニングを行うことができません。このため、コードにアクセスするだけでは本当のオープン性には至らないのです。
オープン性に影響を与える要素
著者は、LLMのオープン性に影響を与える3つの主要な要素を挙げています:
1. 透明性
一部のLLM開発者は、すべてを公開する一方で、Llama 3の開発者のようにAPIを通じてのみシステムを使用させる場合もあります。こうした慣行は、「オープンウォッシング(オープン性の偽装)」と呼ばれています。
2. 再利用性
オープンソースコードの再利用可能性は、そのコードがどれだけ使いやすく、良く書かれているかに依存します。もしコードが整然としていない場合、他の人が効果的に再利用したり貢献したりするのは難しくなります。
3. 拡張性
拡張性は、ユーザーがコードを自分のニーズに合わせて変更する容易さに関係しています。しかし、LLMのトレーニングには膨大な計算リソースが必要であり、コードを変更するにもそのリソースが必要となるため、拡張性も限られています。
結論
著者は、LLMをトレーニングするためのハードウェアに対するオープンアクセスや、簡単にアクセスできるトレーニングデータ、または最初のトレーニングに使用されたデータへの自由なアクセスが提供されるまで、現在のオープンLLMは本当の意味でオープンではないと結論付けています。彼らは、これらの要素の透明性とアクセス性を高めることを提案しています。
出典: Nature