セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
テック系ジャーナリストのAlex Health氏は12月16日午前、米テックメディアThe Vergeのニュースレター「Command Line」に寄稿し、中国テック大手のバイトダンスが大規模言語モデル(LLM)の開発プロジェクト「Project Seed」のほぼ全ての段階で、米OpenAIのAPIを秘密裏に使用してLLMのトレーニングや評価などを進めていると指摘した。
Health氏は「プロジェクトに参加しているスタッフの間では暗黙の了解だった」とし、スタッフたちが証拠を隠蔽するため、データから敏感な内容を削除する段取りについて議論しているのを自身の目で確認したと明言している。
この告発を受け、OpenAIはバイトダンスのアカウントを停止した。OpenAIのスポークスパーソンNiko Felix氏は、Health氏を通じて次のような声明を発表した。
OpenAIのAPIを利用する全ての顧客は、当社が定めた利用規約を順守する必要がある。バイトダンスが当社のAPIを利用した回数は少ないが、さらなる調査を進めており、調査期間中の措置としてバイトダンスのアカウントを停止している。
バイトダンスは2022年末、LLMのファウンデーションモデルの開発に向け、Project Seedを始動した。業界関係者によると、中国企業が海外で主流となっているLLMのAPIを試験的に運用し、自社のLLMを訓練するケースは少なくないとし、「まずは先進的なLLMを利用してプロジェクトを開始し、LLMを訓練する能力が一定の基準に達したら、自社のものに入れ替えている」と説明した。
OpenAIのサービス規約では、同社のサービスを利用して競合するプロダクトが開発されるのを防止するため、利用可能な範囲を厳しく規定している。開発が許されるのは、非商用のデータガバナンス向け人工知能(AI)モデル、またはOpenAIが提供しているサービスを微調整したモデルに限られる。
バイトダンスのスポークスパーソンJodi Seth氏は12月16日中にコメントを出し、Project Seedの初期段階にはOpenAIのLLM「GPT」の生成したデータがアノテーションに用いられていたが、今年の中ごろには削除されたと説明。同社は米マイクロソフトを通じてGPTのAPIを使用する許可を得ていたという。Seth氏はまた、GPTを中国国外向けプロダクトの性能向上に利用するが、独自に開発を進めたLLMは、中国国内だけで使える自社のAIプロダクト「豆包」に利用するとした。
OpenAIが最初のサービス規約を発表したのは今年8月28日。バイトダンス側は、今年中ごろにはGPTが生成したデータをLLMの訓練のプロセスに利用するのを停止したと明言している。また、GPTのAPIはマイクロソフトのクラウドサービス「Azure」を通じて取得したもので、OpenAIから直接取得したものではないと強調している。しかし、AzureもOpenAIと同様の規約を設けている。マイクロソフトがどのようなコメントを出すのかも含め、多くの人が今後の展開を見守っている。
(翻訳・田村広子)
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録