AIのために声データを提供する時給2000円のバイトが人気。学習データの枯渇に備え

公開日：2024.10.24

大規模言語モデル（LLM）の急速な発展に伴い、高品質なデータの獲得がますます重要になっている。TikTokのバイトダンス（字節跳動）や検索エンジンの百度（バイドゥ）など中国のインターネット大手は、人工知能（AI）をトレーニングするための音声データを提供してくれる「録音員」の募集を始めた。

北京市にあるバイトダンスのオフィスでは、2024年初めからスタッフを募集して同社独自のLLM「豆包」向けの録音作業が進められている。2人一組で1回3時間、内容は自由な会話や指定されたワードを含む対話で、報酬は1回300元（約6300円）。ただし、録音に対しては厳しい要件があり、あまりにも質が悪い場合には報酬が減額されるという。

バイトダンスのオフィスにある録音室

ソーシャルECの小紅書（RED）でも同様の録音アルバイトの募集が多く上がっている。1回300元という報酬は、手軽なアルバイトのなかでもかなり魅力的だと思われるが、実際の仕事はそれほど簡単ではない。録音する前に、必ず2〜3分の会話の録音をサンプルとして提出する必要があり、バイトダンスの担当者によって審査され、採用か否か決められる。そして録音の際にも、会話の内容やムード、会話のスタイルなどについて厳しい基準が定められている。

AI技術を開発する大企業は、このように大量のデータを取得するために新しい職業を創出し始めた。少し前に話題になったのは、百度（バイドゥ）のLLM向けタグ付け（アノテーター）に関するニュースだ。同社は地方都市にデータ拠点を建設し、データのタグ付けや方言コーパスのトレーニングなどを進めている。

画像認識AIのテキストコンテンツを検収する作業に従事しているA氏の例を紹介したい。業務内容はAIが認識した諸外国語のテキストが、画像と一致するかどうかを確認することだ。1単語または1文を1つの単位とし、1単位0.1元（約2円）で報酬が計算され、数百項目をチェックすると数十元（数百～千数百円）になる。A氏はフランス語を専門としており、翻訳に関わるデータのタグ付けでは1項目あたり1元（約21円）以上の報酬が得られる。しかし、AIの翻訳が正確かどうかを手作業で判断するには、誤りを見つけるだけでなく、5～6種類のLLMの翻訳内容を比較し、色分けしてアノテーションしなければならず、1文をチェックするのに10～15分かかることもあるという。

AIの3本柱は、データ・アルゴリズム・演算能力と言われており、中でもデータは基盤となるものだ。しかし、公開されているデータは枯渇しつつある。米研究団体エポックAIは、AIモデルのトレーニングに使用できる公開データは2026～32年に枯渇すると予測している。OpenAIのサム・アルトマンCEOは、AI開発企業がインターネット上のすべてのデータをまもなく使い果たすだろうと発言したこともある。

LLM大手はサードパーティ企業を通じてデータを直接購入してもいるが、テキストや録音、動画など、購入したデータの質をコントロールすることはできない。大企業にとっては、自社内で高品質データを調達することが、データの適時性と品質を保証する唯一の方法なのだ。

大企業は高品質のデータを得るためには法的紛争に巻き込まれることも辞さない。例えば、OpenAIは動画サイトYouTubeの動画を無断で使いLLMをトレーニングしたと非難された。NVIDIAやアップル、Anthropicのような大企業も同様の批判を受けている。

良質なトレーニング用データをいかにして確保するか。このことが恐らく今後、AI開発競争の新たなポイントになっていくだろう。

＊1元＝約21円で計算しています。

作者：字母榜（WeChat公式ID：wujicaijing）、馬舒葉

（編集・36Kr Japan編集部、翻訳・北村一仁）

原文はこちら