原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
対話型AI(人工知能)「ChatGPT」がもたらす破壊的な技術革新の話題で世界中が沸くなか、「AI訓練士」として働く李傑さんの反応は驚くほど薄い。
李さんをはじめとする数十人は、日本円にして1件1円にも満たない仕事をこなすため、パソコンがずらりと並ぶ部屋で1日に何千回もマウスを動かしている。
彼らの役割は、大量のテキストや音声、画像に「眼球」「四川語」「緑地帯」などのタグを付けて、AIモデルをトレーニングするための「材料」を準備することだ。「アノテーション」と呼ばれるこのようなラベル付けを行って初めて、AIモデルはデータを認識できるようになり、それによって識別能力を訓練することができる。
李さんの仕事で最も多いのは、道路画像に写っている物体の名称や色など詳細情報を追加する作業だ。効率よく進めば、1日に2000~3000件をこなせるという。1件を単価4分(約0.8円)で計算すると、月収は3000元(約5万8000円)ほど。専門学校卒で、中国北西の郡部に住む若者としてはまずまずの収入だろう。
同様の光景はアフリカ・ケニアでも見られる。首都ナイロビでは30人余りが、ChatGPT向けにアノテーター(アノテーション担当者)として働く。1日9時間、150~200段落のテキストを読み、そこに含まれる性的・暴力的な内容やヘイトスピーチにラベルを付けていく。インパクトの強い文章を日々大量に読み込むため、強烈な描写が頭から離れず1週間悪夢にうなされる人もいるという。
ここのアノテーターは時給1.32ドル(約180円)で、ノルマを達成すれば時給1.44ドル(約190円)にアップし、70ドル(約9400円)ほどのボーナスももらえる。この地域の一般的なブルーカラーよりも待遇はいい。
AIを巡るさまざまな議論が巻き起こるなか、ケニアやウガンダ、インド、中国では簡素な空間で単純作業を行う「AI訓練士」が、水面下で最先端のテクノロジーに深く関わっている。
AIはデータ、演算能力、アルゴリズムを基盤としており、データが大量かつ高品質であれば、訓練されたモデルはより「賢く」なると言われている。アノテーション分野では、その名を知らない人はいない「ImageNet」という画像データベースがある。1400万枚を超えるラベル付き画像のデータセットで、物体名(クラス名)は2万種類以上。例えば犬種だけでも120種類に上る。
ImageNetはスタンフォード大学のAI専門家フェイフェイ・リー(李飛飛)氏が中心となって立ち上げた。AI研究が主にモデルやアルゴリズムに集中していた2009年、同氏はデータの質を向上させるという別の手法に目を向ける。そして今や、ImageNetは世界最大の画像データベースとなり、幾万ものAI研究プロジェクトや実験に活用されるようになった。これを支えたのは167カ国のアノテーター5万人で、全画像のアノテーションには3年が費やされた。
中国のアノテーション企業は多くが三、四線の地方都市に拠点を構える。地方政府にとっても貧困家庭の扶助やインターネットの恩恵を受ける点で、IT企業と利害が一致する。例えば、貴州省の省都・貴陽市中心部から約50キロ離れた恵水県百鳥河デジタル村には、アノテーション企業「夢動科技(MDONG)」がある。同社のアノテーター約500人のうちほぼ半数は近隣の専門学校生で、「実習」としてここで働く。この辺りの農村では住民1人当たりの可処分所得は1万2924元(約25万2000円)、1カ月1000元(約2万円)強だが、データアノテーションの仕事なら月に1500元(約3万円)以上になる。
同様のケースは中国の他の都市でも見られる。しかし、オープンAIの次世代大規模言語モデル「GPT-4」や中国検索大手バイドゥの対話型AI「文心一言(ERNIE Bot)」が登場し、AIのバージョンアップが進むにつれて、データアノテーション業界にも新たな変化が起きつつある。
AI研究者はすでに、ラベル付けされていないデータと部分的にラベル付けされたデータを使って訓練する「半教師あり学習」の試みをすでに始めている。また手作業のラベル付けに頼らない自己教師あり学習とアノテーションも実践が始まっている。
昨年6月末、カリフォルニア州サンマテオ郡にあるEV大手テスラのオフィスで、多くの社員がリストラを告げられた。最終的に解雇された200人の大半はアノテーターだった。テスラが現在開発中のスーパーコンピューター「Dojo」は、AIモデルの訓練に自己教師あり学習の手法を採用しているため、データアノテーションのニーズはますます減少している。
中国IT大手のテンセントやアリババ、TikTok運営会社のバイトダンス(字節跳動)なども、自己教師あり学習のアルゴリズム開発に力を注いでいる。一部のデータアノテーション企業ではすでに60%ほどを自動アノテーションでまかなっているという。
真のAI時代が到来すれば、アノテーターの仕事さえAIが肩代わりすることになる。今日も黙々と働くアノテーターたちは恐らく想像すらしていないだろう。
作者:WeChat公式アカウント「藍字計画」(ID:NPO2020)、林石
(翻訳・畠中裕子)
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録