画期的な検索エンジン「magi.com」 検索結果の信頼度で色別表示も

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

スタートアップ注目記事

画期的な検索エンジン「magi.com」 検索結果の信頼度で色別表示も

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

注目の若手エンジニア季逸超(Ji Yichao)氏率いるチーム「Peak Labs」がこのほど、検索エンジン「magi.com」を発表した。人工知能(AI)システム「Magi」の公開版となる。この検索エンジンは、ユーザーがキーワードを入力すると、magiがインターネット上のテキストから学習したナレッジを構造化して検索結果を表示してくれる上に、検索結果の後ろにソースを紐づけし、さらにそれがどのくらい信用できるか信頼度まで表示してくれるという優れものだ。

magi.comの検索結果例

Magiは機械学習に基づき情報抽出と検索を行うシステムで、HTMLタグなどの半構造化データを用いず、自然言語を直接処理する技術だ。インターネット上で公開されたテキストや企業の内部データを抽出して構造化データに集約し、定量分析や追跡が可能なナレッジシステムをユーザーに提供する。さらにこのシステムは生涯学習(Lifelong machine learning)の能力も備えており、自身の自然言語理解能力を絶えず向上させていくことができる。

インターネット上に散らばるテキストデータは玉石混交だ。コピーやつぎはぎを重ねたもの、自動生成されたもの、フェイクなどが横行し、AIの学習過程に影響を及ぼすことすらある。ホワイトリスト方式をとればソースの怪しいデータは一掃できるが、同時に多くの価値ある情報もとりこぼしてしまうことになる。Peak Labsの創業者である季逸超氏はmagi.comについて、このほど36Krが行ったインタビューに対し、次のように要点を説明してくれた。Magiは、ソースの質が高く、かつ多様なコンテクスト(文脈)と表現方法を持つデータに高い評価をつけるデータが幾度も精錬を重ね、あらゆる角度から検証を経てきたことを意味するからだ。magi.comは検索結果ごとに信頼度を色別で表示し、信頼性が高いものは緑で、低いものは赤で表示するという。

検索結果の信頼度を色別で表示

「我々が実用化を目指しているのは検索エンジンそのものではない。Magiの背後にある技術、つまり自然言語理解(NLU)と転移学習に基づくオープンデータの抽出だ」と季氏は強調する。

季氏によると、Magiは法人ユーザーに向けに次のサービスを提供できるという。

1、構造化データとナレッジシステム
このサービスは主に構造化データが必要な企業、例えば音声アシスタントや意思決定エンジンなどを手がける企業向けに提供できる。ドメイン特化言語(DSL)またはベクトル化の形でMagiのデータベースからデータを抽出して、自身の表現を磨くことが可能だ。

2、NLUソリューションと企業の補助的なRPA(ロボットによる業務自動化)のカスタマイズ
金融や医療、コンサルなど垂直業界の顧客向けには、少量のサンプルでカスタマイズ可能なNLUソリューションを提供できる。例えば観光業界向けには、ユーザーが投稿した旅行記を自動で読み取り、POI(Point Of Interest、興味のある場所)と属性を抽出することが可能だ。

カスタマイズ・トレーニングのインターフェース

IT専門調査会社IDCのまとめによると、世界で1年間に生成されるデータ量は2016年時点では16.1ZB(ゼタバイト)だったが、2025年には163ZBに激増する見通しだ。しかも、そのうちテキスト、画像、音声、動画など非構造化データが80~90%を占めるという。これらはAIでは読み取れないため、データの構造化処理が必要となるが、この処理プロセスこそが中国AI基礎データサービスの一部をなしている。

中国インターネット調査大手の艾瑞咨詢(iResearch)は先ごろ、『2019年中国AI基礎データサービスに関する研究報告』を発表。この中で、2018年の中国AI基礎データサービスの市場規模は25億8600万元(約400億円)、うちデータ資源のカスタマイズサービスが86.2%を占めたとした上で、2023年までに市場規模は113億元(約1750億円)を上回ると予測した。年平均成長率(CAGR)が23.5%にも上るこの業界。スタートアップにとって、今ここで市場に食い込めば大きな成長機会が得られることは確かだ。

Magiに導入した転移学習のNLUアルゴリズムが持つ優位性とは、汎用データを用いてAIエンジンのトレーニングを行うだけで、AIエンジンを細分化された専門分野に応用できることだ。

Magiはまずインターネット上のナレッジと自身が持つデータを用いてプレ・トレーニングを行う。そうすることで専門分野のタスクにはごく少量のマニュアルデータタグが必要なだけで大規模なトレーニング効果を得ることが可能だ。

企業にとっては、この技術のお陰でAIカスタマイズにかかるコストの削減につながるわけだ。「我々はMagiを画像データベース『ImageNet』のテキスト版のようにして、企業のAIカスタマイズにかかるコストの削減に役立てたい」と季氏は語る。
(翻訳・北村光)

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録