アリババ、大規模言語モデル活用のAIアシスタントを発表。文字起こしやコンテンツ生成・要約など幅広い用途

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

大企業注目記事

アリババ、大規模言語モデル活用のAIアシスタントを発表。文字起こしやコンテンツ生成・要約など幅広い用途

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

中国IT大手アリババグループ傘下のアリババクラウド・インテリジェンスは1日、AIアシスタント「通義聴悟(Tongyi Tingwu)」をリリースし、オープンベータテストを開始したと発表した。

通義聴悟はアリババの大規模言語モデル「通義千問(Tongyi Qianwen)」をベースに開発したAIアプリケーションだ。主に音声や動画コンテンツの文字起こし、検索、要約・整理などが可能で、自動テキスト生成やインタビュー内容のまとめ、パワーポイントからのデータ抽出などができる。

通義聴悟の前身は社内で「聴悟」と呼ばれるプロダクトだった。会議や音声コンテンツからリアルタイムで文字起こしができるもので、昨年末から限定的にクローズドテストが実施されていた。

アリババクラウド・インテリジェンスの周靖人CTOによると、通義聴悟はアリババ最先端の音声・言語技術を集約したものだ。例えば、同社最新の産業用音声認識モデルは、中国語データセットとして最高の認識精度を実現している。また、独自開発した話者検証モデルも導入しており、10人以上が参加する対話でも話者それぞれを区別できる。さらに通義千問を統合したことで、1万字以上の音声・動画コンテンツも要約できるようになった。

通義聴悟ではユーザーが音声・動画データをアップロードすると、録音された内容の文字起こしが完了する。36Kr編集部が試したところ、文字起こしのスピードも速い。1〜2時間分の音声データならおおよそ数分で文字起こしが完了する。文字起こしが終わると翻訳(中国語・英語間のみ)や要約、段落分けのほか、話者ごとに意見を整理したり、ToDoリストを作成したりする。

アリババクラウドによると、通義聴悟は今後も大規模言語モデルをベースとした機能を追加していく予定だ。例えば、動画コンテンツの中で使われたパワーポイントのスライドをワンクリックで抽出したり、音声・動画コンテンツに関するユーザーからの質問に対して、AIアシスタントが該当する段落をまとめたりできるようになる。

注目すべきは、通義聴悟がブラウザのプラグインなど多様な形態で提供されることだ。Chromeにプラグインが実装されれば、字幕のない動画コンテンツにもリアルタイムで2カ国語の字幕をつけられる。文字に起こしたテキストは字幕ファイルとしてダウンロードすることもできるため、媒体関係者がポストプロダクションに利用できるという。

近くリリース予定のChromeのプラグインのイメージ図

アリババのデジタル・コラボレーション・ワークプレイス 「DingTalk(釘釘)」のオンライン会議機能にも通義聴悟が組み込まれた。これまでの単純な文字起こしとは異なり、会議の要点をピックアップした完全なドキュメントを作成して、効果的に社内の業務効率を高めてくれるようになった。会議中でも議事録や要約をまとめてくれるという。

通義聴悟は個人版、法人版の2種類が提供される。また、将来的にはアリババの検索アプリ「夸克(Quark)」やクラウドストレージサービス「阿里雲盤(aliyundrive.com)」などを通じてサービスを提供する予定だ。アリババクラウドによると、法人版はすでにアリババグループ内で広く使われているという。

通義聴悟のこれらの機能は会議・講義・研修・面接などに活用でき、さまざまなソフトに導入すれば大きなビジネスチャンスを見いだせるだろう。

(翻訳・山下にか)

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録