原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
中国IT大手アリババグループ傘下のアリババクラウド・インテリジェンスは1日、AIアシスタント「通義聴悟(Tongyi Tingwu)」をリリースし、オープンベータテストを開始したと発表した。
通義聴悟はアリババの大規模言語モデル「通義千問(Tongyi Qianwen)」をベースに開発したAIアプリケーションだ。主に音声や動画コンテンツの文字起こし、検索、要約・整理などが可能で、自動テキスト生成やインタビュー内容のまとめ、パワーポイントからのデータ抽出などができる。
通義聴悟の前身は社内で「聴悟」と呼ばれるプロダクトだった。会議や音声コンテンツからリアルタイムで文字起こしができるもので、昨年末から限定的にクローズドテストが実施されていた。
アリババクラウド・インテリジェンスの周靖人CTOによると、通義聴悟はアリババ最先端の音声・言語技術を集約したものだ。例えば、同社最新の産業用音声認識モデルは、中国語データセットとして最高の認識精度を実現している。また、独自開発した話者検証モデルも導入しており、10人以上が参加する対話でも話者それぞれを区別できる。さらに通義千問を統合したことで、1万字以上の音声・動画コンテンツも要約できるようになった。
通義聴悟ではユーザーが音声・動画データをアップロードすると、録音された内容の文字起こしが完了する。36Kr編集部が試したところ、文字起こしのスピードも速い。1〜2時間分の音声データならおおよそ数分で文字起こしが完了する。文字起こしが終わると翻訳(中国語・英語間のみ)や要約、段落分けのほか、話者ごとに意見を整理したり、ToDoリストを作成したりする。
アリババクラウドによると、通義聴悟は今後も大規模言語モデルをベースとした機能を追加していく予定だ。例えば、動画コンテンツの中で使われたパワーポイントのスライドをワンクリックで抽出したり、音声・動画コンテンツに関するユーザーからの質問に対して、AIアシスタントが該当する段落をまとめたりできるようになる。
注目すべきは、通義聴悟がブラウザのプラグインなど多様な形態で提供されることだ。Chromeにプラグインが実装されれば、字幕のない動画コンテンツにもリアルタイムで2カ国語の字幕をつけられる。文字に起こしたテキストは字幕ファイルとしてダウンロードすることもできるため、媒体関係者がポストプロダクションに利用できるという。
アリババのデジタル・コラボレーション・ワークプレイス 「DingTalk(釘釘)」のオンライン会議機能にも通義聴悟が組み込まれた。これまでの単純な文字起こしとは異なり、会議の要点をピックアップした完全なドキュメントを作成して、効果的に社内の業務効率を高めてくれるようになった。会議中でも議事録や要約をまとめてくれるという。
通義聴悟は個人版、法人版の2種類が提供される。また、将来的にはアリババの検索アプリ「夸克(Quark)」やクラウドストレージサービス「阿里雲盤(aliyundrive.com)」などを通じてサービスを提供する予定だ。アリババクラウドによると、法人版はすでにアリババグループ内で広く使われているという。
通義聴悟のこれらの機能は会議・講義・研修・面接などに活用でき、さまざまなソフトに導入すれば大きなビジネスチャンスを見いだせるだろう。
(翻訳・山下にか)
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録