streampackのminsuです。

今回はMSのAzure Video Indexerの音声分析情報を使う機会があったので情報を共有します。
今回は日本語で話している動画から日本語を文字起こししました。

https://azure.microsoft.com/ja-jp/services/media-services/video-indexer/

動画のアップロード

まずはVideoIndexerの利用はにログインします。
googleアカウントでログインしてみましたが、無料アカウントでも最大40時間分まで試せるようです。

ログイン後はアップロード画面へ移動し、動画をブラウザ常にドラッグするだけでアップロード可能です。

今回は日本語の動画なのでビデオのソース言語は日本語に変更します。

動画アップロード後に分析が開始されますので処理完了を待ちます。

音声分析情報

動画を選択し、タイムラインタグで文字起こしされた情報を確認します。

ダウンロードからvttファイルなどでDLすることも可能です。
ニュース番組でキャスターが原稿を読み上げている動画など、一人が聞き取りやすく話している場合では高い制度で文字起こしされていました。

台風9号は、このあとさらに発達しながら北上し、月曜日から火曜日にかけて非常にしい勢力で沖縄に接近しそうです。
そのあとは東シナ海を北上し、暴風域を伴ったまま九州など西日本にも接近する恐れがあります。

台風9号は、このあとさらに発達しながら北上し、月曜日から火曜日にかけて非常にしい勢力で沖縄に接近しそうです。
そのあとは東シナ海を北上し、暴風域を伴ったまま9州など西日本にも接近する恐れがあります。

ダウンロードタグの右隣の日本語タグから字幕情報を他言語に翻訳可能です。

英語

Typhoon No. 9 is likely to go north as it develops further, approaching Okinawa with very heavy forces from Monday to Tuesday.
After that, it is possible to go north over the East China Sea and approach western Japan such as nine states while accompanied by a storm zone.

韓国語

태풍 9호는 월요일부터 화요일까지 매우 무거운 힘으로 오키나와에 접근하면서 북쪽으로 갈 가능성이 높습니다.
그 후, 동중국해를 통해 북쪽으로 가서 폭풍 지대와 함께 9개 주와 같은 일본 서부에 접근할 수 있습니다.

英語、韓国語にしてみたところ、日本語で9州と誤認識されている箇所は他言語に翻訳した場合もnine states,9개のように同じ箇所が誤っていました。

誤ってる箇所は編集タグで修正できます。

上記のようなニュースを読み上げるような場合では高い制度で文字起こしされた一方で、
人物の発言中に効果音の混じっている場合や、複数の人数が同時に会話しているような状況では精度は高くはありませんでした。
下記のように実際に人間の耳で聞いても認識し辛いような箇所は精度も低めでした。

A: なんぼのもんじゃい
B: この話知ってるってこと?
A: だってこれ前にも聞いたよ、結構有名じゃない
C: あーそうじゃん
D: 僕これにします

ガンモ飲んでじゃないわよ。知ってるってだってこれ前に聞いたよ、結構有名なんですね。じゃあこれでします。

カスタム言語モデル

Video Indexerはモデルの一部をカスタマイズすることが可能で、
音声認識の部分でも特定の単語を学習させたり言語認識の精度を上げる目的でカスタム言語モデルを使用することができます。

https://docs.microsoft.com/ja-jp/azure/media-services/video-indexer/customize-content-models-overview
https://docs.microsoft.com/ja-jp/azure/media-services/video-indexer/customize-language-model-with-website

使用してみたところベストプラクティスに沿ったトレーニング用データを用意する必要があります。
私の方で用意したデータが適切であったかは不明な点もあるので精度については置いておきますが、
カスタム言語モデルを利用して日本語を文字起こししたところ、
日本語の場合は読点、句読点がなぜか出力されなくなったので少し使い勝手はよく無い印象を受けました。

感想

音声認識に関しては、
スピーチ形式であったり自分用の音声メモを文字に起こす場合などは高い精度が発揮される一方で、
複数人数の討論形式や雑談などの場合はまだ難しいようです。

ですがVideoIndexerが複数人数が登場する動画に不向きという訳ではなく、
動画内で誰がどのシーンに出演しているかのユーザー分析情報も得ることができるので、ケースバーケースで必要な分析情報に応じて使えそうです。

元記事はこちら

Video Indexer を使って文字起こし