60. Podcast革命のラストピース、高精度音声認識モデル"Whisper"

2022年10月08日

MP3ファイルをダウンロード

内容紹介

OpenAIが公開した高精度音声認識モデル"Whisper"の論文解説をしました。

出演者

ysdyt

Daigo

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm にて歓迎です！
匿名でのお便りもgoogle formにてお待ちしております！

論文ポイント
Whisperは豊富な多言語音声データセットをシンプルなEncoder-Decoder Transformerモデルでマルチタスク学習した。結果的に人間に匹敵する精度・ロバスト性の音声認識能力を獲得した。
豊富なデータセットを用意しつつ、できるだけ低品質なデータを除外している点。英語の書き起こし以外にも、多言語の書き起こしや言語特定など複数のタスクをシンプルなsequence-to-sequenceの枠組みに落とし込んでおり、スケーラブルなモデルを獲得できる点が貢献と言えそう。