60. Podcast革命のラストピース、高精度音声認識モデル"Whisper"
2022年10月08日
内容紹介
OpenAIが公開した高精度音声認識モデル"Whisper"の論文解説をしました。
出演者
感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm にて歓迎です!
匿名でのお便りもgoogle formにてお待ちしております!
論文ポイント
Whisperは豊富な多言語音声データセットをシンプルなEncoder-Decoder Transformerモデルでマルチタスク学習した。結果的に人間に匹敵する精度・ロバスト性の音声認識能力を獲得した。
豊富なデータセットを用意しつつ、できるだけ低品質なデータを除外している点。英語の書き起こし以外にも、多言語の書き起こしや言語特定など複数のタスクをシンプルなsequence-to-sequenceの枠組みに落とし込んでおり、スケーラブルなモデルを獲得できる点が貢献と言えそう。
- openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
- Introducing Whisper
- Whisper - a Hugging Face Space by openai (ブラウザ上デモ)
- BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition
- OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた - DevelopersIO
- miyagawaさんのtweet
- 音源分離ソフトDemucs V3についてのtweet