白金鉱業.FM

データサイエンスやAI界隈の話題を中心に、BrainPad社のデータサイエンティスト有志メンバーがアツいと感じていることを自由に話すポッドキャスト番組です。

60. Podcast革命のラストピース、高精度音声認識モデル"Whisper"

2022年10月08日

MP3ファイルをダウンロード

内容紹介

OpenAIが公開した高精度音声認識モデル"Whisper"の論文解説をしました。

出演者

ysdyt
ysdyt
Daigo
Daigo

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm にて歓迎です!
匿名でのお便りもgoogle formにてお待ちしております!

論文ポイント
Whisperは豊富な多言語音声データセットをシンプルなEncoder-Decoder Transformerモデルでマルチタスク学習した。結果的に人間に匹敵する精度・ロバスト性の音声認識能力を獲得した。
豊富なデータセットを用意しつつ、できるだけ低品質なデータを除外している点。英語の書き起こし以外にも、多言語の書き起こしや言語特定など複数のタスクをシンプルなsequence-to-sequenceの枠組みに落とし込んでおり、スケーラブルなモデルを獲得できる点が貢献と言えそう。