- Published on
transformers v4.15.0のリリース
- Author
- Name
- Hideki Ono
- @yellowback
株式会社イエローバックの機械学習エンジニアです
はじめに
HuggingFace transformers が 12 月に入って v4.13, v4.14, v4.15 と立て続けにリリースされています。 今回は、 リリースノートをもとに v4.15 系の変更点を確認していきます。
新モデル
WavLM
WavLM はマイクロソフトによる音声処理用モデルです。 「フルスタック音声処理のための大規模な自己教師付き事前学習」が特徴のようです。
Wav2Vec2Phoneme
Wav2Vec2Phoneme は Facebook AI Research による音声処理用モデルです。 「簡単で効果的なゼロショット異言語音素認識システム」という論文に基づいたモデルで、自動音声認識の一部として音素分類を行うことができます。
UniSpeech-SAT
UniSpeech-SAT はマイクロソフトによる音声処理用のモデルです。 UniSpeech-SAT は、特に話者に関するタスクを得意としています。
UniSpeech
UniSpeech はマイクロソフトによる音声処理用のモデルです。
新しいタスク
話者ダイアライゼーション、話者照合
Wav2Vec2 ライクなアーキテクチャに話者ダイアライゼーション、話者照合が追加されました。
その他
いろいろ改善や修正などがありました。
まとめ
v4.15 は音声処理系メインのリリースでした。