transformers v4.15.0のリリース

はじめに

HuggingFace transformers が 12 月に入って v4.13, v4.14, v4.15 と立て続けにリリースされています。今回は、リリースノートをもとに v4.15 系の変更点を確認していきます。

WavLM はマイクロソフトによる音声処理用モデルです。「フルスタック音声処理のための大規模な自己教師付き事前学習」が特徴のようです。

Wav2Vec2Phoneme は Facebook AI Research による音声処理用モデルです。「簡単で効果的なゼロショット異言語音素認識システム」という論文に基づいたモデルで、自動音声認識の一部として音素分類を行うことができます。

UniSpeech-SAT はマイクロソフトによる音声処理用のモデルです。 UniSpeech-SAT は、特に話者に関するタスクを得意としています。

UniSpeech はマイクロソフトによる音声処理用のモデルです。

Wav2Vec2 ライクなアーキテクチャに話者ダイアライゼーション、話者照合が追加されました。

いろいろ改善や修正などがありました。

v4.15 は音声処理系メインのリリースでした。