Published on

transformers v4.15.0のリリース

Author
株式会社イエローバックの機械学習エンジニアです

はじめに

HuggingFace transformers が 12 月に入って v4.13, v4.14, v4.15 と立て続けにリリースされています。 今回は、 リリースノートをもとに v4.15 系の変更点を確認していきます。

新モデル

WavLM

WavLM はマイクロソフトによる音声処理用モデルです。 「フルスタック音声処理のための大規模な自己教師付き事前学習」が特徴のようです。

Wav2Vec2Phoneme

Wav2Vec2Phoneme は Facebook AI Research による音声処理用モデルです。 「簡単で効果的なゼロショット異言語音素認識システム」という論文に基づいたモデルで、自動音声認識の一部として音素分類を行うことができます。

UniSpeech-SAT

UniSpeech-SAT はマイクロソフトによる音声処理用のモデルです。 UniSpeech-SAT は、特に話者に関するタスクを得意としています。

UniSpeech

UniSpeech はマイクロソフトによる音声処理用のモデルです。

新しいタスク

話者ダイアライゼーション、話者照合

Wav2Vec2 ライクなアーキテクチャに話者ダイアライゼーション、話者照合が追加されました。

その他

いろいろ改善や修正などがありました。

まとめ

v4.15 は音声処理系メインのリリースでした。