transformers v4.17.0のリリース

はじめに

HuggingFace transformers の v4.17.0 がリリースされました。アップデートはほぼ一ヶ月ぶりです。

リリースノートをもとに v4.17 系の変更点を確認していきます。

新モデル

XGLM

Meta AI による、GPT-3 ライクな自然言語処理用のモデルです。英語にかたよらないバランスのとれた多言語用のコーパスを使って学習させたのが特徴のようです。

現時点で公開されているチェックポイントは、パラメタ数が 564M, 1.7B, 2.9B, 4.5B, 7.5B の 5 つです。

facebook/xglm-564M
facebook/xglm-1.7B
facebook/xglm-2.9B
facebook/xglm-4.5B
facebook/xglm-7.5B

ConvNext

画像処理用のモデルです。Meta AI によるものです。 Transformer を用いない ConvNet の改良版です。

PoolFormer

画像処理用のモデルです。シンガポールの Sea AI Lab(SAIL)によるものです。

PLBart

言語処理用のモデルです。 BART ライクなモデルで、プログラミング言語のコードを要約(英語)したり、コード生成をしたりすることが特徴です。

Data2Vec

Meta AI による、音声、画像、言語処理を統合したモデルです。

Maskformer

画像処理(セグメンテーション)用のモデルです。

コードをハブで共有

カスタムモデルを作成し、モデルハブに置くことで他の人と共有できるようになります。

ドキュメント

既存のガイドの更新や新しいドキュメントが追加されています。

音声モデルにおけるタイムスタンプ

CTC ロスで学習した音声モデル(Wav2Vec2, XLS-R, HuBERT, WavLM, ...など)でタイムスタンプを出力できるようになりました。 Wav2Vec2CTokenizer.decode や Wav2Vec2ProcessorWithLM.decoder メソッドで出力した単語の開始時刻と終了時刻を取得することが可能です。

互換性のない変更

CLIPTokenizerFast にバグがあり CLIPTokenizer と同じストラテジになるように修正されました。

その他

いろいろ改善や修正などがありました。

まとめ

v4.17 では言語処理用の XGLM や汎用の Data2Vec などが追加されました。