Published on

transformers v4.16.0のリリース

Author
株式会社イエローバックの機械学習エンジニアです

はじめに

HuggingFace transformers の v4.16.0 がリリースされました。アップデートはほぼ一ヶ月ぶりです。 本日時点では v4.16.1 が最新のようです。

リリースノートをもとに v4.16 系の変更点を確認していきます。

新モデル

Nyströmformer

自然言語処理用のモデルです。セルフアテンションを近似することで、より多くのトークン長(数千レベル)に対応可能なモデルです。

現時点で公開されているチェックポイントは、以下の 1 つのみのようです。

  • uw-madison/nystromformer-512

REALM

自然言語処理用のモデルで Google により 2020 年に公開されたものです。 Q&A タスクで、知識コーパスから文章を検索してそれを利用するためのモデルです。

チェックポイントは、 CC-News をターゲットコーパス、Wikipedia を知識コーパスにした事前学習モデルなどが公開されています。

ViTMAE

Facebook(Meta)による画像処理用のモデルです。 MAE(Masked Auto Encoder)を用いて ViT を改善する手法のようです。

ViLT

VLP(画像および言語の処理用)のモデルです。 処理時間の高速化を目指したモデルのようです。

Swin Transformer

Microsoft による画像処理用のモデルです。 階層的なアーキテクチャが特徴のようです。

YOSO

自然言語処理用のモデル。 ベルヌーイサンプリングを用いてセルフアテンションを効率的に行う。 高速化と省メモリに効果がある模様。トークン長が長いケースにも効果あり。

model like の追加

新しいモデルを容易に追加できるように、cli で add-new-model-like が追加されました。

$ transformers-cli add-new-model-like

学習スクリプト

音声用 seq2seq モデルおよび ViTMAE モデルの学習用スクリプトが追加されました。

パイプライン

  • automatic-speech-recognition での大きいファイルのサポート
  • image-classificationでの TF サポート
  • automatic-speech-recognition での with LM サポート
  • zero-shot-classificationquestion-answeringでのbatch_sizeサポート

PyTorch 改善

  • ElectraForCausalLM のサポート

TensorFlow 改善

  • Keras metric コールバック
  • TFVisionEncoderDecoderModel 追加
  • TFCLIPModel 追加

Flax 改善

  • RoFormer 追加

非推奨

  • AdamW の非推奨。代わりに Pytorch 版の torch.optim.AdamW が推奨。
  • --optimの追加

ドキュメント

ドキュメントは markdown に移行しました。

その他

いろいろ改善や修正などがありました。

まとめ

v4.16 ではいくつかの自然言語処理用モデルや画像処理用モデルが追加されました。