transformers v4.18.0のリリース

はじめに

HuggingFace transformers の v4.18.0 がリリースされました。アップデートはほぼ一ヶ月ぶりです。

リリースノートをもとに v4.18 系の変更点を確認していきます。

新モデル

画像処理モデルに ResNet などの古いモデルを追加しはじめています。バックボーンとして利用するためです。

GLPN

韓国の KAIST による画像処理用のモデルです。

ResNet

言わずと知れた画像処理用のモデルです。

VAN

中国の大学による画像処理用のモデルです。

VisionTextDualEncoder

VisionTextDualEncoderModel は、ViT,BEiT,DeiT などの任意のイメージ用の事前学習モデルをイメージ用として、RoBERTa,BERT などの任意のテキスト用の事前学習モデルをテキスト用として使用できます。これらのうえに 2 つのプロジェクション層が追加されて、共有の空間に投影します。

DiT

OCR 向けの画像処理用のモデルです。

DPT

セマンティックセグメンテーションや深度推定向けの画像処理用のモデルです。

Checkpoint sharding

save_pretrainedメソッドでチェックポイントを保存する際に、pytorch の場合 10GB 以上では自動的に複数のファイルに分割する。

TensorFlow 実装

GPT-J, ViTMAE の tensorflow 版の実装が追加されました。

ドキュメントガイド

コンセプトガイドの章が追加されました。

その他

いろいろ改善や修正などがありました。

まとめ

v4.18 は画像処理関連のモデルの追加がメインでした。