Published on

transformers v4.12.2のリリース

Author
株式会社イエローバックの機械学習エンジニアです

はじめに

HuggingFace transformers v4.12.0 がリリースされました。そのあとパッチリリースが続いて最新版は v4.12.2 となりました。 リリースノートをもとに v4.12 系の変更点を確認していきます。

TrOCR

PyTorch 版の TrOCR モデルが追加されました。 TrOCR は Microsoft の OCR 文字認識用のモデルです。 チェックポイントは英語用の印刷物用、手書き用などが公開されています。

TrOCR を実装するにあたり、VisionEncoderDecoderModel クラスが追加されました。このクラスでは任意の Vision Transformer エンコーダと任意の Text Transformer デコーダを組み合わせることができます。SpeechEncoderDecoderModel のようなものです。

SEW, SEW-D

SEW と SEW-D モデルが追加されました。これらは、音声認識用のモデルです。

DistilHuBERT

音声認識用モデル HuBERT の蒸留バージョンです。

TensorFlow 改善

TensorFlow について、いくつかのバグ修正や改善が行われました。

Speech improvements

音声処理について、いくつかの改善が行われました。

Auto-model API

Auto クラスに register メソッドが追加されました。 これで、カスタムモデル、コンフィグ、トークナイザの作成が容易になります。

細かいところですが、個人的には嬉しい機能です。 以下のようにして使えるようです。

from transformers import AutoConfig, AutoModel

AutoConfig.register("new-model", NewModelConfig)
AutoModel.register(NewModelConfig, NewModel)

その他

いろいろ改善や修正などがありました。

まとめ

v4.12 では OCR 処理用の TrOCR, 音声処理用の SEW, SEW-D, DistilHubBERT が追加されました。 また、Auto モデルに register メソッドが追加されてカスタムモデルの作成が容易になりました。