transformers v4.10.0のリリース

はじめに

HuggingFace transformers v4.10.0 がリリースされました。リリースノートをもとに v4.10 系の変更点を確認していきます。

LayoutLM-v2 および LayoutXLM

Microsoft 製のマルチモーダルなモデル LayoutLM-v2 と LayoutXLM が追加されました。 OCR されたドキュメントや PDF のドキュメントのような文字情報に加えてレイアウト情報を用いるモデルです。 LayoutXLM はトークナイザが xlm-roberta のトークナイザとなっているようです。トークン数 25 万なのでおそらく日本語も対応していると思われます。論文LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understandingによると、日本語についても学習されているようですので、試してみようと思います。

以下のチェックポイントが Huggingface Hub で公開されています。

microsoft/layoutlmv2-base-uncased
microsoft/layoutxlm-base
nielsr/layoutlmv2-finetuned-funsd
monuirctc/invoice-extraction
microsoft/layoutlmv2-large-uncased

BEiT モデル

画像用モデル BEiT が追加されました。BEiT は自己教師あり学習を用いて事前学習するモデルのようです。

音声モデル改善

音声用モデルの Wav2Vec2 と HuBERT で、シーケンス分類用のヘッドが追加されました。

DeBERTa の TensorFlow 版

Microsoft の自然言語処理モデル DeBERTa と DeVERTa-v2 が pytorch から tensorflow に変換されました。

Flax モデル追加

以下のモデルの Flax 版がサポートされました。

EncoderDecoder
DistilBERT
ALBERT

TensorFlow サンプル

複数選択肢の tensorflow サンプルが追加されました。
DataCollator が Tensorflow 用のものも追加されました。

Auto API リファクタ

必要に応じてモデルをインポートするよう修正されました。

ささいな変更

破損したモデルの状態ディクショナリーを読み込んだときに単にウエイトを無視するケースがありましたが、エラーとなるよう修正しました。

その他

いろいろ改善や修正などがありました。

まとめ

v4.10 では自然言語処理の関連では、Microsoft の LayoutLM-v2 や LayoutXLM モデルが追加されたことは興味深いです。