Published on

日本語版のGPTNeo事前学習

Author
株式会社イエローバックの機械学習エンジニアです

はじめに

先日公開した日本語版 GPTNeo モデルの事前学習の方法についての記事です。 基本的には、https://github.com/EleutherAI/gpt-neo に沿って行います。 学習データの事前準備などはローカル環境で行い、学習は google colab の TPU を使いました。

事前準備(ローカル環境)

トークナイザの生成

日本語に

学習データの変換

トークナイザ

トークナイザは日本語データで学習した GPTNeo(GPT2)のものを利用しています。

学習データ

学習に使用したデータは以下になります。

  • CC100 日本語
  • oscar 日本語
  • 日本語 wikipedia

使い方サンプル

以下のような感じで使えます。

from transformers import pipeline
>>> generator = pipeline('text-generation', model='yellowback/gpt-neo-japanese-1.3B')
>>> generator("こんばんは、徳川家康です。", do_sample=True, max_length=50, num_return_sequences=3)

[{'generated_text': 'こんばんは、徳川家康です。 世の中を見渡してみても、残念なことだけれども、まぎれもなく「世のなか...\n5月になりました、家康です。 ゴールデンウィークも終ってしまい、世間では'},
 {'generated_text': 'こんばんは、徳川家康です。さあ今日は昨晩から降り続いた雨は上がりましたが、まだまだ雨脚は強いですが、晴れるところは晴れて欲しいですね。昨日の夜は仕事だったので、今日の夕'},
 {'generated_text': 'こんばんは、徳川家康です。 今回は、『世界史再考──日本史再考』という本を書いたあと、『世界史再考──日本史再考』の6~8章'}]

おわりに

学習方法の詳細については後日記事を書く予定です。