日本語版のGPTNeo事前学習モデル(1.3B)を公開しました

はじめに

弊社で事前学習した日本語版 GPTNeo を公開しました。パラメタ数は 13 億ですが、うちでは GPU メモリ 11GB の RTX2080Ti で動作できています。 GPTNeo は GPT2/GPT3 のようなモデルですので、GPT2/GPT3 と同様のことができます。

トークナイザ

トークナイザは日本語データで学習した GPTNeo(GPT2)のものを利用しています。

学習データ

学習に使用したデータは以下になります。

CC100 日本語
oscar 日本語
日本語 wikipedia

使い方サンプル

以下のような感じで使えます。

from transformers import pipeline
>>> generator = pipeline('text-generation', model='yellowback/gpt-neo-japanese-1.3B')
>>> generator("こんばんは、徳川家康です。", do_sample=True, max_length=50, num_return_sequences=3)

[{'generated_text': 'こんばんは、徳川家康です。 世の中を見渡してみても、残念なことだけれども、まぎれもなく「世のなか...\n5月になりました、家康です。 ゴールデンウィークも終ってしまい、世間では'},
 {'generated_text': 'こんばんは、徳川家康です。さあ今日は昨晩から降り続いた雨は上がりましたが、まだまだ雨脚は強いですが、晴れるところは晴れて欲しいですね。昨日の夜は仕事だったので、今日の夕'},
 {'generated_text': 'こんばんは、徳川家康です。 今回は、『世界史再考──日本史再考』という本を書いたあと、『世界史再考──日本史再考』の6~8章'}]

おわりに

学習方法の詳細については後日記事を書く予定です。