- Published on
日本語版のGPTNeo事前学習
- Author

- Name
- Hideki Ono
- @yellowback
株式会社イエローバックの機械学習エンジニアです
はじめに
先日公開した日本語版 GPTNeo モデルの事前学習の方法についての記事です。 基本的には、https://github.com/EleutherAI/gpt-neo に沿って行います。 学習データの事前準備などはローカル環境で行い、学習は google colab の TPU を使いました。
事前準備(ローカル環境)
トークナイザの生成
日本語に
学習データの変換
トークナイザ
トークナイザは日本語データで学習した GPTNeo(GPT2)のものを利用しています。
学習データ
学習に使用したデータは以下になります。
- CC100 日本語
- oscar 日本語
- 日本語 wikipedia
使い方サンプル
以下のような感じで使えます。
from transformers import pipeline
>>> generator = pipeline('text-generation', model='yellowback/gpt-neo-japanese-1.3B')
>>> generator("こんばんは、徳川家康です。", do_sample=True, max_length=50, num_return_sequences=3)
[{'generated_text': 'こんばんは、徳川家康です。 世の中を見渡してみても、残念なことだけれども、まぎれもなく「世のなか...\n5月になりました、家康です。 ゴールデンウィークも終ってしまい、世間では'},
{'generated_text': 'こんばんは、徳川家康です。さあ今日は昨晩から降り続いた雨は上がりましたが、まだまだ雨脚は強いですが、晴れるところは晴れて欲しいですね。昨日の夜は仕事だったので、今日の夕'},
{'generated_text': 'こんばんは、徳川家康です。 今回は、『世界史再考──日本史再考』という本を書いたあと、『世界史再考──日本史再考』の6~8章'}]
おわりに
学習方法の詳細については後日記事を書く予定です。