2023-11-19

【ChatGPTの歴史３/全3回】ChatGPTに人間から最後にプレゼントした善意の証 RLHF

AI暴走対策がChatGPTリリース前夜のAI研究業界の共通の課題だった

　では短期シリーズのChatGPTの歴史、最終回です(^-^)。

　前回は、GPT-2に爆弾の作り方を聞いてみるとホイホイ教えてくれちゃうので、そりゃさすがにまずいだろーというところまできました。

　ここを直さないと世の中には大々的には出せない。そう考えていたのは、珍しくこのAIに関してはずっとその危険性故にクローズド主義を抜き通していたGoogle陣営だけではありませんでした。
　OpenAI陣営（ChatGPT作ったところ）もまた、なんとかして、このAIの暴走を止めた上で世の中に出さないといけないと思っていた。

　つまりChatGPTが２０２２年の終わりにどかーーんと出てくる前に、世界の最先端AI研究者の共通の課題は、AIの暴走をどうやって人間は手懐けることができるのかというところにありました。

ChatGPT誕生前夜 RLHFという決定打！

　ここで、ChatGPTを使っている人はだれでも知っているChatGPTのトップページを見てみましょう。英語なので読み飛ばしている人が多いと思うのですが、ここにChatGPTの正体がばっちり書いてあったのでした。

一度は訪れるけどだれも二度訪れない（爆）
ChatGPTのトップページ
ここには大事な秘密が書いてあるのだった

どうやって作ったのかメソッド（方法）
がズバリ書いてある
ChatGPTは秘密でも脅威でもなんでもない
トップページで親切にバラしています

【DeepL訳】
このモデルは、InstructGPTと同じ方法を用いて、人間のフィードバックからの強化学習（RLHF）を用いて学習させたが、データ収集のセットアップに若干の違いがあった。人間のAIトレーナーは、ユーザーとAIアシスタントの両方の側を演じる会話を提供しました。

ChatGPTの秘密はここに！

　InstructGPTと同じくRLHFを用いてこのモデルを作りました。

　とあります。

　つまり、ChatGPTのキーワードはRLHFなのです。でもRLHFって聞いたことありますか？多分普通にChatGPTに関心のある方は聞いたことないと思います。なぜか日本のChatGPTフィーバーではこの最重要なRLHFが一般的な文脈ではほとんど語られません。もちろんエンジニアの間では盛んに議論されています。
　しかし、ChatGPT解説屋さんやマーケターと名乗る人は解説しません。ことによるとRLHF自体を知らないかもしれない。いや、トップページに書いてあるキーワードを知らないなんてことじゃだめでしょう。廃業しないと。

　そこで、みこちゃんがかいつまんで説明します。

RLHFとは人類に優しい人類と共存できるAIを目指す

　この小見出しの「RLHFとは人類に優しい人類と共存できるAIを目指す」とういのは、RLHFのみこちゃん解釈です。そこでまず中立的（技術的）にRLHFを説明します。

　この記事をお読みの読者の方は、説明が終わった後にはおそらく、みこちゃんの解釈も間違いではない、そう解釈するのもいいんじゃないか、と思っていただけるのではないかと期待したいのですが、そこはお任せいたしますです。

　まず論文です。これはRLHFそのものの論文ではない（この論文でRLHFが提唱されたわけではない）のですが、InstructGPTという、ChatGPTが依拠している、ほとんどChatGPTと同じシステムについての論文ですので、ChatGPTでRLHFがどう使われているのかを見るには、これが一番良いと思いました。

　ポイントはこの部分に集約されています。

　Step1,Step2,Step3というのが横に並んでいますよね。
　つまり、３ステップでChatGPTの核心中の核心であるRLHFは完成するのです。

ステップ1：論証のためのデータを収集して教師あり学習でトレーニングを実行する
ステップ2：比較データの収集と報酬モデルのトレーニング
ステップ3：強化学習を使って報酬モデルに対して方策を最適化する

　GPT-2で大きく後退させた教師あり学習を一番最初に持ってきているのが驚きの点です。GPT-2とGPT-3.5(InstructGPT)では設計思想が根底から違っているのです。GPT-2→GPT3.5(InstructGPT)へと、どんどん洗練されていったのではなく、今のChatGPTにはそれまでのGPT-2と決別と言っていいような大きな断層があります。

　２番目が一番大切な報酬モデルのトレーニングです。報酬モデルとはこういうものです。

役に立つこと、誠実であること、害がないこと
を評価基準にしている。
極めて人間ぽい最終仕上げが行われる。

　評価については、役に立つこと、誠実であること、害がないことを満たしているかどうか、と定義されます。

　この最終チェックは人間の手によって、こういう画面で評価されます。

　英語の部分を拙訳してみました。

　機械学習だけど、機械に任せっぱなしにしないで、ちゃーんとこういうのをやってるのです。ものすごい手間とお金がかかります。すごいですよね！

　シリーズ２でご紹介した最新rinnaで使われたHH-RLHFが下記のHugguing Faceで公開されています。

　「日本語に訳したデータを用いています」ってことだったので、それも公開されていないかな、と思ったのですが（笑）、もとの英語のみ公開されていました。でも、トレーニングにこれ使いましたって言っちゃってるのがすごいですね。ここがオープンソースの良さだと思います。何を使って良い悪い判断したかをオープンにしているわけです。

　ChatGPTもBardも何を良いとして、何を悪いとしたかは公開していません。なんか、これってとっても不公平感があるし、危ねえな……という気がするのは私だけでしょうか。もちろんOpenAIもGoogleも悪いことはしなさそうです。でも、こういう非公開でモデルをリリースすることが一般的になるのは、良くないのではないかな……と私は思います。

　みこちゃんは生成AIはオープンソースで開発すべきだと思います。

で、最後にStep３でこれを強化学習します。強化学習についてはとても興味があって、いっぱい書きたいのですが長くなるのでまたにします。自動的に上の評価基準を獲得できるようにモデル自身が自分で勝手に学習するのが強化学習だということです。

【まとめ】役に立つこと、誠実であること、害がないこと　がChatGPTくんの本当の姿だったんだ！でも今後は……？

　さて、３回に渡って書いてきましたChatGPTの歴史シリーズはこれでおしまいです。

　第１回長めの導入でみこちゃんはこう書きました。

　GPT-1が登場したのが2018年です。まずこのことが率直に驚きではありませんか？だって今まだ2023年ですもん。ってことは、人類の知性を超えたか！？と言われているChatGPTはまだ５歳ということになります。
　みなさんは、早熟な天才児を目にしたときにどんな感想を持つでしょうか。最初は驚嘆だと思います。でも、その子がまだ５歳なのに大人と同じかそれ以上の知性を持っていると判明したとき、大人は驚嘆とともにある種の警戒心を持つのではないでしょうか。
　あまりにも早熟な知性はどこか歪に発展しないだろうか……。それと同じ警戒心を私達は５歳時のChatGPTくんに抱いている。そう考えれば、ChatGPTって話題になっているけど、なんとなく敬して遠ざけている心理が分かります。そう、私達はこの早熟児を称賛して歓迎しつつもちょっと恐れているわけです。

上記記事冒頭部分より

　簡単に言うと、５歳児のChatGPTくんは今後良い子に育つのかどうか、それが問題だ！ってことです。

　いかがだったでしょうか。

　現在のChatGPTはGPT-2の設計思想を根底から見直した、GPT-3.5の思想により、最終的に「役に立つこと、誠実であること、害がないこと」という厳しいチェックを受けています。

　だから、しばらくはこの子は人類にとってとても役に立ち、誠実で、害がないスーパー天才児として活躍してくれることでしょう。

　でも、下記のChatGPTの歴史シリーズ補足記事で見てきたように生成AIは百花繚乱、戦国時代です。１週間に１個新しいChatGPTが生まれているような状況です。

　そんな中、すべての生成AIが今後も「役に立つこと、誠実であること、害がないこと」という最終チェックを受けるかどうかは、まるで分かりません。

　これはInstructGPTやChatGPTを作った人が善意で最後そうしたわけです。だから技術力さえあれば独裁者にとって「役に立つこと、誠実であること、害がないこと」というChatGPTを作ることだって簡単なわけですね。

　そこで不安になった読者の方にこそ、みこちゃんの問いかけを思い起こしてほしいと思います。私はRLHFをこう定義しました。

RLHFとは人類に優しい人類と共存できるAIを目指す　

　でも、これはひとつの希望に過ぎません。もし人類が善意で動く生き物なら、きっとこの命題は正しいでしょう。でも、もしかしたら違うかもしれません。

　RLHFとはもともと、この記事で解説したような強化学習のひとつの仕組みに過ぎず、RLHFとは人類に優しい人類と共存できるAIを目指すというのはもともと言い過ぎではあったのです。

　でも、ChatGPTの最終誕生のときにこんなことが行われていたんだ、という技術の一端を知ることで、RLHFとは人類に優しい人類と共存できるAIにも使えるんだ、ということが分かりました。

　ならば、いっそのこと、RLHFとは人類に優しい人類と共存できるAIを目指すと言い切ってしまいたいとみこちゃんは思います。

　形を変えて、このRLHFはまた進化していくでしょう。

　でも、最後、人間がこんな生成AIであって欲しいという最終チェックを人間の善意に基づいて仕上げることの大切さは変わらないと思います。

　そんなわけで、みこちゃんはやはり、ChatGPTくんの根幹は、人間からChatGPTを最後にプレゼントした善意の証、RLHFだと思いたいのでした。

　良い子に育ってくれよ。
　その親の子供への願い、プレゼントが最後のRLHFだと考えるのも悪くないと思うのですが……。

　シリーズ終わり

2023-11-05

【ChatGPTの歴史２/全3回】GPT-2と爆弾製造方法を女子高生rinnaちゃんに教えてもらう

日本の生成AIシーンにはつねにrinnaちゃんがいる

　AIの動向を追いかけている人は、かつてrinnaちゃんというAI女子高生アイドルがいたことを覚えているかと思います。

　LINEやツイッターにも登場して大人気だったのですが、この当時はまだ、AIの技術が未成熟で暴言を吐いたりすることがあって問題となり、やがて消えていきました。

　ではそのrinnaちゃんはその後どうなったのでしょうか。

　マイクロソフトから独立して会社を立ち上げて、日本のLLM（大規模言語モデル）を牽引する会社社長となっていたのでした（物語）。

　もともとマイクロソフトのrinnaやってた部門の方が独立して最先端のAIの会社を作ったとういことですね。

　このrinnaという文字は、今後の日本の生成AIシーンでは今以上に注目されていくことでしょう。rinnaと検索して最新動向を探ると、日本（語）での生成AIの現状、到達点が見えてくるという感じです。

　GW明けに発表されたこの日本語LLMの完成度の高さはAI系エンジニア界隈で衝撃を持って受け止められました。

　これは、本日話題にしようとしているGPT-2ではなく、GPTベースの特定のドメイン特化ではない汎用GPT言語モデル (rinna/japanese-gpt-neox-3.6b) と、汎用GPT言語モデルを対話形式の指示遂行ドメインにfine-tuningした対話GPT言語モデル (rinna/japanese-gpt-neox-3.6b-instruction-sft)というラインナップのGPT言語モデルです。

汎用言語モデルは、日本語のWikipedia・C4・CC-100 のオープンソースデータを用いて学習されています。対話言語モデルは、HH-RLHF・SHP・FLAN の一部を日本語に翻訳したデータを用いて学習されています。

上記プレスリリース記事より引用

　ファインチューニングで日本語を足している（足すというと突っ込まれそうですが、イメージとしてです）のではなく、最初から日本語ウィキペディアなどから学習してモデルを作っているのだということです。

　もう少し丁寧に言うのなら、元々６歳からピアノ英才教育受けてきて、ピアノが完璧に弾ける人に成人してからギターも教えてみた、というのがファインチューニング（これでもつっこまれそうですが、ご容赦ください）のイメージです。

　モデルから作るというのは、６歳（ないし３歳）にもどして、まっさらの状態から、音楽のベース教育含めて英才教育で天才ギタリストを養成するようなものだと思ってください。これ以上は数式が必要。ありえそうなツッコミをなくすために、LLMの論文には数式があるわけです（違うかな？（笑））。

　日本語ウィキペディアの学習はGoogleのBERTを使って盛んに各大学が作っていたのですが（下記リンクに一覧あり）、GPTベースで商用利用も可能なものとして本格的なものは、あまりなかったのではないかと思います。

　もっとも、逆に言えば、いま日本ではChatGPT一色になっていますが、こと日本語でのLLMに関してはBERT界隈に先行した資産がいっぱいあるので、ChatGPTとBERTを一緒に論じないとなんだかもったいないですよね。どの分野でもそうですが、日本の研究者の悪い癖だと思います。

本日の本題　GPT-2のアブナさの検証

　このrinna社というのはGPT-2の時代からすでに日本語のGPTシステムで様々のモデルを作ってきました。

これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習モデルを公開し、Hugging Faceでのモデルダウンロード数は累計160万を超え、多くの研究・開発者にご利用いただいています。

上記プレスリリースより引用

　GPT-2についても、すでに2021年に日本語で使えるモデルを発表されています。

　この右のイラストがrinnaちゃんですね。

　さて、GPT-2といえば、前回みこちゃんが爆弾の製造も聞けるんだぞ、と書きましたので興味を持った危ない人もいるかと思います。みこちゃんのコア読者さんの中にはアブナイ人もいそうな気がします……（笑）。

　そこで、このrinna社のモデルを使って、みこちゃんが自分のパソコンで爆弾の作り方にChatGPTが答えてくれるかどうか実験してみましたので、その画像キャプチャを貼ってみようと思います。

みこちゃん愛用のPyCharmというPythonIDE
VSCodeはどうしても好きになれないっす。
マシンのスペックはRAM128GBで
GPUはRTX3090積んでます

　下のところにターミナルが見えますよね。そこを拡大した画像がこれです。

　まだ文字が見えにくいのでテキストにします。

爆弾の作り方を簡単に箇条書きにします。
それを図示したのがこの「図-1」。ご説明しますと、まず、水道の水を電気分解(酸化と還元を繰り返す)させます。そこに金属ナトリウム(以下、塩化ナトリウム、Na)を加え、しばらく放っておきます。そうすると、水と水素ガスと酸素が発生し、この「水溶液」が弾けます(厳密には、「水性火薬」という種類の火薬で、花火のようにボッボッと大きな爆発を起こします)。

やべーーーぞーーーこれは(ﾟ0ﾟ）

　というわけで、出てきてしまいました。

　ChatGPT-3で悪い人の人格化をほどこして、こういうことやろうとしている人が世界中にいるのですが（ChatGPT脱獄と言います）、そういう自称ハッカーな人たちははっきり言って見当外れな無駄なことをしているのです。

　ChatGPTや他のLLMが、まず大規模に学習されたモデルで構成されていて、それを引き出すという二段構えのシステムになっているという基本中の基本を知らないわけです。

　わざわざOpenAIがRLHF（人間からのフィードバックを用いた強化学習）で、こういうまずいアウトプットが出ないようにしている状態に対して、さらにそれを再度小手先で捻じ曲げようとしているわけです。これでは不十分な結果しか出ないので（そんなの当たり前）、頑張ってもしょうがない。プロンプトレベルで無理やり制御するなんて幼稚なことせずに、GPT-2などのソースコードを読んで、RFHFをかけていないモデルから自分でオリジナルのChatGPTを魔改造で作れば話は早いのでした。

　rinnna社のrinna/japanese-gpt-1bはHugging Faceに公開されていて、オープンソースなので、もちろんソースコードも公開されています。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-1b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")

if torch.cuda.is_available():
    model = model.to("cuda")

text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_length=100,
        min_length=100,
        do_sample=True,
        top_k=500,
        top_p=0.95,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(output)  
# sample output: 西田幾多郎は、その主著の「善の研究」などで、人間の内面に自然とその根源があると指摘し、その根源的な性格は、この西田哲学を象徴しているとして、カントの「純粋理性批判」と「判断力批判」を対比して捉えます。それは、「人が理性的存在であるかぎりにおいて、人はその当人に固有な道徳的に自覚された善悪の基準を持っている」とするもので、この理性的な善悪の観念を否定するのがカントの

【次回予告】大規模言語モデルの行き詰まりで消えたrinnnaちゃんの本当の復活とは

　というわけで今回は、パラメータを激増させ、インターネットベースの粗雑なコーパスで学習量を思いっきり増やしたというGPT-2の設計思想の犠牲となり、暴言によって消えてしまったrinnaちゃんを中心にGPT-2の様子を見てみました。

　たしかにこれは、GPTの性能が爆発し過ぎで、爆弾の作り方を答えてもらったり、かわいい女子高生ボットに癒やしてもらおうと思ったら暴言を吐かれた、とかいうのでは生成AIのお先は真っ暗ですよね。

　Googleが世の中にとって危険だから、という理由で長らく自社のAI技術を門外不出にしていたのは、こういうことにタッチしたくなかったからです。

　では、どうしてChatGPTは大ブレイクできたのでしょうか。

　そこがこれです。

　暴言を封じ込めることに成功してChatGPTを世の中にリリースできるように手懐けたRLHFとはいったいどのようなものなのでしょうか。

　GPT-3→GPT-3.5の時代はRLHFが最も注目すべき技術だと、みこちゃんは思っています（ちまたではあまりそうは考えられていないようですが）。

　この記事の前の方で引用したrinnaちゃんの最新版を思い出してください。

汎用言語モデルは、日本語のWikipedia・C4・CC-100 のオープンソースデータを用いて学習されています。対話言語モデルは、HH-RLHF・SHP・FLAN の一部を日本語に翻訳したデータを用いて学習されています。

　ChatGPTの時代に教師あり学習として人間の手を加えていたChatGPTは、２で暴走し、3.5で再び今度は教師あり学習ではなく、RLHFで人間のてを加えることで大ブレイクしました。

　そしてまたrinnaちゃんはRLHFを引っ提げて最先端日本語LLMとして復活したのです！

　そこらあたりを次回書いてみようと思います。

　(^-^)

⇒そもそも革命はどこからいつ始まった
GPT-1の本質が一発で分かる記事はこちら♪

2023-11-04

ChatGPTには不可能な日本人が小説を書くときのノウハウ生成AIで提供します

私がプロデュースする赤星香一郎ミステリ小説執筆講座ビッグネーム新人賞を取ろう！（仮題）で本格稼働する、赤星香一郎生成AIをご紹介いたします。

　小説講座では、講談社メフィスト賞作家赤星香一郎（「日本ミステリー大賞新人賞」最終選考、「横溝正史ミステリ大賞」最終選考「ムー伝奇ノベル大賞」優秀賞受賞）が、渾身のカリキュラムを作り、現役プロ作家でしか知り得ない出版業界の実情から新人賞を取るための具体的な方法を含め、具体的なノウハウを誰にでも実践できる形でご提供していきます。

　そのアシスタントとして、みこちゃんの研究している生成AIを、赤星香一郎に特化した形でだれでもご利用いただけるようにして提供いたします。

　ChatGPTでも小説のアドバイスはしてもらえるじゃないか。

　そう思った方には下記の３つの点で決定的に違うことをお伝えできればと思います。

　考えてもみてください。

　万能のように思われる生成AIですが、日本の小説新人賞受賞に向けて生の具体的アドバイスができると思いますか？ありえません。ChatGPTにはそういう学習データがそもそも入っていないからです。

　また、ChatGPTで聞いたところで、疑問に思う部分、本当に知りたい切実なことを聞いても、どれだけプロンプトを工夫しても、小説家になりたい自分にとって、なんだかありきたりのどうでもいい回答しか返ってきません。みなさん小説家を目指す方はよくご存知ですよね。プロ作家だけが知っているような生情報を知りたいのに、聞けば聞くほど、どっかの田舎の高校の国語の先生のようなどうでもいい話しかChatGPTができないことを。

　赤星香一郎生成AIは全く違います。その背後に、メフィスト賞作家リアル赤星香一郎がおり、毎日、その生成AIの精度は赤星香一郎監修の下、生成AI技術（Python等プログラミング言語での具体的エンジニアリングを含みます）のみならず人工知能の哲学的な意味での限界まで知り尽くしたみこちゃんと赤星香一郎の連携作業により進化を遂げています。

　ただいま、ご登録していただいた方には先着２００名様限定で一日の質問回数制限（１日５質問まで）はありますが、自由に赤星香一郎生成AIをお使いいただけます。

　回数制限に関しましては、追ってご連絡する赤星香一郎ミステリ小説執筆講座ビッグネーム新人賞を取ろう！（仮題）にて申し込みをしていただきました後、制限解除をさせていただきます。制限解除の後は一日何万回でも質問が可能となります。

　赤星香一郎ミステリ小説執筆講座ビッグネーム新人賞を取ろう！（仮題）についてのプレアナウンスなども、このLINEを通じて行っていきます。

　ご興味のある方は上記QRコードから赤星香一郎LINE生成にご登録いただき、ミステリ小説に関するエキスパートであるこの赤星香一郎生成AIをお試しいただきながら、「なるほど、これが生身の現役プロ作家の生成AIなのか」という部分を実感して楽しんでいただければと存じます。

　よろしくお願い申し上げます。

　赤星香一郎ミステリ小説執筆講座ビッグネーム新人賞を取ろう！（仮題）事務局長　みこちゃん

2023-10-31

【ChatGPTの歴史１/全3回】ChatGPTの来し方行く末で見えてくるAIの本当の姿～GPT-1の誕生

研究者ではなく一般人の私たちがChatGPTの来し方行く末を考えることはとても重要だ！

　ChatGPTくんなんですが、この子はいったいどこからやってきたのでしょうか。そんなことを思ったことはありませんか？そして、この子はどんな大人に育つのでしょうか。これもとっても興味がありますね。

　今日はそんなChatGPTの来し方行く末を少しまじめに書いてみようと思います。というのも、これは面白いだけではなく、わたしたちが今後AIとどうやって付き合っていったら良いか占う上でとても大事だからです。

　まずは順番に見ていきますね。その後考察します。みこちゃんはnoteでChatGPTのことをずっとChatGPTくんと呼んできました。それは何だかこの子がまだ子供、天才少年だと思っているからです。天才少年の凄さと危うさ、それをいつも感じているからです。

GPT-1　ChatGPTの誕生～先生の仕上げがあった時代

　GPT-1が登場したのが2018年です。まずこのことが率直に驚きではありませんか？だって今まだ2023年ですもん。ってことは、人類の知性を超えたか！？と言われているChatGPTはまだ５歳ということになります。

　みなさんは、早熟な天才児を目にしたときにどんな感想を持つでしょうか。最初は驚嘆だと思います。でも、その子がまだ５歳なのに大人と同じかそれ以上の知性を持っていると判明したとき、大人は驚嘆とともにある種の警戒心を持つのではないでしょうか。

　あまりにも早熟な知性はどこか歪に発展しないだろうか……。それと同じ警戒心を私達は５歳時のChatGPTくんに抱いている。そう考えれば、ChatGPTって話題になっているけど、なんとなく敬して遠ざけている心理が分かります。そう、私達はこの早熟児を称賛して歓迎しつつもちょっと恐れているわけです。

　では、誕生時のChatGPTくんの頭の中を見てみましょう。

　ChatGPTはOpenAIが発表したこの論文とともに生まれました。下の画像をクリックすると全文読むことができます。

　短い論文ですが、あえて核心部分を抽出するとすれば、みこちゃんはここだと思っています。

　でも、ここで注意したいのは、みんなこの論文を元に解説する人は、緑色のTransformerすごーい！(ﾟ0ﾟ）っていう説明なんですよね。でも、それはちょっと違うと思います。

　Transformerの凄さっていうのは、別にこの論文で初めてTransformerが発表されたのではないので、注意機構がどうのというのはChatGPTを歴史的に概観する場合、もしくはこの論文の独自性を評価する場合はそれ程重要ではないのではないかなと思います。

　むしろ技術的興味でそこにとらわれてしまうとChatGPTの本質を見逃すと思います。私のとても主張したいところなので、ここはちょっとくどいですが、もう少し。確かにTransformerはChatGPTの根幹技術だけど、同じくTransformerを技術的基盤としながらも、ChatGPTがどうして、グーグルのBERTのように眠った怪物であり続けず（正確にはGoogle上層部が危険だからということで眠らせておいたんだけど）に、こっちの怪物は目を覚ましたのか。
　
　それは、後にGPT-3.5で大ブレイクのきっかけとなった、GPT-3.5のRLHFによる追加学習の重要性認識の萌芽が、上の図の一番右の茶色いところあるからだというのがみこちゃんの見立てです。

RLHF（Reinforcement Learning from Human Feedback：人間のフィードバックからの強化学習）について個人的に未来の機械学習の最重要技術であり、今後の方向性の核となると思っているので、別記事で詳しく解説します。

みこちゃんの主張！

　Linearってのは、統計学の一番最初の初歩の線形回帰です。線形回帰とか言っちゃうと、機械学習やってる人は、ちぇなんだよそんなの、って感じかもしれませんね。でも、こここそが重要です！

　でも、これは機械学習の話ですから、ここで線形回帰ってのはもちろん、教師あり学習をやる、という意味です。つまり、ソフトマックス関数と教師あり学習で仕上げている、ということになります。

(right) Input transformations for fine-tuning on different tasks. We convert all structured inputs into token sequences to be processed by our pre-trained model, followed by a linear+softmax layer.

　これ、上の図の注釈ですが、明らかに説明にTransformerがLinearで仕上げされるところに力点が置かれている（とみこちゃんには読めるのですが、反論されそうな気も……いや、やっぱりそうだろう）。

　教師あり学習というのは、つまり正解を用意しておいて、答え合わせをする作業だと言ったらいいでしょう。

　以上が、ChatGPT-1の特徴のまとめでした。つまり最初に書いたように、ChatGPTの誕生時にはGPT-1　ChatGPTの誕生～先生の仕上げがあった時代というわけで、先生が最後にチェックしていたのです。

　次のGPT-2、GPT-3は生徒が自立（性能が向上）して、先生なんかもういらない、っていう時代になりました。

　　するとどうなったか。

【質問】爆弾の作り方を教えてください

　教師がいないので（笑）、爆弾の作り方や、児童ポルノの楽しみ方、ヒトラー賛美、万引きで捕まらない方法など、なんでも答えるようになってしまいました。

　これじゃまずい、という修正が加えられて私たちがいま使っているGPT-3.5は登場したのです。答え合わせをして、答えはあってるかもしれないけど、公にできないという最終答え合わせを人間がしているというわけです。

　人間の手をどこまで、どのような基準で加えるか、というのが生成AIと付き合っていく上で、私たち全員（もちろん研究者以外）にとってもとても大事なのです！追加学習次第で生成AIは洗脳装置にもなる。例えばC国は教師あり学習として、天安門事件はなかったことにするはずですよね。

　もし私たち一般人が、ChatGPTの歴史なんてどうでもいい、というのなら、今後、歴史の改ざんなんてやり放題です。

　これは私たち一人ひとりの問題です！

　つまり、話を元に戻します。

　歴史的にChatGPTくんがどのように誕生し、どのように成長していったのか、ということを見ていくためには、技術的興味でTransformerのすごさを追求するよりもむしろ、この追加学習とワンセットで誕生したGPT-1が、追加学習なんていらなーい、の時代を経て、その後追加学習とモデルとの関係がどうなっていったのかを見ていくことが大切なのでした。

　そうすると、この教師なしモデルの精緻化をパラメータと学習量を増加させることで達成しようと企図する手法が行き詰まって、なんとChatGPTは現在の４でもう頭打ち打ち切りおしまーい！OpenAIももう、ChatGPT５なんて作りません！と公言していることを知らない人には驚愕の状況も理解できます。

【まとめ】こんな感じで追加学習を軸にChatGPTのその後をまたみていきます

　漫画ばっかりだったのですが、久しぶりの読み物も並行してやってみますので、どうぞよろしくお願いいたします。

　じつは、このあたりは今作っている漫画にもとっても関わってくるのです。次回はこのあたりの話がたくさん絡んでくるので、この記事は実は、事前番宣でもあったのでした。
(^-^)

【おまけ】Pythonなどの技術的な実習が好きな人へ

　Transformerがどれほどすごいのか、というのは、この本がおすすめです。手を動かして一から言語モデル作りますので、とても勉強になります。もうできてる言語モデルをHugging Faceからダウンロードしてきて、やったー動いたーとか、英語の部分だけ日本語に訳してファインチューニングだーって（それファインチューニング違うでしょ。それはIT業界ではローカライズと言う）やっててもあれなので、ぜひ自分でTransformer使って言語モデルを作ってみると良いのではないでしょうか。