言語は人間の思考の全てではない。少なくとも、口に出す前や答えを書き出す前に、脳の潜在空間で活発に動いているものがある。
GPT は常に思考のプロセスが欠けており、思考の連鎖を学ぶことができていません。
友人から質問されたとき、すぐに反応するでしょうか、それとも「考えさせてください」と言うでしょうか?
GPT は複雑な問題に直面したとき、やむを得ず「即答」してしまい、それによって GPT は物事を考え、言葉を発する際に、振り返りのプロセスを持つのではなく、空想することを余儀なくされています。
数学の問題を解くことを例に、以下のような特徴をまとめてみました:
- 数学の解答は文字数が少なくても、脳内での思考時間は非常に長い
- 問題によっては、あまり考えずに計算を始められるものもあれば、見ただけで答えが分かるものもあり、また長時間考えても答えが出てこないものもある
- 解答問題では通常、問題から順方向に考える必要があり、証明問題では結論の両端から考え始める必要がある場合がある
- 問題を考えるとき、私たちは通常:このように考えて正しいかどうか試してみる、少し進展があるがまだ足りない、方向性が正しそうだ、もう少し考えてみよう、うーん、方向性が違うかも、行き詰まってきた、もう一度考え直してみよう、別の方向で試してみよう…といったプロセスを経験する
では、このような思考プロセスを GPT でどのように実現できるでしょうか?(以下は想像の時間です)
同じく数学の問題を例に:
- データセットは難問の解答プロセス
- 2 つの agent、A は答えと解答プロセスを知らず、B は答えと解答プロセスを知っている
- B は A の思考を導く必要があり、プロンプトを通じて A に考え始めさせ、段階的なアプローチの最初の試行から始める
- A* アルゴリズムを参考に、B は A の思考量と偏差を評価する。A の思考量が少なく偏差がある場合、B は A にさらに考えさせる。A の思考量と偏差が共に高い場合、B は A をチェックポイントの 1 つに戻し、A の思考量が期待値に達し、偏差が小さくなるまで再考させる
- この過程での A と B の出力を記録し、人間の脳が思考するときの言語エンコーディングに似たものを得る
- 得られた結果、つまりトレーニング材料は 3 つの部分に分かれる
- prompt
- answer における思考プロセス
- answer における説明部分
- 例
- prompt:……この数学の問題を解いてください……
- answer:少し考えさせてください(プリセット);まず最初に / 第一段階としてこのように……(Agent A);はい、続けて考えてみましょう(Agent B);次はこのようにできるかもしれません……(Agent A);アプローチは良さそうです、さらに考えてみましょう(Agent B);えーと、em... 行き詰まってしまいましたか(Agent A);方向性に問題があるかもしれません、前の考えに戻ってみましょう(Agent B);ここから考え直してみましょう…………………………結果が見えてきました(Agent B);分かりました!<思考終了マーク>(Agent A)
- answer:……この数学の問題はこのように解きます……(これは明らかに前の思考プロセスと正解の要約です、簡単なタスクです)
- トレーニングでは、prompt を finetune 入力とし、answer の 2 つの部分から区切りを取り除いて組み合わせたものを出力とする
ロードマップ:
- この学習方法により、AI はまず知識を記憶し(GPT 3 レベル)、次に単純な事柄を考え(GPT 4 CoT レベル)、そしてより複雑な事柄を学習することができる
- いつの日か、AI が自身の思考をトレーニングする方法を設計することを学び、そこで自己ブートストラップが完了し、AGI となる
数日間考えた結果、私は今、AI が膨大な知識の上でより賢くなっていけることを強く確信しています。それは「知らないことを学ぶ」のではなく、「できないことを学ぶ」のです。