G2:数理・論理・統計等に馴染みの少ない人のため

ここにリストされた項目

帰納的推論と演繹的推論　
ベイズの定理による確率　
共通因子の求め方　　　　　
AIによる論理的推論の諸問題
膨大な時間がかかる話
マルコフチェーン

帰納的推論と演繹的推論

　第1章　身近なAI の中の1.3 「AIとは何か」に挑戦した御曽崎で御曽崎が挑戦していたのは、自分が知っているいくつかのAIの例から普遍的なAIの定義を見つけようとしていたのだと言えよう。
　このようないくつかの事例に基づいて、そこから一般的な結論を導くことは帰納的推論と言われる。この帰納的推論によって導かれる結論は、いくつかの具体的な事例だけに基づいているので、その結論が常に正しいという保証はない。御曽崎の例を読んでわかるように、本当に普遍的に正しいか否かは、いろいろな角度から検証してみなければならない。そこが御曽崎を悩ますところだったのである。
　このことは推論の根拠とする事例の数が少ない場合はもちろんのこと、たとえ事例の数がたくさんであったとしても言える。これまで何羽もカラスを見たことがあるが、それらはすべて黒だった。過去に見た非常にたくさんのカラスの色から、全てのカラスの色は黒であると断定するのがその例である。このような推論も帰納的推論であり、その結論が普遍的に正しいという保証はない。例えば、人類未到の秘境にカラフルなカラスが生息していた、というようなこともありうる。
　帰納的推論と対になるのは演繹的推論である。帰納的推論が個々のことから一般的な結論を導き出そうとするのに対して、演繹的推論とは、一般的なことから個々の結論を導き出す推論のことを言う。あるいは、ある主張や仮説が正しいことを前提とした場合に、その前提から論理的な結論を導くことであるとも言える。
　例えば地球は常に同じ方向に自転している。この自転があるので、地球の上の人間には、朝太陽が東から上ってくるように見える。「（だから）明日も太陽は東から上がってくる」と論ずるのがこの例である。このように一般的なこと、この例の場合は地球の自転から、個々の結論、この例の場合は明日の太陽の動きの予測、を導き出すというのが演繹的推論である。
　演繹的推論を行うということは、与えられた前提のみを利用して、推論のルールを適用することによって結論に到達することである。従ってもし「与えられた前提」が正しく、かつ「推論のルールが正しく適用されている」演繹的推論であれば結論は真、すなわち常に正しいといえる。
　太陽の例で言えば、地球は今ある方向に自転しているというのが前提である。自転は回転運動であり、あらゆる運動は外部から力が働かない限り、変わることがない。そしてこの自転があるので、地球の上の人間には、朝太陽が東から上ってくるように見えるというのが推論のルールである。これは全て正しいと考えられているので、この推論の結論である「（だから）明日も太陽は東から上がってくる」は常に正しいと言える。

ベイズの定理による確率

｛ブログの中のナビゲタ｝ここで第5章　どうして「人工」の「知能」ができるのか（2）　の、「8．思考力（５）論理的な思考」（第5章へリンク）の中で例として取り上げた、採用試験におけるAの合格確率に関する回答の説明をしながら、ベイズの定理による確率について説明してあります。
　既にお断りしましたように、どうしても論理的な思考などは肌に合わない、と思われる方は、これと、後に続く「専門解説コラム：共通因子の求め方」は飛ばしていただいても結構です。もちろん、まあとにもかくにも、分かるところまでは進んでみようという意気込みは大歓迎です。

　まずは、第５章の繰り返しになるが、もう一度「採用試験におけるAの合格確率に関する問い」を振り返ってみよう。　

　ある企業が、一つのポストを公募したのに対して、A,B,Cの三人が応募して採用試験を受けた。この三人がこの試験をパスする確率は、学歴や職歴などから、それぞれ1/4,1/4,1/2であったとする。試験結果の発表の前夜、Aはこの社内の知り合いに、「BとCのうち試験に落ちる一人の名前を教えてくれないか」と頼んだ。社内の知り合いは、もう決済も済んでいるし、明朝の発表までになにか変わることはないし、まあいいかと「Bは採用されないよ」と教えた。さて、それを知ることによって、Aが合格する確率はいくらになるか。ただし、この社内の知り合いは、B,Cがともに落ちている場合は、1/2ずつの確率でBかCの名前を教えるものと仮定する。
　この問題の答えはどうなるか？

　次に回答である。
　事象Bが生じたという条件のもとで事象Aが生じる確率のことを「条件付き確率」と呼び、一般にそれは数学的にはP(A|B)と書く。それに対して、何かが生じる前のA,Bが生じる元の確率のことをそれぞれP(A) ,P(B)と書く。この時、P(A|B)＝P(A)・P(B|A)/P(B)という関係が成り立つことがベイズの定理と呼ばれる。言うまでもなくP(B|A)とは、事象Aが生じたという条件のもとで事象Bが生じる確率のことである。
　先の採用試験の問題は、Bが不合格と事前に判明したという条件のもとで、Aが合格する確率が知りたいので、P(A|B)を求めることになる。ここで、事象AはAが合格することであり、事象BはBが不合格と判明することである。なおP(B)は、Aが事前にBが不合格となると知る確率であり、Bが不合格になる確率とは異なることに注意する必要がある。
　ここにベイズの定理を適用すれば、P(A|B)を容易に求めることができる。即ちP(A)・P(B|A)/P(B)を求めれば良いことになる。
　P(A)は、Bが不合格と判明する前のAが合格する確率で、これは問いの本文から1/4である。次にP(B|A)は、Aが合格する場合、すなわちBとCが不合格となる場合に、社内の知人が「Bは不合格だ」と知らせる確率Pであり、これは問いにある最後の仮定から1/2となる。最後にP(B)は「BとCのうち試験に落ちる一人の名前を教えてくれないか」と頼まれたときに、社内の知人が「Bは不合格だ」と知らせる確率である。このP(B)はAが合格して、すなわちBとCが共に不合格で、「Bは不合格だ」と知らせる確率（1/8）と、Cが合格して「Bは不合格だ」と知らせる確率(1/2)を足し合わせたもので5/8となる(注：Bが合格して「Bは不合格だ」と知らせることはあり得ないのでその確率は0)。
　これらを式に当てはめて計算すると1/5となる。これがBが不合格と判明した後のAが合格する確率である。
　ちなみに、この状況においてCが合格する確率P(C|B)を求めるためには、再びベイズの定理を用いてP(C|B)＝P(C)・P(B|C)/P(B)を用いて計算すれば良いのだが、もっと簡単に1－P(A|B)でも求めることができる。いずれの方法で計算しても、当然答えは同じで、4/5となる。
　このベイズの定理は、AIに多く利用される発生頻度に基づく統計的な推論の信頼度を考察する上で、重要な働きをする場合がある。

｛ブログの中のナビゲタ｝もともと人間の論理的思考について説明するために紹介した採用試験に合格する確率の問題ですが、この問題をAIは解けるでしょうか？それを実際に試して見ました。
　このブログのグループ「AIを使う」のサブグループ「論理の展開」の中の、「第5１章確率論を試す」でその実験と結果を示します。

共通因子の求め方

　多くの変数のあいだの関係を求めるのは「多変量解析」と呼ばれるが、多変量解析には分散分析、重回帰分析、因子分析などがある。その中で因子分析は広く社会科学等で用いられている。
　この因子分析では、まず関係する変数の全ての組み合わせについて相関係数を求める。第5章（注：リンクを張る）の中の「6．思考力（3）推論」で取り上げた例では、算数と理科、算数と国語、算数と体育といった具合に、二科目間の相関係数を全て求めていく。次に、各科目名を縦と横に並べた表をつくり、表の中の該当する部分に求めた相関係数を入れていく。そうすると表の対角線に対して対象な行列ができる。
　この行列は相関行列と呼ばれるが、その相関行列から最小二乗法の原理によって一番大きな共通因子を抽出する。続いてこの抽出された共通因子とは独立した二番目に大きい共通因子を抽出する。この動作を繰り返し行うことによって、変数の数と同じだけの共通因子を得ることができる。
　AIはこのような相関係数を求める計算によってたくさんの共通因子を抽出した後、さらに、それらの因子の解釈が容易になるような計算手法（軸の回転等）や因子分析の数学モデルといった別の計算によって、いくつかの大きな共通因子を見つけ出し、それらを基に可能性の高い特徴などを比較・選択することによって、推論を進めていく。
　なお、最小二乗法については、第5章の中の「AIにおける統計の利用（3）（最小二乗法）」に述べている。

AIによる論理的推論の諸問題

　詳細は割愛するが、論理の体系には古典論理と非古典論理などいろいろな種類がある。古典論理は形式論理と言われ、最も研究され最も広く使われている論理である。一方、非古典論理には古典論理の拡張とみなされるものも、古典論理の代替と見なされるものもある。
　さらに量子理論のように、量子論において見られる現象と相似するような形式論理の体系もある。このように多種類ある論理の体系のどこまでを対象とするかがAIによる論理的推論の一つの課題である。
　古典論理の例の一つとして、ブール論理という有名な理論がある。このブール論理はベン図と言われる視覚的にわかりやすく表現する手法を適用すると容易に理解できることが多い。このベン図を使う程度の論理的推論は比較的単純なので、それが適用できる範囲でAIが推論を行うことは可能と思われる。すなわち「論理推論ルールを適用して問題を解ける」と考えられる例になりうる。ただし、このブール論理は複数の集合の関係を論ずるもので、これを適用して推論できる範囲は限られる。
　実際、「専門解説コラム：ベイズの定理による確率」で説明した「採用試験の問題」には、ブール論理を適用できない。この場合はルーレット表現と言われる、ベン図と同様に視覚的にわかりやすく表現することができる、別の手法を適用するとよいことがわかっている。
　ベン図やルーレット表現のような、もとの問題と数学的に同型の構造をもつ視覚的・図式的な表現は同型的図式表現と呼ばれるが、この同型的図式表現の適用を検討することによって論理構造を抽出できる問題は多種ある。
　しかしながら、そのような問題であっても、どの同型的図式表現モデルを用いるのがよいかを判断する必要がある。また、同型的図式表現モデルを適用できない問題もいくらでもある。そのような場合はこのモデル以外の別の方法によって、論理構造を抽出しなければならない。このようにどのような方法で論理構造を抽出することが有効かを見いだすプロセスが必要であるが、それは容易なことではない。さらに、たとえ適切な論理構造を抽出することができたとしても、コンピュータによってどの程度それを実現できるかなどの課題もある。
　さらに論理的推論は論理構造によって推論をしていくわけであるが、その前提条件として各種の知識が必要なことがある。例えば、「Aさんはチワワが好きで、Bさんはラブラドールが好きだ。したがって両人とも愛犬家である。」という推論を考えてみよう。チワワ(Chihuahua)もラブラドール（Labrador）も共に犬種であるという知識があれば、ベン図を用いて共に「犬」という円の中にこの二つを入れることができる。同様に、愛犬家は犬が好きな人という意味であるという知識があれば、「両人とも愛犬家である」という推論が成り立つことになる。
　ところがチワワもラブラドールも犬種でもあるが、地名（チワワはメキシコ、ラブラドールはカナダ）でもある。AIがこの二つの名前は、共に地名であるという知識をもっている、あるいは辞書を使ってそのような知識を得たとすれば、この二つを地名という円の中に入れてしまう。その場合AIは「Aさんはチワワ（という場所）が好きで、Bさんはラブラドール（という場所）が好きだ。」と理解したことになる。そうなるとこの両人とも愛犬家であるという推論はできないことになる。このように、どの程度の広範囲の常識的な知識をもっているかも課題になる。

膨大な時間のかかる話

　世の中には理論的はこうしていけば良いのだが、実際に行なうには時間がかかり過ぎて不可能であるということはある。囲碁などのゲームにおいて、その都度可能な全ての手を検討しながらゲームを進めていくというのもそのような例の一つである。実際、どの位の時間がかかるのか少し考えてみよう。
　チェス、将棋、囲碁において、１回の試合の手数の組み合わせはそれぞれ10の120乗、220乗、360乗あると言われている。手数ではないが、碁の配置パターンは10の190乗通り以上になると別の書物にあった。このようにどれを見ても、とてつもなく大きな数である。
　書物の情報だけでなく、自分でも簡単に試算してみよう。囲碁の場合は、いくつかの例外的なルールを除いて、空いているところならば、どこに石を置いてもいい。従って、碁盤には19×19の格子があるので、最初の一手は19×19すなわち361通りの置き方があることになる。次の手は、最初の一手とは別のところに置く必要があるので、一つ少ない360通りとなる。したがって最初の二手だけで361×360すなわち129960通りあることになる。このように順にゲームを進めていくと、全ての手は361!となる。「!」のマークは一つずつ少ない数を順にかけて行くという意味で、数学で「階乗（かいじょう）」といわれる。
　次に、361!はどのくらいの大きさの数なのかを感覚的につかむことにしよう。手元のPCにある表計算ソフトを用いて計算してみると、100!は10の157乗で、150！は10の262乗になる。さらに進めていくと、170!は10の306乗となるが、これがこの表計算ソフトが表示できる大きな数の限界であった。361! にはまだ半分にもいかず、150！から170!に増やすだけで１４０桁以上増えたことを考えると、361!は恐ろしく大きな数であろうことは容易に想像できる。
　最後に、10の何百乗という作業をするのにどのくらいの時間を要するかを考えてみよう。１秒間に１億手を解析できるといわれるスーパーコンピュータを用いても、碁よりも遙かに小さなチェスの手数の組み合わせ（10の120乗）を解析するだけでも、10の110乗秒以上かかる。これは10の100乗年以上である。現在宇宙の誕生は約138億年前と考えられているので、宇宙が誕生してしてから今日までの時間をかけてこのスーパーコンピュータを回し続けても、一局の解析ができないということになる。たとえこのスーパーコンピュータの解析力がさらに１億倍としても、なお宇宙が誕生してしてから今日までの時間をかけてもできないことになる。

マルコフチェーン　

　マルコフ連鎖とも言われる。未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質を持つ確率過程はマルコフ過程と呼ばれるが、そのマルコフ過程でとりうる状態が離散的なものをいう。
　作曲していくとき、次にどの音にするかは、そこまでどのような音を使ってきたかということに無関係に選べる。少しずつ音を高くしてきたので、急に下げてはいけないとか、５回以上続けて音が下がったら、次は上げたほうが良いというようなことはない。これはすなわち過去の挙動と無関係に未来の挙動が決定されることになり、楽譜はマルコフ過程と言える。しかも音楽ではすべての音は音符で示されるように、次に来る音は半音も含めて7音階のどれかになる。この7音階以外の任意の高さの音がとられることはなく、その意味で音は離散的なので、このマルコフチェーンであると言える。
　ここで、「未来の挙動（音）が現在の値（音）だけで決定される」という点については、少し補足が必要であろう。次にどの音にするかは、当然今どの音を使ったかによって変わってくる。しかしながらそれだけではなく、その前の音が何であったかも影響することがありうる。例えば現在の音が「ソ」であっても、それが「ド、ミ、ソ」ときたのか、あるいは「レ、シ、ソ」ときたのかのように、和音の構成や上り調子や下り調子などによって、次はどの音がよいかが異なることはありうる。このようなことを考えると、作曲では一つの音のみを現在の値とするのではなく、いくつかの音の繋がりを現在の値とみなしていくほうがいい曲にしやすいと言えよう。
　数学的には前者のような、一つの音すなわち一つの状態から次に起こる事象が決定される場合を単純（1階）マルコフ過程と呼び、後者すなわちいくつかの音の繋がりから決定される場合をN階（あるいはN重）マルコフ過程と呼ぶ。上のドミソやレシソのように三つの連続する音によって決める場合、Nは３になる。N階マルコフ過程では、N 個の状態の組み合わせを新たな状態空間とすることによって、単純マルコフ過程として表現することができる。すなわち、N 個の状態の組み合わせ一つ一つを一つの状態と考えていけばよいのである。
　作曲していく際はN階マルコフ過程を考え、大量の過去の実績や評価者の意見などから、次にどの音が使われることが良いかなどを判断して決めていくことになる。実際にはドミソといった音階のみでなく、「ド～、ミソ」の場合、「ド、ミ、ソ～」の場合など、音の長さなども考慮していけば、より自然な曲を作ることができる。この場合、当然状態空間はより複雑になる。そこにますますAIの活躍の場が広がっていく。
　このように、各時刻において起こる状態変化の遷移確率が、過去の状態によらず、現在の状態のみによって決まる系列であるマルコフ連鎖は、確率過程として様々な分野に応用される。ここで紹介した、AI作曲のみでなく、統計学のモデル、パターン認識、音声認識、強化学習など、AIの開発でも用いられる機会は多い。

専門解説コラムに戻る

投稿日

2024-11-24

カテゴリー:

その他

投稿者:

IzumiAI

タグ: