NISS2000仮想研究提案 Cグループ [C2] テーマ:恋の強化学習 発表者:古屋敷、正本、谷貝、和田(五十音順) 今回のNISS2000で取りあげられたテーマに強化学習がある。C班では今回の仮想研究 課題のテーマとして、強化学習のモデルを実際に作成することにした。この仮想研究 課題の目的は、強化学習の理解を深めると同時に、新たなモデルを立てる際に生じる 問題点を検討することである。その際、全員に親しみのあるテーマを用いる目的で、 「恋愛」を題材にした。 まず我々は、恋愛が強化学習のテーマとして適切かについて検討した。強化学習は、 1) 学習するべき行動を具体的に与えられず、2) 報酬によって行動を最適化するもの である。まず、恋愛はどのような行動を取れば成功するのか、という具体的な正解を 持たない。実際、恋愛における最適な行動は個人の状態に依存し、予測不能なことが 多い。また報酬があるかという点については、一般に恋愛が成功することを望んで行 動する。このことは、行動に際して何らかの価値基準が存在することを示している。 この価値基準は明らかな場合とそうでない場合があるが、これらをまとめて報酬と考 えることが可能である。従って、恋愛がもし何らかの学習であるならば、それは強化 学習と考えて自然である。 人間の行動の多くは、過去の経験に影響されることから、一種の学習課程と考えるこ とが可能である。しかし我々の行動は、決して経験に基づく判断から得られる最適な ものとは限らず、実際には「理性と感情」との融合の産物である。例えば我々は成長 の過程で恋愛に関する様々な情報を獲得するが、実際の恋愛では幾度となく同じ間違 いを経験することも多い。この事実が学習の至らないことによるのか、そもそも学習 とは無関係のランダムな事柄かを知ることは難しい。我々はこの仮想課題において、 「恋愛は学習により規定される」という前提を考える。従って、恋愛を学習の過程と 考えた際に得られる強化学習モデルと現実の比較に興味があり、現実とのdichotomy こそが、現実の恋愛の中に潜む性質を明らかにするのに役に立つのかも知れないと、 という楽観的な立場を取る。 恋愛の強化学習モデルを立てる際に、我々は恋愛を定式化しなければならない。強化 学習は、状態・行動・報酬に関する定義が必要である。この場合の状態は、行動に影 響するもの全てを含んでいる必要がある。恋愛は、本人と異性との間の相対的な関係 に影響される。我々は簡単のため、相性の良さを表す三段階の分類を異性に与えてい る。また同じ異性でも「つきあっている」異性とそれ以外の異性は区別されるといっ た状態を設定している。恋愛の過程は、つきあっている女性あるいはそれ以外の女性 のいずれかを選択する過程である。我々は簡単のために、ある一時点において出会う 、新たな異性を一人以下とした。すなわちこの中には新たな異性がいない場合も含ま れる。この新たに出会う異性と、現時点でつきあっている異性との間で選択を迫られ る状況を考えている。実際の恋愛では、つきあっていない複数の女性からの選択を迫 られるが、今回のモデルでは含められていない。この問題は、恋愛のモデル化を考え る上では重要であり、今後の課題である。 以上で我々は異性の性質についての定義と、恋愛の本質的性質である「選択」を導入 するための状態の設定を行った。以上の状態以外に恋愛に影響を与える要素が数多く あることは、自明である。この中で我々は「マンネリ化」という恋愛において最も深 刻な問題をモデルに含めようと考えた。我々の目的は、ある時点である人とつきあっ ていることについての満足度を定義することである。満足度はつきあってからの日数 に大きく関連することを我々は知っている。さらに満足感の継続する期間は様々であ る。この両者を考慮する目的で、我々は1~3日目は必ず満足しているが、4日目以降は 不満足の状態に確率的に移行する場合を考案している。実際には不満足から満足への 移行も考えなければならないが、モデルには含まれていない。 以上の状態の設定のもとで、我々は「行動」について定義した。行動の内容としては 、今の現状を維持するか、それとも新たな異性にアタックするかを考えている。誰か とつきあっている状態で現状を維持すると、日数が増加していき、上述のように満足 度が変化していく。アタックする際には、異性との相性に従ってつきあえるか振られ るかの結果が確率的に与えられる。つきあいが始まった時点は全て1日目になる。い かなる行動によっても新たに出会う異性の種類は更新される。また恋愛は自分からの 意志決定に加え、つきあっている相手からの意志決定もある。そこで自分がつきあっ ている異性との現状維持を考えても、意志に反してつきあっていない状態になるケー スも考えた。後述する報酬により、各行動に対する行動価値関数が更新され、それに よって各状態における行動が学習されていく。我々は学習する際の冒険を加味して、 epsilon-greedyを採択した。すなわちepsilonという確率で行動価値関数に従わない 行動を取る、すなわち「冒険」をするという設定である。 報酬については、我々が考える一般的な感情をもとに設定した。モデル中で報酬は、 行動後の状態に対して一つに決まるものとしている。誰かとつきあっている時には、 満足度及び異性との相性により報酬を決定される。また誰かとつきあっていない状態 には、一般に負の報酬を与えた。このやり方では、アタックして振られた場合と、誰 かとつきあっていない状態が継続される場合とで、共に同じ報酬が与えられる。現実 ではアタックをかけて振られると、より精神的ダメージも大きく、別により大きな負 の報酬を定義してもよかったが、簡単のため、上述のようにした。アタックをかけて 失敗すると、学習に従わない行動率epsilonが減少し、また成功によりepsilonが増大 するようなモデルも興味深い。今回のシミュレーションではepsilonは一定である。 これらのモデルに基づき、シミュレーションをMATLAB上で行ったが、行動学習関数の 収束は、少なくとも我々のいくつか検討したパラメーターに関しては認められなかっ た。収束する様子が見られない原因については不明である。 そこで、我々は今回はより簡単なモデルを考え、収束する学習を得たので以下に示す 。より簡単にするために、我々は1) 異性の分類を一種だけとし、2) 相手から振られ る可能性を与えず、3) 4日以降満足度が減少していく確率をほぼ0とした。このとき パラメーターなどの詳細は省略するが、明らかな学習の収束が認められた。我々は 2000日程度の施行で、100施行平均における報酬が上昇し、ほぼプラトーに到達する 様子を観察した。また横軸に誰かとつきあい始めて別れるまでの日数をプロットする と、学習による有意な上昇が認められ、より安定した恋愛が行えるようになる様子が 観察された。この別れる日数に対する度数分布は、ある日数にピークを持つ複数の要 素に分解される可能性がグラフより伺える。この点についてはまだ検討していない。 この日数は、おそらく我々の設定した満足度の定義により規定されるのではないかと 推測しており、3日目あたりにピークを持つことは、その可能性を示唆している。し かし3日目以降にも何らかのピークを持つような印象もあり、予測を越えた定性的性 質をシミュレーションにより見いだせているとすれば、大変興味深く思われる。 我々の今回の仮想課題では、当初立てたモデルでは安定した学習が観察されなかった 。このことの原因は不明である。前述のように、恋愛を学習と捉えたのは我々の前提 であり、恋愛とは本来は学習的ではないのかも知れない。このようなモデルの作成が、前 述のように現実の恋愛における何らかの性質究明を目的とするならば、モデルの解析 の以前にfield workなどによる調査、データ解析も今後行われるべきである。また本 仮想研究の発表の際のdiscussionにあった考察ではいくつかの重要な点があげられた 。例えば、1)現実の恋愛の過程では複数の異性に対する評価が同時に進行する過程 が高い(銅谷先生)、2)恋愛は単純にその時点における異性の反応によるだけでは なくて、異性とのコミュニケーション後の本人による解釈過程が重要な働きをしてい る可能性がある(Dr. Takeo Watanabe他)、などの問題である。また恋愛過程が相手 の異性を理解する過程であることなどを考えると、もしかしたら内部変数の予測に用 いられるような方法をモデルに導入することも面白いと考えられる。実際のデータや PsychophysicsやNeurologyにおける知見をモデルにより統合的に解釈する試みは、恋 愛だけではなく人間科学のマクロ現象におけるメカニズム究明において、パワフルな 方法論であることを付け加えておく。 最後にこの実習にあたり、徹夜で協力してくださったFacultyの先生、並びにC班の森 本さん、恋愛をテーマにすることを提案して下さった山本さんに心より感謝致します 。