\documentstyle[epsf,subeqnarray]{jarticle} \addtolength{\oddsidemargin}{-22mm} \addtolength{\evensidemargin}{-22mm} \addtolength{\topmargin}{-8mm} \setlength{\textheight}{230mm} \setlength{\textwidth}{170mm} \title{仮想研究課題レポート\\大脳基底核の強化学習はどこまで正しいのだろ うか} \author{雨森 賢一・玉井 信也} \date{} \begin{document} \maketitle \subsection*{はじめに} 大脳基底核では強化学習が行われているのではないかという仮説がある。この 「強化学習=基底核」の適用範囲について議論したい。Barto らの仮説によると 基底核の学習方式は、TD 学習であるとされている。本仮想研究では、この TD 学習の適用範囲と、基底核における学習の適応範囲を比較することにする。 \subsection*{基底核-視床-大脳皮質回路} まず簡単に、基底核回路の構造について説明する。基底核は、大脳皮質の様々な 領野から興奮性の投射を、まず線条体 (striatum) で受ける。線条体はストリオ ゾームとマトリックスと呼ばれるコンパートメントに分けられており、ストリオ ゾームは黒質緻密部のドーパミンニューロンに、マトリックスは淡蒼球外節と黒 質網様部に投射している、マトリックスからの2つの経路は、淡蒼球外節、視床 下核を経て黒質網様部へ至る間接経路と、直接、黒質網様部へ至る直接経路があ り、直接経路に投射する線条体ニューロンの興奮は対応する視床-皮質の回路を 興奮させ、間接経路へ投射する線条体ニューロンの興奮は、視床-皮質の回路を 抑制することになる。 \subsection*{黒質緻密部} 黒質緻密部には、線条体のストリオゾームと、扁桃体からの投射がある。この扁 桃体からの投射により、黒質緻密部のドーパミン細胞は、ジュースなどの報酬刺 激により強く反応する。ところがサルに、何らかのタスクをさせたのちに報酬を 与える場合、このドーパミン細胞は報酬を予測させる刺激に反応し、逆に報酬自 体には反応しなくなるという変化を見せる。これは、ドーパミン細胞の反応が、 線条体からの投射により、報酬自体ではなく、報酬を予期させる感覚入力に反応 するように変換されていることを示唆する。このことから、Barto らはドーパミ ンニューロンの反応は、強化学習における TD 誤差に対応するのではないかと主 張した。将来の報酬の累積を $\sum_{i=1}^{\infty}\gamma^{i-1}r_{t+i}$ とし、 時刻 $t$ の報酬の予測値を $P_t$ とすると、隣り合った時刻の予測値に対して $P_{t-1}=r^{t}+\gamma P_t$ が成り立つ。時刻 $t$ に実際に得られる報酬が $r_{t}$ であったとすると、この予測誤差(TD 誤差) $\hat{r}_{t}=r_{t}-\gamma P_t-P_{t-1}$ を小さくするように学習が進行すれ ば良い。このTD誤差は、報酬そのものではなく、報酬の予測の誤差に相当し、ドー パミン細胞の活動は、まさにこのTD誤差と同様の活動度を示すものと言える。い ま、扁桃体からの入力は $r_{t}$ であると言えるから、線条体からの入力は $\gamma P_{t}-P_{t-1}$ である。ドーパミン細胞の興奮は線条体の入力部分に 投射し、予測よりもより多く報酬を得られた直接の空間状況を強化し、 $P_{t}$ を増大させる。 \subsection*{基底核の学習が TD 学習だったとすると?} 強化学習の特徴は、報酬を得る直前の行動に強い価値を割り当てるというもので ある。この時、学習はそれぞれの時刻における報酬の予測誤差を小さくするとい う形で進行する。TD学習の特徴は隣り合った時刻の報酬の予測値 $P_{t-1}$ の みを用いて、報酬の累積を推定するマルコフ性が成り立っているという点である。 すなわち、問題空間がやや複雑であるとか、問題空間が変化してしまうと言った 場合、この学習法は不向きであるということができる。そこで、強化学習、特に TD学習に不向きなタスクを、報酬に基づいて学習させた場合、どのような振る舞 いをするのかという問題を立てることができる。つまり、基底核の学習を調べる タスクとして、次の2つのタスクを用意する。一つは、強化学習で行えるであろ うマルコフタスクで、もう一つは強化学習には難しいと思われる非マルコフタス クである。この2つのタスクを報酬に基づいて学習させ、振る舞いの違いを見る ことにする。 \subsection*{強化学習に向いているタスク} 強化学習は、問題空間が固定されている場合に向いていて、報酬を予測する状態 へと報酬が伝播することによって学習する。4つのボタンからなるボタン押しタ スクを考えよう。たとえば、A、B、C、D の順にボタンを押すと、Dを押したとき に報酬が得られるとする。この時学習によって、D、C、B、A の順に価値が割り 当てられ、刺激 A でドーパミンニューロンが反応するようになるものと思われ る。 \subsection*{強化学習では難しいタスク} 強化学習では難しく、推論によって比較的簡単に解けるであろうタスクを考案す る。強化学習は、単一の問題空間に対して試行を繰り返すことによって学習する ため、問題空間が毎回変更されるような問題は向いていないと考えられる。その ため、問題空間が毎回隠れた規則で更新されるタスクを考案した。それは次のよ うなものである。やはり、A、B、C、Dの4つのボタンからなるものとする。今あ るセッションで、ボタン A を押し、報酬を得たものとする。この時、強化学習 に基づく考え方では、基底核に入力される空間情報は、ボタン A だから、ボタ ン A と報酬を結び付けるように、強化されると思われる。そこで、次のセッショ ンでは必ず、前回のセッションで報酬がでた場所と違う場所に報酬を割り当てる、 という隠れた規則を導入しよう。すると、強化学習のように報酬の直前の状態に 価値を割り当てる限り、いつまでも学習が収束しないと考えられる。 \subsection*{強化学習に不向きなタスクができるか?} もし、強化学習に不向きなタスクが遂行された場合、次の可能性が考えられる。 一つは強化学習によって、タスク間の相互の関係を含む長期予測が可能になって いるということである。しかし、これは、タスク間のインターバルを十分に長く とるなどして、排除することが可能であろう。もう一つの可能性は、タスク間の 関係に関して何らかの推論を行っているという可能性である。この時の脳活動は どのようになっているのかを調べたい。 \subsection*{実験課題} 基底核で行われている学習は、問題空間の性質に応じて限定できるのではなかろ うか? この仮説に基づき、次のようなタスクを考案する。まず、サルに強化学習 で可能な課題を遂行させ、その課題が達成されたとしよう。この時、強化学習で は難しい課題が遂行できるのかどうかを調べる。強化学習では難しい問題が急に 解けなくなる場合、やはり、強化学習が行われていることが示唆される。反対に、 比較的簡単に遂行された場合、次の2つの可能性が考えられる。一つは、強化学 習が行われていると仮定するのは疑わしいのではないかということ。もう一つは、 報酬に基づくタスクにも関わらず、基底核ループによる学習ではない、という可 能性である。この場合、基底核の入力が大脳皮質であることから、大脳皮質に部 分的にムシモールなどを投与することで、強化学習に不向きな推論を行う部位を 特定できる可能性があるかもしれない。 \subsection*{さいごに} TD学習のマルコフ性に基づき、基底核で行われている学習が強化学習であるかを 推定するタスクを考案した。上記の議論から、大脳皮質からの投射を切除、ある いは麻痺させることによって、推論を行う経路が特定できるのではないかと考え られる。その場合、マルコフ問題は基底核で解かれ、非マルコフ問題は大脳皮質 で解かれているなどの、問題空間によって、活動する場所の変化が見られるので はないかという期待ができるかもしれない。 \subsection*{補足} 本仮想研究は、短時間で作成する必要があったため、非常に未成熟なもので、欠 陥も多い。現実的には、マルコフ性、非マルコフ性は、TD 学習の枠組みのみで 議論すべきではないと思っている。この研究課題は基底核の学習に不馴れな筆者 らの勉強の過程ととらえていただきたい。 \end{document}