NISS仮想研究提案 Bグループ [B1] テーマ:探索ラットロボットを作れ!!〜その第一歩〜 発表者:伊藤真、竹村文、宮崎崇史、小林祐一 %%%%%%%%%%%%%% 1.はじめに %%%%%%%%%%%%%% ラットは優れた空間探索能力をもつ。 そのような能力をもつラットロボットは、 工学的にも、商業的にも非常に価値があるものであり、 我々はそのような空間探索ロボットを構築したいと考えた。 ラットロボットを構築するために、 実際のラットの脳の情報処理を探ることが本研究の目的である。 ラットの空間探索能力を測定する課題の一つに水迷路課題がある。 水迷路課題では、 ラットは白濁したプールに入れられプラットホームまで 泳ぐことが課せられる。 プラットホームの高さはプールの深さよりも若干低く設定されており、 ラットは直接プラットホームを見ることはできないが、 何度もトライアルを繰り返すうちに足場の位置を学習し、 最終的には、ランダムな位置からスタートしても、 プラットホームの方向へ向かって泳ぐことができるようになる。 水迷路課題を強化学習の理論に当てはめ、 ラットの脳を Agent として見なすと、 網膜からの信号が「Observation:観測値」であり、 筋肉へ信号が「Action:行動」と解釈できる。 この場合の観測値の取り得る値と行動の種類は、 非常に膨大であるので、 通常の強化学習アルゴリズムで解くことは非常に難しい。 脳はそのような難しい強化学習問題に対して、 網膜からの観測値を取り得る値の少ない「内部状態」へ変換し、 取り得る値の少ない「行動命令」を筋肉出力へ変換することで 対応していると考えられる。 本研究の目的は、 ラットが水迷路課題において、 (1)どのような内部表現と行動命令を用いているかを明らかにすることと、 (2)内部表現の生成メカニズムを明らかにすることである。 (1)に対して作業仮説を提案し、 生理実験によってその作業仮説を検証する。 また、内部表現の生成過程を測定することによりその生成メカニズムを探り、 生成メカニズムモデルを提案する。 %%%%%%%%%%%%%% 2.背景 %%%%%%%%%%%%%% 水迷路課題において、 海馬を切除したラットは足場に向かって泳ぐことを学習することが できない(Morris, 1982)。 このことは、 水迷路課題において海馬が重要な役割を果たしていることを示している。 また、海馬にはラットの位置に対して特徴的な反応を示す 場所細胞が存在することが知られている。 これらの事実から、海馬で「内部状態」が表現されている可能性がある。 一方、水迷路課題のような試行錯誤的な学習に、 大脳基底核が重要な役割を果たしていると考えられている。 大脳基底核では強化学習アルゴリズムの一つである Actor-Ctiric 法が行われている可能性が指摘されている(Houk, 1995)。 これらの事実から、大脳基底核の出力が「行動命令」をコードしていると 可能性がある。 %%%%%%%%%%%%%% 3.作業仮説 %%%%%%%%%%%%%% 本研究において、 海馬が「内部状態」をコードしており、 大脳基底核の出力信号が「行動命令」をコードしていると 仮定する。 そのコーディング様式として、 2種類のコーディングを作業仮説として提案する。 (作業仮説A)身体座標モデル 海馬細胞は内部表現として、 ラットの位置(x,y)と方向(\theta)をコードしており、 大脳基底核はラットの身体を基準とした行動命令である、 前進、右旋回、左旋回といった行動命令をコードをしている。 (作業仮説B)プール座標モデル 海馬細胞は内部表現として、 ラットの位置(x,y)をコードしており、 大脳基底核は、 プールの外側に見えるドアの方向や机の方向といったような、 プール座標系での方向を行動命令としてコードしている。 %%%%%%%%%%%%%% 4.実験計画 %%%%%%%%%%%%%% ラットを対象とした以下の実験を行う。 実験1:マッピング 足場が用意されていない円形のプールでラットを遊泳させ、 プール上部からの行動をモニターしながら、 海馬と大脳基底核のニューロン活動記録を行う。 実験2:水迷路実験 足場が用意されている円形のプールでラットを学習させながら、 実験1と同様に、行動のモニターと海馬と大脳基底核の ニューロン活動記録を行う。 これらの記録は、ラットが学習する期間中と学習後において行う。 実験2における学習後のデータを解析することにより、 作業仮説の検証を行うことができる。 海馬場所細胞が場所依存性だけでなく方向依存性もあり、 大脳基底核細胞が前進、旋回などの行動に依存した反応を示せば、 作業仮説A が正しいといえる。 一方、 海馬場所細胞に方向依存性がなく、 大脳基底核細胞がプール座標系に対する方向に進むような行動に 依存した反応を示せば作業仮説B が正しいといえる。 実験1と実験2の海馬細胞の反応特性を比べることで、 内部状態の生成メカニズムを知る手がかりを得ることができる。 実験1での海馬細胞の反応特性と 実験2での学習終了後に得られる反応特性が同じであれば、 内部状態のコーディングはタスクに依存せず生成されていることになり、 異なっていれば、タスクに依存して生成されているといえる。 タスク依存で内部状態が生成される場合、 実験2での学習中に測定される海馬細胞の反応特性の変化も 内部状態生成メカニズムの重要な手がかりとなる。 %%%%%%%%%%%%%% 5.実験系 %%%%%%%%%%%%%% ラットの海馬と大脳基底核の両方の神経活動を測定する必要性 から、多点電極をラットの頭部に刺入しマルチユニットレコー ディングを行なう。 水迷路課題を行なっている時のラットへの負担を軽くするため、 赤外線を使って無線化した無拘束な神経活動計測システム (Yamamoto,1999)を使用する。ただし、防水やさらなる軽量化 などの改良は必要と思われる。 ラットの行動は実験システム上部に設置したビデオカメラによっ てモニタする。さらに、ラットの頭部に識別の容易な色を使っ て標識し、ビデオ記録を画像処理することでこの特徴を抽出、 ラットの位置や頭部の方向を検出する。 %%%%%%%%%%%%%% 6.内部表現生成モデル %%%%%%%%%%%%%% 生理実験で得られた知見を拘束条件として、 内部表現生成モデルの構築を行う。 ラットロボット構築にいたって、 内部表現生成モデルは重要な役割を果たす。 タスクに依存しない内部表現が生成されていた場合は、 例えば競合学習によって生成されている可能性が考えられる。 一方、タスクに依存した内部表現が生成されていた場合は、 報酬信号に基づいて内部表現が自己組織化されている可能性があると 考えられる。 また、視覚情報だけで内部状態が生成されているのではなく、 触覚、嗅覚情報や過去の観測情報の履歴、行動の履歴に依存して 生成されている可能性も考えられる。 以上の点に注意してモデルを構築し、 更なる生理実験で検証が行われることを期待する。 %%%%%%%%%%%%%% 7.まとめ %%%%%%%%%%%%%% ラットロボットを構築する第一歩として、 海馬と大脳基底核における内部状態と行動命令の解明に着目した。 内部状態と行動命令に関する作業仮説を述べ、 それらを検証するための実験系を構築した。 実験で得られるデータを手がかりに、 内部状態生成モデルを構築する計画を述べた。