Predictive Coding in Recurrent Neocortical Circuits Rajesh Rao [はじめに] 解剖学的に、大脳皮質間に求心性および遠心性の経路が存在すること、皮質の 層間に再帰的な結合があることが知られています。しかし、このような構造がど のような機能を担っているのかは明らかではありません。この講義では、この ような解剖学的知見に基づく情報処理モデルとしてPredictive Coding仮説を 提唱し、それが視覚系の特性を良く説明することを示したいと思います。 [解剖学的知見] マカク猿の視覚系の経路、例えば網膜(Retina)-外側膝状体(LGN)-視覚一次野 (V1)-V2-V4-ITには、FeedfowardとFeedbackの双方向の結合が見られます。 また、大脳皮質には6層からなる層構造が存在し、層ごとに規則的な投射関係 を持ちます。例えばLGNからの入力はV1の4層に入りますが、V1の6層から逆に LGNへの出力が存在します。また、V1の2,3層はV2に投射を送り、V2の出力が再 びV1の1層へ入力します。皮質層内においても再帰的な興奮性結合が存在する ことが知られています[2][3]。皮質内錐体細胞への入力の80%は皮質の同一領域内か らのものとなっています。このように視覚系は階層的なシステムを持ち、それらの間 に多数の双方向結合をシステムであると言うことができます。 [Predictive Coding Hypothesis] ・皮質領域間の相互結合(reciprocal connection)の役割は何か。 ・皮質領域内の再帰的興奮性結合の役割は何か。 これらの疑問に答える仮説の一つがPredictive Coding仮説です。 この仮説は ・Feedback結合は下位レベルの神経活動の予測値を伝達する。Feedforward結 合は予測値と実際の活動の誤差を伝達する。 ・皮質領域内の再帰的興奮性結合は下位レベルの活動の予測値を生成する。 というものです。 図1 Predictive Codingの概念図(文献[1],図1) もう一度、ここで紹介するアイデアをおさらいすると、図1−aに示すように入 力信号の統計的性質を学習し、フィードバック結合によって入力信号を予測し ようとします。誤差信号はフィードフォワード結合によって次のレベルに、ま たさらに上位のレベルへと運ばれます。これが一般的なアイデアです。図1-b, cはそのアイデアを具体化したネットワークの例です。入力としては局所的な 画像の集合を与えます。Level 1のそれぞれの予測器は、入力画像の統計的な 性質を学習します。Level 2では、Level 1の活動の組み合わせを予測しようと します。このようにすることで、入力画像の空間的な性質を捉えることができ ます。 図2 内部モデルと最適な隠れ状態推定の問題(文献[8],図1(a)) ここで、カルマンフィルターの概念を簡単に紹介したいと思います。カルマン フィルターで解こうとする問題は図2のような問題です。学習したい内部モデ ル(internal model)は、外部世界(the world)のシステムです。視覚の問 題の場合、外部世界に存在するいろいろな物理的な物体がそうです。しかし、 観測によって直接物理的な世界を知ることはできません。2次元世界に投影さ れた画像だけが、網膜に与えられます。そのため、私達はこの可視状態 (visible state)から外部世界の隠れ状態(hidden state)を推定する必要 があります。つまり、逆問題を解かなければならないことになります。このま までは数学的な表現ができません。そこで、数学的に表現可能なある特定の枠 組みに対するカルマンフィルターを考えます。 図3 カルマンフィルターに基づいた推定問題(文献[8],図1(b)) 外部世界とその外部世界を予測する予測器を考えます(図3)。この外部世界の 方の四角に囲まれた箱の中に外部世界のダイナミクスが表現されています(図 3左半分)。I(t)が時刻tで得られる画像信号を表しています。そして、UやVが 外部世界のパラメーターとなっています。Uが隠れ状態rから可視状態Iへの変 換を行うパラメーターで、Vが物体のダイナミクスを表現するパラメーターで す。四角の箱の中に書いてあるように、rは行列Vによってr(t-1) からr(t)に 状態遷移を繰り返します。このようにそれぞれの時刻tでの状態は過去の状態 のみに依存、ここでは1ステップ前、時刻(t-1)の状態に依存して更新されてい きます。これは、統計的な手法として用いられている隠れマルコフモデルとみ ることができます。以上のことから、Vは状態遷移行列とよばれ、Uは観測行列 または隠れ状態から可視状態を生成するため生成行列とも呼ばれます。 翻ってこちら側(図3右半分)の推定器(The Estimator)はどのようにこのカ ルマンフィルターの問題を解くかといいますと、アイデアとしては、時刻tの 画像I(t)が網膜に届いたときに、推定器によって予測された画像$\bar{I}$と の誤差をとります。この誤差を返すことで$\hat{r}(t-1)$が得られます。こ の$\hat{r}(t-1)$から状態遷移行列Vによって次の時刻の隠れ状 態$\bar{r}(t)$を予測します。さ轤ノ観測行列Uを通すことで、予測される画 像$\bar{I}(t)$を生成します。こうして短期間では、隠れ状態rを時々刻々に 見積もらなければいけないし、長期間ではパラメーターU、Vをたくさんの画像 から学習していかなければならない。以上がカルマンフィルターの流れです。 次にカルマンフィルターの数学を理解するのに役立つ簡単な例を挙げましょう。 ここに入力として実数の集合を与えます。 \begin{equation} Inputs {I(1), I(2), I(3), ..., I(t-1)} \end{equation} そしてこれらの実数の平均値を求めることを問題とします。平均値は以下の式 のようにこれらの実数の和をその実数の要素の数で割ることで求めることがで きます。 \begin{equation} Arithmetic Mean \hat{r}(t-1) = (I(1) + I(2) + I(3) + ... + I(t-1)) / (t-1) \end{equation} ここで新しい実数I(t)が与えられたとき、これらの実数の平均をどのように計 算したらよいでしょうか。これは、次のように以前の平均値の推定値に (t-1)/tの重みをかけて修正し、新しく得た実数をtで割った値を加えてやれ ば求められます。これを書き直せば、新しい推定値が前の推定値に、前の推定 値と新たに観測した値との誤差にあるゲインを掛けたものを加えたものとして 表現されます。これが一般的な形です。 平均値の逐次更新式: \begin{equation} \hat{r}(t) = (t-1 / t) \hat{r}(t-1) + I(t) / t = \hat{r}(t-1) + (I(t) - \hat{r}(t-1)) / t \end{equation} 一般式: \begin{equation} New Estimate = Old Estimate + Gain \times Residual Error \end{equation} このようなイメージで定式化されるのですが、さらにイメージをつかむため学 習した時このモデルがどのように働いているかを見てもらいましょう。入力に ある画像I(ある有名人の似顔絵(笑))を与えます。この画像を水平や垂直 のエッジを検出したりするフィルターUにかけます。そうするとそれぞれのフィ ルターに対応する活動が生じます。これらフィルターUとその係数rとなる活動 度の積を集めたものが、局所的な入力画像を表します。このように基底関数U とその係数ベクトルrの線形和によって画像を生成することになります。 そ れでは数学的な式に戻ります。 空間的生成モデル(Spatial Generative Model): \begin{equation} I(t) = U(t) r(t) + n(t) \end{equation} ここで, I: 入力画像,U: 生成行列,r: 神経活動 n: 平均0、分散Cnのガウス白色雑音 入力画像I(t)は、基底関数Uにその係数ベクトルr(t)を掛けた積にガウス白色 雑音n(t)を加えたものになります。基底関数Uは、脳内ではフィードバック方 向のシナプス荷重に相当します。 隠れ状態の更新式(Temporal Dynamics of Hidden State): \begin{equation} r(t) = V r(t-1) + m(t-1) \end{equation} ここで, V: 状態遷移行列,r: 神経活動 m: 平均0、分散Cmのガウス白色雑音 時間的なダイナミクスは、このように表されます。新しい状態r(t) は、1時刻 前の状態r(t-1)に予測行列Vを掛けた積にガウス白色雑音m(t-1)が加わったも のとなります。この簡単なモデルでは、パラメーターUやVに内部モデルが符号 化されることになります。では、これからこれらのパラメーターr、U、Vの学 習を考えていきます。一つの考えは、予測誤差を最も小さくするような学習を することです。もう一つは時間的なダイナミクスから予測される隠れ変数の推 定値との差を小さくするような学習です。このため、$J_1$ のような最適化関 数を考えることができます。 \begin{equation} J_1 = \sum_{i=1}^n (I^i - U^i r)^2 + \sum{i=1}^k (r^i - \bar{r}^i) ^2 \end{equation} ここで、$\bar{r}$が入力画像Iを観測する前のrの推定値です。この最適化関 数を,統計的により一般的な形で書けば、各画像Iについて次のように書けま す。 \begin{equation} J = (I - Ur)^T Cn^{-1} (I - Ur) +(r - \bar{r}^T M^{-1}(r - \bar{r}) \end{equation} ここで、\bar{r}$は神経活動rの平均,Mはその分散です。このように最初の項 が観測ノイズの影響を表し、2つ目の項がシステムノイズを表す形となってい ます。この最適化関数はまた、与えられた入力画像Iの負の対数尤度とrについ ての事前確率の負の対数尤度の和でもあります。結局、統計的な立場からみれ ば、この最適化関数Jの最小化はベイズ推定のフレームワークにおける事後確 率の最大化と等価になっています。 では、この最適化関数が与えられたのでここからどのようにして最もよいrやU やVを決めたらよいかと言いますと、rについての最適値なら、Jをrで微分して 0となるときのrを用いれば最もよいrを得ることができます。つまり, \begin{equation} \frac{\partial J}{\partial r} = 0 \end{equation} とおくと、入力I(t)を得たときのrの平均値$\hat{r}(t)$は、 入力I(t)を得る前のrの平均値$\bar{r}(t)$をもとに \begin{equation} \hat{r}(t) = \bar{r}(t) + N(t) U^T Cn(t)^{-1} ( I(t) − U\bar{r}(t) ) \end{equation} で求められます.ここで, \begin{equation} N(t) = ( U^T Cn(t)^{-1} U + M(t)^{-1})^{-1} \end{equation} \begin{equation} M(t) = VN(t-1)V^T + Cm(t-1) \end{equation} です.こうして得られたrの平均値$\hat{r}(t)$は、次の時刻では \begin{equation} \bar{r}(t+1) = V\hat{r}(t) \end{equation} として使われます. ここでは式の詳しい解説は省きますが、詳しくはoptimal control のとてもよい解説書[4]があるのでそれをごらんになってください。 簡単に言えば、その時間その時間で外部世界で起こっていること、 つまりrの分布を推定しています。その分布の平均値、分散が上式 のように表されるのです。それでは、もっと直感的に何が起きてい るかを見てみましょう。 図4 カルマンフィルターにおける確率密度関数の推移(文献[8],図3) 左上にあるのが過去のrの推定(Previous Estimator)です。 分布は、平 均$\hat{r}(t-1)$、分散N(t-1)のガウス分布をしています。これ(右上)が予 測行列(Prediction Matrix)Vによって予測される時刻tでの分布、平 均$\hat{r}(t)$、分散M(t)のガウス分布です。ふつう、さきほどの分布より分 散が大きくなるので裾野が広がった分布となります。ここで、I(t)を観測しま すと、このように再び鋭い分布になります(左下)。以上のように過去の分布 からつぎの分布を推定し、それと実際の観測との誤差によって新しい分布に修 正するということを繰り返します。 ここで、もう一度ダイアグラムを見てみます。私達はこの予測行列 (Prediction Matrix)Vでシステムのダイナミクスを表現していますが、ここ で予測をし、生成行列(Generative Matrix)Uを通してこちらで入力との差が 取られます。それにあるゲインGをかけて再び予測器に戻ってきます。ここで ゲインGは、どれだけ入力信号との誤差が信頼できるか、以前のデータから予 測された値との誤差を信頼できるかに依存しています。ここには、トレードオ フがあります。もし、入力信号のノイズが大きい場合、Gは小さくなり、かわ りにrの推定をほとんど内部モデルによる予測に頼ることになります。逆に内 部モデルによる予測に伴うノイズが大きい場合、rの推定は入力信号に頼るこ とになります。こういうわけでノイズの分散が推定時の重み付けを決めている と理解することができます。これまでが数学的なお話でした。 さて、このモデルのシミュレーション例を見てもいましょう。一番左端の列が 学習した物体(Training Object)の入力画像です。学習後の様子がそれぞれ 左から右へ示されています。最初は、予測ができないものの次第にその物体を 予測していくようになります。また予測誤差もトレーニングに従って減少し、 最後には0に近づいています。 図5 カルマンフィルターによる物体の学習(文献[8],図5) 図6 図5の実験の学習曲線(文献[9],図6) 次に、このモデルを用いていくつかのテストを行ってみます。図6-aが訓練画 像です。図6-bにいくつかの画像でテストした結果を示してあります。図6-bの 上段2つ目までは訓練画像を与えたときの、予測画像とその予測誤差ですが、 訓練画像に対しては誤差がほとんどなくなっていることがわかりま す。 図7 物体の学習とその学習後のカルマンフィルターの動作(文献[8],図8) これに対して、上から3段目の例は、訓練画像の向きを少し変えたものを入力 として与えています。このときは、誤差が少し増えますが、ある程度予測でき ることがわかります。同じように4段目の入力画像に遮蔽物が加わった時も誤 差が残ります。そして、興味深いのは5段目の訓練集合にない新しい画像を入 力として与えたときです。このときは、予測することができず誤差が非常に大 きいものとなります。そのため、このモデルが入力された物体が新しい物体で あるか、学習済みである物体かを区別することができる可能性を示しています。 これによって、新しい物体として新たに学習することもできます。 それでは次に階層的な場合を考えましょう。図7-aにあるようなモデルです。 それぞれのレベルでのモジュールは、フィードバックとフィードフォワードの 結合をもち、解剖学的には網膜からLGN、V1、V2V4、ITという経路との対応を 想定しています。そこでは、3種類の情報の流れが生じます。1つ目は入力を受 け、それと予測との誤差とり誤差を伝達するもの。2つ目は、予測器による再 帰的な推定。3つ目はトップダウンによる予測値のフィードバックです。図8に 皮質内の層間構造をモデル化したものを示します。 図8 層間構造とそのモデル 解剖学的な構造としては、大雑把に言って4層が入力を受け、それが2、3層に 伝えられ、6層でフィードバックの出力がなされます。これらがモデルでどう 対応付けられるかといいますと、まず入力として下位モジュールからの誤差信 号が4層に入力され、それを2、3層はさらに上位のモジュールに誤差信号を伝 達します。5層は出力層で、\bar{r}を出力し、6層で下位のモジュールへの予 測を返します。 それでは、階層性を持つモデルで学習した時のシミュレーション結果を紹介し ます。訓練画像は、図8の上段にあるような自然画像です。Level1の段で示し ているのが、それぞれLevel1での生成行列Uの行、すなわち個々のrに対応す る基底ベクトルです。これは,この細胞の受容野特性と見ることができます。 入力画像は、これら基底ベクトルの線形和で表される事になります。たくさん の画像による学習を行った後では、それぞれの受容野はいろいろな向きのエッ ジ検出器になりました。このような学習後の受容野の形は、学習する入力画 像の統計的性質に依存しています。Level2ニューロンは、Level1ニューロンの 活動の組み合わせを表現しています。もう一つ、下段にあるのはガウス分布の かわりにスパースな分布を仮定したときの学習後のLevel1ニューロンの受容野 です。このときはガボールフィルターやエッジ検出器といったタイプと同じよ うにもっと限局した受容野が学習されました。 図9 自然画像学習後の階層的なモデルの受容野(文献[1],図2) このモデルを用いて終端抑制(endstopping)ニューロンの働きを説明すること ができます。さきほどご説明したように、2、3層のニューロンは誤差を上位モ ジュールに伝達します。その2、3層にあるニューロンの多くは終端抑制の性質 を示します。終端抑制とは、刺激としてバーを呈示した時、そのバーの長さが 十分小さい時には、ニューロンの応答はバーが長くなるにつれて強くなります が、バーの長さがそのニューロンの受容野を越えると、バーが長くなればなる ほど応答が弱くなり、最後には0になるといったものです(図9-a右)。これは 2、3層のニューロンは、トップダウンの予測とボトムアップの入力の誤差を伝 達するが、ある長さ以上のバーではトップダウンの予測が正確になるため、誤 差が小さくなるからだという風に理解することができます。実際モデルがどの ように働くか見てみますと、バーの長さが十分小さければ、バーの長さが長く なるに従って応答は強まりますが、ある長さからは逆に応答が弱くなります (図9-a左)。このように実際の視覚野の2、3層のニューロンで見られるのと よく似た山なりの曲線が得られます。ここでもし、モデルのフィードバック結 合を取り払うと、応答は強いまま残るという結果になります。それに対し、こ ちらの実際のニューロンもフィードバック信号を伝達していると考えられる6 層が活動できないようにしたときには2、3層のニューロンの活動は強いままで す。 図10 終端抑制のフィードバックによる影響比較(文献[1],図5) ここで終端抑制ニューロンがどうして形成されるのかと言うと、実はその原因 は自然画像の中に隠されています。自然画像は、とても高い確率で同じ方向に 線分がのびる傾向をもちます。これによって周りの画素から中心の画素を予測 することができるのです。モデルは、この統計的性質を学習するので線分が長 い時には予測誤差、つまりニューロンの活動が小さくなるのです。 モデルを使った他の実験もみてみましょう。図10-aは4種類の刺激パターンを 与えたときのニューロンの活動を表しています。左から3番目のように中心の 線分の方向が周辺の方向と異なる時が活動が最も強くなっています。逆に左か ら2番目のようにある方向の線分が一面に長く並んでいる場合は、最も活動が 弱くなります。これも周辺の領域が中心部分を予測できる形だからです。図 10-bも同様の例です。同じ向きにそろっていると応答が弱い。図10-cは、時間 的な応答パターンを調べたものです。刺激としてテクスチャーが与えられてい ます。このときもやはり、周辺領域が中心と異なる方向のテクスチャーであれ ば、同じ方向のテクスチャーの時と比べてニューロンの活動は小さくなります。 図11 モデルにおける古典的受容野外の効果(文献[1],図6) このシミュレーションに対応するマカク猿、V1での実験をお見せします。この 実験でもモデルの振る舞いと同じように中心と異なる方向のテクスチャーが周 辺に与えられたときのほうがニューロンの活動が強くなっています。また、刺 激呈示後およそ80msecでニューロンの活動がほぼ一定値に落ち着くことがわか ります。ニューロンの活動を時間軸にそって眺めてみると、図11のように書け ます。これを見てもわかるようにこれらテクスチャーの線分の方向によって違 いが生じるのは80〜100msec後になります。ここから、フィードバック信号が V1に届くのに80msecぐらいかかるのではないかということが予想されます。 図12 テクスチャーによる古典的受容野外の効果(文献[11],図2) 図13 いろいろな領野での応答潜時の比較(文献[11],図10) 最後に、ロバストカルマンフィルターを紹介します。普通のカルマンフィルタ ーと異なるところは、Gating行列が加わったところです。これは入ヘと予測と の誤差がある閾値より大きくなった時は、その誤差を無視します。このときの 最適化関数はどうなっているかと言うと、まず図14左が通常のカルマンフィル ターの最適化関数です。これに対して図14右のロバストカルマンフィルターで は、ある値以上の誤差からは定数となり、それ以上の誤差の増分を無視する形 になっています。 図14 最小2乗最適化とロバスト最適化(文献[8],図4) 図15はロバストカルマンフィルターの学習をした例です。図15-aが訓練画像で す。図15-bのように訓練画像に新しい画像を一緒に与えると、このモデルは訓 練画像だけを予測しつづけ、残りの誤差は大きい誤差なのですが、Gating行列 の働きによってその誤差は無視されることになります。もう一つは、図15-cに ある訓練画像を2つ同時に見せた例です。先ほどと同じように誤差が大きくて も無視されてしまうので一方の画像だけが予測されます。しかし、いったん無 視していた誤差に対応する画像を予測しようとすれば、もう一方の画像を予測 することになります。これがこのモデルにおける注意の切り替えです。 図15 ロバストカルマンフィルターによる認識(文献[8],図13) このような仕組みを担う生物学的な構造として視床を考えることができます。 皮質の異なる領野、V1、V2、V4などはPulvinar(視床枕)にフィードバック結 合やフィードフォワード結合を持っています。その結合の仕方はV1→Pulvinar →V2→Pulvinar→V4というような形であるのでV1−V2−V4−の経路の存在も考 えると、三角形の回路をなしていることがわかります。また、これらの皮質と Pulvinarとの間には抑制性のニューロン群が存在しています。そのため、この ニューロン群で伝えられる誤差信号をカットすることが可能です。そういうわ けでPulvinarになんらかの形で注意を与えることで、物体の認識を切り替える という機構を考えることができます。 [まとめ] ・動物の感覚運動系にとって予測能力は有用である ・Predictive Codingの本質: - 大脳皮質の再帰的興奮性結合とフィードバックの機能的役割を示唆する - 終端抑制や古典的受容野外効果などのニューロンレベルの現象を自然画像 の性質に基づいて理解できる - 視覚における注意などの認知的性質を説明できる [質疑応答] Q1 このモデルは内部状態と出力を同時に推定するという意味で野心的ですが、 工学的なアプローチとしてはどのようにとらえられるでしょうか。 A1 このモデルはオンラインで学習するネットワークになっています。このよ うな問題は工学ではシステム同定(System Identification)と呼ばれます。詳 しくはLjungの本[10]を参考にして下さい。 Q2 フィードフォワード結合を表わすのに$U^T$は単純すぎるのではないでしょうか。 A2 前のレベルの情報全てが必要なわけではなく、例えばエッジ検出などの結 果のみを表現すれば良いので大丈夫です。 Q3 生物学的な現象として、生まれた時と大人になってからでは可塑性の度合 が異なってきますが、その影響についてはどう思われますか。 A3 網膜などは遺伝的に決定されている要素が多いでしょう。その後細かく調 整(fine tuning)されると考えられます。子猫の実験でCritical Periodが存在 し特殊な環境に置くと内部モデルが正しくできないことが分かっています。 Q4 心理物理学的な方法で$U^T$やVの変化を知る方法は考えられますか。 A4 神経生理学的な方法では、視覚刺激に対するreceptive fieldの変化を見る ことができる可能性があります。心理物理学的な実験はより難しいでしょう。 しかし応答時間の変化などから推測できるかも知れません。 Q5 新しい内部モデルを学習するにはどの程度の時間がかかりますか。 A5 学習率(learning rate)やゲインによります。実際の脳ではこれの値は興味 や驚きなどの情動的な要素、周囲の環境などで決まると思います。 [参考文献] [1] Rao RH, and Ballard DH, "Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects", Nat Neurosci, 79-87, 1999. [2] Markram H, et al., "Physiology and anatomy of synaptic connections between thick tufted pyramidal neurones in the develping rat neocortex", J Physiol, 409-440, 1997. [3] Markram H, "A network of tufted layer 5 pyramidal neurons", Cereb Cortex, 523-533, 1997. [4] Bryson AE, "Applied Optimal Control : Optimization, Estimation, and Control", Taylor & Francis, 1981 [5] Fellmen DJ and van Essen DC, "Distributed Hierachical processing in the primate cerebral cortex", Cereb Cortex, 1-47, 1991. [6] Crick and Koch, "Constraints on cortical and thalamic projections: the no-strong-loops hypothesis", Nature, 245-250, 1998. [7] Dan Y, Atick JJ and Reid RC, "Efficient coding of natural scenes in the lateral geniculate nucleus: experimental test of a computational theory", J Neurosci, 3351-3362, 1996. [8] Rao RP, "An optimal estimation approach to visual perception and learning", Vision Res, 1963-1989, 1999. [9] Rao RP, Ballard DH. "Dynamic model of visual recognition predicts neural response properties in the visual cortex", Neural Comput, 721-763, 1997. [10] Ljung L, "System Identification: Theory for the User. Second Edition", Upper Saddler River, N.J.:Prentice Hall, 1999. [11] Zipser K, Lamme VA, Schiller PH, "Contextual modulation in primary visual cortex", J Neurosci, 7376-7389, 1996.