\documentstyle{jarticle} \begin{document} \begin{center} {\Large 到達運動の最適化と誤差の信号} \\ 講師: 北澤茂先生\\ {\small レポーター:山本慎也、田端宏充} \end{center} \section*{導入}   まず初めに、川人先生のお話にあった追従眼球運動(ocular following response)と、到達運動 (reaching)の違いということに触れておきたいと思います。追従眼球運動は、広い視野のランダム ドットが動くと、動きの方向に目がキョロッと動くという運動です。ランダムドットが動くと網 膜像が動きます。この網膜像の動き(retinal slip)がもう既に時系列になっていて、この時系列信号 が橋核まで来て、逆ダイナミクス変換を受けて、運動指令に変わる。つまり時系列入力から時系 列出力への変換になっている。  一方、これからお話する到達運動の場合は、止まっている目標に対して到達運動をするという 場合を考えれば、網膜への入力は時間的に変化しません。しかし、出さなければいけないのは時 系列としての運動指令なので、逆ダイナミクスモデルが最後の変換を行なうとすれば、逆ダイナ ミクスモデルに入力するための時系列としての目標軌道が生成されなければならない。つまり『到 達運動では、脳はどこかで時系列をつくらなければいけないのだ』というところが、追従眼球運 動とはちょっと違う難しい点です。  少し横にそれますが、私はリーチングの仕事を大学院の2年のときにたまたま猫で始めて、そ れ以来12年間続けてきました。これは、ここに持って参りました川人先生のレビューに深く感 動したからなのであります。私は、ボトムアップの電気生理学者です。ボトムアップの電気生理 学者で、トップダウンにあこがれるボトムアップの電気生理学者です。当時は、このような会と いうのは全然ありませんで、甘利先生の講義にもぐったり、川人先生の総説が出るとむさぼるよ うに読んだり、というような日々を過ごしていました。このレヴューに本当に感動して、到達運 動の仕事を続けているという次第です。  到達運動では、始点から目標に向かって手をすっと伸ばすのですが、運動の接線方向の速度を 計ると鐘型になっている。この鐘型に、何と、非常に美しい背景があるのだということを、川人 先生の総説を読んで知りました。何に感動したかというと、この美しさに感動した、というわけ です。 \section*{Jerk最小モデル} 総説を読んだのが88年です。その3年前にFlashとHoganのJerk(躍度)最小モデルというのが 出た。これはどういうのかといいますと、Cjと書いてあることが多いと思うのですが、手先の位 置をx、yとして、これの3回微分を2乗して足したものを運動開始から終了まで積分した、こ ういう評価関数が最小になるような運動の速度がベルシェープ(鐘型)なんだということなので す。これだけでもすごく驚きました。このような変分原理のような評価関数で人間の日常やって いる運動が書けてしまうのだというのが、僕にはものすごくうれしいことでした。そのころ脊髄 の電気生理をやっていて、データの複雑さに苦しんでいたので、このようなきれいな世界が実は 自分のすぐそばにあったのだということを知って、とってもうれしかったのです。  こういう式を見ると、拒絶反応を示す生物系の研究者がいることは否めません。先ほどのセオ リー・オブ・マインドの類で言えば、何かこいつは自分のわからないことを言い出すのではない かという恐れです。その恐れの気持ちというのが、お互いの交流を非常に妨げる原因なのです。 ですから、生物系の人がこういう式を見たときには、とりあえず恐れを抱かずに、自分の手でど こまで計算できるか、高校数学でできるかどうかを試してみるというのがいいと僕はそのころか ら思っています。   \section*{数学計算を用いた、Jerk最小モデルから終点誤差分散最小モデルまでの説明} 実際に、高校数学を使って計算を行なってみましょう。 点Aから点Bまでのリーチング運動を考えます。今、直線ABをx軸、それに垂直にy軸を取り、 時刻tの手の位置をx(t), y(t)とします。この場合、先程のJerk最小モデルの評価関数を最小化する ことを考えます。このとき、常に\\ \[ \ddot{\dot{x^{2}}} + \ddot{\dot{y}^{2}} \geq \ddot{\dot{x}^{2}} \] \\ が成り立つので、 \\ \[ \frac{1}{2} \int \ddot{\dot{x}^{2}} + \ddot{\dot{y}^{2}} dx \geq \frac{1}{2} \ddot{\dot{x}^{2}} dt \equiv F[x] \] \\ をの最小値を求めればよいことになります。これは、\\ \[ \frac{F[x+ \epsilon \eta] - F[x]}{\epsilon} \] \\ が $ \epsilon \rightarrow 0 $のとき0となるxを求めればいいということです。 つまり、\\ \[ \lim_{ \epsilon \rightarrow 0 } \int \frac{ (\ddot{\dot{x}}+\epsilon \ddot{\dot{\eta}})^{2} - \ddot{\dot{x}}^{2}} {\epsilon} dt = \lim_{ \epsilon \rightarrow 0 } \int \frac{2 \epsilon \ddot{\dot{x}} \ddot{\dot{\eta}} +\epsilon^{2} \ddot{\dot{\eta ^{2}}} } {\epsilon}dt = \int 2 \ddot{\dot{x}} \ddot{\dot{\eta}} dt =0 \] \\ となるときのxを求めます。これは、高校で習った部分積分法を繰り返し使うことで、計算でき、 最終的には \\ \[ \forall_{\eta} , \int x^{(6)} \eta dt = 0 \] \\ となります。つまり、xは、tの5次関数になるということです。このとき、速度を表す$ x^{(5)} $ は、tの4次関数となり、先程のきれいなベルシェープが出てくるということになります。   このモデルの中身は、結局、加速度の時間微分なので、これ(手)が石ころだとすれば、力の時間変 化率となります。それが最小になるような軌跡というのが4次関数になるということです。しか も、始点と終点を結ぶ直線になるということも言っているわけです。当時、私は猫でリーチング をやっていましたので、さっそく猫のリーチングの軌跡にこれが合うかというのを確かめてみま した。これが猫のリーチングの接線方向の軌跡ですが、今のこのJerk最小モデルの接線方向 の速度を重ねると非常によく合いました。  先ほどの総説の本当の驚きはこの先にあります。Jerk最小モデルだと、いつでも始点と終点を 結ぶ直線になるのですが、実際にリーチングしてみると軌道は多少曲がるのです。もう一つ、別 の場合を考えましょう。例えば、AからBまで、この点Cを通っていきなさいという経由点を通 る運動をする場合です。さらに、Cと対称な場所に点C'というのをとります。そして、今度はC' を通ってAからBにいきなさいということをすると、Jerk最小モデルだと対称な軌跡が出てきま す。ところが、実際には、非対称な軌道が観測されます。 これをきちんと説明できるのが、トルク変化最小モデルなのです。手は石ころではなくて、(こ れまでの講義に何度も出てきていますが、)こういうリンク、あるいは関節のあるアームの先に ついています。肩のところのトルクをτ1、肘のところのトルクをτ2として、トルクの変化率 が始点から終点まで積分したときに最小になるような軌跡、というように評価関数を拡張すると、 運動の曲がりや非対称性までもがきれいに出てくるのです。どうしてこのような美しい原理が、 進化に進化を重ねてきた脳の中に入り込んできたのでしょうか。僕にはもう本当に不思議で、ぜ ひ知りたいなと思ったことが小脳を研究している理由であります。  それから9年後、1998年に終点誤差分散モデルが、HarrisとWolpertによっ提案されました。彼 らの問題設定はこういうことです。「これまでのモデルは、最小化すべき規範があって、これを 最適化するような軌道をつくっている。では、この最適な滑らかな運動をするということが、生 物にとってどういうメリットがあるのだろうか?」  例えばけがをしにくくなるというようなことがあるのかもしれない。でも、到達運動の目標と いうのは、そもそも対象に手を持っていくことなのです。だから、なるべく手が目標の近いとこ ろにちゃんと来るということが何よりも(滑らかさよりも)重要だろうと彼らは考えました。  さらに彼らは生体が避けることのできない誤差に目をつけました。人間は、いつもリーチング できるように見えるのですが、毎回同じ運動をすることができません。なぜかというと、運動指 令には運動指令の大きさに比例したノイズが入ってくるからなのです。神経系一般に、平均発火 頻度に比例した標準偏差のノイズが入ることが知られています。故に、大きい運動指令を使うと すると大きいノイズが入って、終点の位置がちょっとブレてきてしまう。その終点の位置のブレ の分散をなるべく小さくしようということを生態は追求しているのではないかというように彼ら は考えたわけであります。  彼らは、これは腕だけではなくてサッケードにも使えるのだよという話をしています。腕より も目の方が簡単なので、目で彼らのモデルを説明することにします。目が向いている位置をθと します。すると、運動方程式が、\\ \[ u(t)=M \ddot{\theta}+B \dot{\theta} +K \theta \] \\ つまり、回転トルク=慣性の項+粘性の項+弾性の項という感じに書けます。 この状態空間表現ということを考えます。 この場合、位置を$ x_{1} $と書いて、角速度を$ x_{2} $と置き、位置と速度をパックに して、今の目の状態というように考えるわけです。 $ x_{1} $のドットというのはθのドットですから、$x_{2}$になります。$ x_{2} $の ドットは何になるかというと、θの2ドットになるのです。θの2ドットは何かとい うと、\\ \[ \ddot{\theta} =- \frac{1}{M} (B \dot{\theta} + K \theta) - \frac{1}{M} u(t) \] \\ $ x_{1}, x_{2} $で表現すると、\\ \[ \dot{x} = - \frac{1}{M} (B x_{2} + K x_{1}) - \frac{1}{M} u(t) \] \\ すなわち、\\ \[ \dot{ \bf x} = \left( \begin{array}{cc} 0 & 1 \\ - \frac{K}{M} & - \frac{B}{M} \\ \end{array} \right) \left(\begin{array}{c} x_{1} \\ x_{2} \end{array} \right) + \left(\begin{array}{c} 0 \\ - \frac{1}{M} \end{array} \right) u(t) \] \\ \[ {\bf A} = \left( \begin{array}{cc} 0 & 1 \\ - \frac{K}{M} & - \frac{B}{M} \\ \end{array} \right) , {\bf B} =\left(\begin{array}{c} 0 \\ - \frac{1}{M} \end{array} \right) \] \\ とすると、 \[ \dot{ \bf x} = {\bf A} {\bf x} + {\bf B}{\bf u} \] \\ となります。 x(t)からちょっと だけ離れたときの時間の状態というのは、微分に小さいものをかけた、以下のような式に なります。\\ \[ {\bf x}(t + dt) = {\bf x}(t) + \dot{{\bf x}} dt \] \\ この式と上の式より、\\ \[ {\bf x}_{t+1}={\bf E} {\bf x}_{t} + (Adt) {\bf x}_{t} + (Bdt) {\bf u} \] \\ すなわち \\ \[ {\bf x}_{t+1}=({\bf E} + (Adt)) {\bf x}_{t} + (Bdt) {\bf u} \] \\ そして、この式を\\ \[ {\bf x}_{t+1}={\bf A}{\bf x}_{t} + {\bf B} {\bf u} \] \\ と新たに置き換えます。 これはすなわち、1つ前の状態に何か行列をかけて、それに制御信号にBをかけたものを足せば、 次の状態が出てくるということです。  彼らは、ここにさらにノイズが入ると考えました。そうすると、散文的に言えば、大きい運動 指令を使うと大きいノイズが入ってくるので、終点に大きな誤差が出てくるだろうという感じに なります。  彼らは、運動の終点における誤差の分散が最小になるような制御が実現されているというよう に考えました。終点の誤差の分散を計算していくと、\\ \[ c_{v} = \sum_{i=0}^{T} c_{i} u_{i}^{2} \] \\ の形になります。つまり、時刻iにおける運動指令の2乗に何か掛けて、足し算したような評価 関数がでてきます。この評価関数を最小にすればいいのです。係数はMatlabを使うと簡単に計算 ができて、運動開始時の運動指令になるべく大きなペナルティをかけて、なるべく運動指令自体 を小さくするようなものをつくるという式になることがわかります。  それで、彼らはこのモデルをサッケードに適用してみました。そうすると、実際の外眼筋から 取った筋電図のデータに見事にぴったり合うことがわかりました。さらに、このモデルがサッケ ードにとどまらず、腕の運動も非常にうまく説明できるということを示しました。  結局、HarrisとWolpertは、手をできるだけ正確に目標に運ぶということは、手をできるだけ優 雅に運ぶということとほぼ同じだ、ということを示したのです。生体の中の避けようのないノイ ズが正確さと優雅さを結んでいる。おもしろいと思いませんか。終点の誤差だけ考えることが、 優雅な腕の運動に結び付くのだとすると、終点の誤差だけ気にしていれば、緩和計算なしに優雅 な運動ができるようになるのかもしれない。そんな気がしてきました。終点の誤差だけに頼った 優雅な運動の学習が、もしかすると可能かもしれない。 \section*{どこで?}  それではどこでやるかということになるのですが、今までの議論からお察しの通り、きっと小 脳だろう。その理由は、1つは小脳を壊すと非常に運動が悪くなるということであり、もう1つ はある種の運動学習が小脳が壊れるとできなくなるということです。こちらのビデオに示します ように、小脳に異常があると運動は正しく行なえなくなります。また、速度曲線はぎざぎざにな ってしまいます。 \section*{小脳に表現される誤差の信号}  小脳で滑らかな到達運動を学習しているのなら、終点の誤差が小脳にちゃんと入っていなけれ ば困ります。これまでの運動学習理論に従えば登上線維(climbing fiber)経由で入力するはずで す。本当かどうかを自分で調べてみました。というのは、リーチングの運動中には、登上線維信 号はほとんど出ないというような報告があるのに、随意運動の終わりで本当に複雑スパイクが出 るという報告自体がほとんどなかったからです。  これが課題です(fig1 in Kitazawa et al. 1998)。これはサルにやらせています。サルの目の前に は液晶シャッターがあります。手元のボタンを押すと液晶シャッターがぱっと開いて、前方のス クリーンのランダムな場所にターゲットが出ます。ターゲットが出たら、サルは200ミリ秒以 内に手を離して、運動を開始して、ターゲットまでリーチングします。この手を離した瞬間に、 液晶シャッターを閉めてしまいます。ですから、運動中は一切、手もターゲットも見ることがで きないという状態で、これぐらい早い運動をします。そして、スクリーンをさわった瞬間にもう 1回ぱっとシャッターが開いて、最後のエラーを見ることができるという課題です。  これは課題遂行中のプルキンエ細胞の活動のラスター表示であります(fig2 in Kitazawa et al. 1998)。この縦の短い線がシンプル・スパイク(単純スパイク)です。これは20試行分です。 シンプル・スパイクはたくさん出ています。一方この黒マルが登上線維経由のコンプレックス・ スパイク(複雑スパイク)です。もう非常にスポラディックで、ちょっとしか出ないのです。横 軸が時間で、運動の終了(シャッターがあいて最後の誤差を見ている瞬間)というのがここのゼ ロ、運動開始がこの辺です。大体200ミリ秒ぐらいで運動が終わっているという状況です。  そうすると、僕の想定では、運動終了のこの後のところに、コンプレックス・スパ イクが誤差に応じて出るはずでした。ところが、ほとんどないのです。これはもう本当に困りま した。とにかく汗と涙で何とかするということで、この細胞の場合は1,382回記録をし続け ました。ほんの20回の試行ではここ1個しかないのですが、1,382回やっていくと、運動 終了直後の100ミリ秒間の間に、92回コンプレックス・スパイクが出ていました。  この小さい点々が1,382回の誤差の分布です(fig3b in Kitazawa et al., 1998)。運動終了か ら100ミリ秒以内にコンプレックス・スパイクが出た92回の試行のエラーに黒いマルをつけ てあります。原点を通る軸で4つの象限に分割すると、マルの数は19、42、21、19にな って、左上の第2象限に多い。つまり左上にエラーが出たときの複雑スパイクの発火確率が高く なっています。これはどの方向に間違えたかというのを当てる賭けをしている場合に、コンプレ ックス・スパイクが出ていれば、左上に賭けたほうが得をするということで、コンプレックスス パイクに誤差の方向に関する情報があるということを意味しています。このようにしてコンプレ ックススパイクが持っている情報の量を定量化することができます。  情報量の定量化をこの細胞についてやってみると(fig4a、黒線in Kitazawa et al.1998)、横軸が時 間で、縦軸が誤差についての情報量ですが、運動終了の直前から上がって、この細胞の場合は2 つピークをつくる。同じような処理を50個の細胞についてやってみますと(fig4b、黒線in Kitazawa et al. 1998)、情報量をただ単純に足しただけですが、やはり誤差の信号のピークが運動終了の直前、 直後に2つある。確かに運動の誤差の情報をコンプレックス・スパイクが伝えている。  では、この誤差の情報を使って優雅な運動をつくるのに、長期抑圧(LTD, Long-term depression) が使えるか。使えるかどうかを決める重要な問題があります。それは、登上線維信号が時間を遡 って変化を起こすことができるか、という問題です.誤差の情報は運動の終了前後にならないと 現れてきませんが、誤差を作った原因となる運動制御に関係した入力は、誤差信号よりも前に入 ってきている。つまり、すでに入力が通過したシナプスに対して、登上線維信号がLTDで変化 を及ぼすことができない限り、LTDを使った運動学習は不可能、というわけです。幸いなことに、 最近のスライスを用いた研究によると、200ミリ秒ぐらいさかのぼったところにLTDのピーク があって、さらに前のほう、300、400ミリ秒のところまで遡れるらしい。そのデータに基 づいて誤差の情報を時間的に前に持っていくと、大体運動制御の期間を覆うことができます。我々 の得た終点の誤差の情報に、運動を変える力があるだろうと考えられます。   \section*{誤差信号から滑らかな到達運動へ} そこで、この誤差の信号から優雅な制御をつくれるかという問題について考えましょう。今ここ に逆モデルがあって、目標軌道が入って運動制御信号が出るとしましょう。す ると、優雅な運動を実現するための目標軌道が必要になります。ということは、優雅な運動をあ らかじめ脳のほかの場所が知っていなければいけないということになる。そうすると、小脳をや っている人間としては何かおもしろくないわけです。小脳の学習だけで優雅な運動をつくってほ しいのに、優雅な運動を実現するための目標軌道というのは、もう既に脳のほかの場所でつくら れているとなると、何となくちょっと寂しい感じがします。  そこで、WadaとKawato(1993)をみてみましょう。これは逆モデルと順モデルをつないだルー プです。そこに目標の位置が入ると、とりあえず何か出力を出して、それが次の時間の手の位置 をつくる。すると、ここのインプットが変わって、ちょっと違う出力が出て、時系列をつくるよ うなループがぐるぐると回る。こうしてしまうと、目標軌道というのがどこかに行ってしまうと いう面はあるのですが、運動指令の時系列のジェネレータが小脳を介したループの中にあるとい うようにとりあえず仮定してみましょう。それをもうちょっといいかげんに書くと、このような 感じです(図1)。定常的な目標の位置が目に入ると、タイムシークエンス・ジェネレータがわーっ と回って、モーターコマンドをつ くる。そのモーターコマンドの終点のエラーが戻ってきて、ジェネレータのどこかをちょっと変 える。これだけの非常にシンプルな系になっています。  これだけでうまくいくか。うまくいくはずない。と多分さんざんに言われることを覚悟してき たのですが、以下のようなことを考えています。このシステムの中に、適当にシナプスの結合係 数でもいいのですが、座標系をとってやって、システムの空間の中の1個の点だというように考 えます。これがシステムの空間全体で、いろいろなリズムパターンをつくる、ジェネレータ全体 の集合だと思ってください。その中にいろいろなジェネレータがあるので、オーバーシュートし てしまうような運動指令をつくるジェネレータもあれば、平均的には誤差がゼロになるようなジ ェネレータもあれば、平均的にアンダーシュートするようなジェネレータもある。オーバーシュ ートとかアンダーシュートという平均的なずれは、プリズム順応の例を連想すれば、比較的早く ゼロに落ちてくるだろう、と仮定しましょう。平均誤差ゼロのこの部分空間の上にみな落ちてく ると、とりあえずしましょう(図2)。  とりあえず落ちてきました。落ちてきたところで、終点の誤差分散が効いてきます (図3)。ここは、平均的には終点の誤差をゼロにするようなジェネレータの集団なので すが、終点の誤差には、運動指令によってノイズが入りますので、運動指令のパターンに応じて 誤差分散は様々に違うシステムがつまっています。さて、誤差が出れば必ずシステムは変わりま す。プルキンエ細胞へのインプットのベクトルと誤差の積をとって変わる。そのインプットのベ クトルにもランダムにノイズが入っていると考えると、システムは、あらゆる方向に変わる可能 性があるのです。しかも、エラーと掛け算しますから、誤差分散が大きいところでは、いろいろ な方向に大きく動く可能性があります。つまり、拡散係数が大きいと解釈することができるでし ょう。例えばバンバン・コントロールの周辺では、誤差分散が大きめになるので、拡散係数が大 きくなって滞在時間が相対的に短い。もちろんもっと大きい場所はもっと滞在時間が短い。一方、 一番誤差の分散が小さいシステムのところでは、一番拡散係数が小さくなりますから、一番滞在 時間が長くなるというわけです。この部分空間でランダム・ウォークできる範囲が有限であった ならば、このディフュージョン・コンスタント、あるいは終点の誤差分散に反比例した滞在時間 を持つに違いないというのがアイデアです。山本憲司さんとシミュレーションをやっていますが、 この動く範囲の空間が広すぎた場合、適当な場所から始めると、ここになかなかつかない(つま りここに行くまでにとてつもない時間がかかる)という事情があって、この空間の次元を相当に 落として、変えられるパラメーターの次元数を落とさないとうまくいかないかもしれないなどと 考えています。  こういうランダムなウォーキングでも、もしかすると、ミニマムエラーバリアンスを実現する ようなジェネレータのところにたどりつくことができるかもしれない。というのが、皆さんにお 伺いしたいアイデアです。というあたりで、きょうの話を終わりにしたいと思います。どうもあ りがとうございました。 \end{document}(司会) 時間を押していますが、ぜひここで質問したいという方がいらっしゃ いましたら。 (質問者1) 実験は難しいと思いますが、単純スパイクは、腕の動作の何と相関しているのか。 また目の場合の角速度とかで相関が見えるというようなことが、腕の運動でもできるのか。それ から、このタスクではコンプレックス解析は、例えば右下とかなるわけですが、例えば同じ細胞 を見ながら別のタスクをした場合に、エラーの情報内容はどうなるのか。 (回答) まず、コンプレックス・スパイクからいくと、このタスクでしかとっていません。と いうのは、なるべく1,000回とかとりたいからです。300回ぐらいでサルが怒ったら終わ ってしまいます。また1,000回でも足りるかどうか不安で、終わってみないと解析できない のです。だから、オンラインでやってタスクは1種類しかやっていない。でも、適方向という意 味では、いろいろな細胞をとってみると、いろいろな適方向を持ったのがいて、ほぼ全方向を持 っている。ちょっとオキュラー・フォローイングとは違うところだと思います。  次のシンプル・スパイクのほうなのですが、例えばこの細胞は終了に向かってほとんど発火が なくなって、終了直後に200ヘルツぐらいにばっと上がっているということで、運動に相関し た変化をしていることは確かです。でもリーチングの場合は自由度が非常に大きいので、具体的 に力なのか、速度なのか、何なのか、と聞かれると正直言ってよくわからない。今、自由度を一 自由度にして、目の場合と同じようなきれいなフィティッグができるのではないかと考え、山本 憲司さんと一軸のマニピュランダム(川人先生と琴坂さんが開発されたもの)を使ってやってい るのですが、位置、速度、加速度のフィッティングで、一番いい細胞の決定係数が0.7ぐらい といったところです。 (質問者2) 誤差情報を持ったシグナルというお話で、あれは終了あたりに近づいてきたとき に二つ山が出てくるという図でしたよね。 (回答) そうです。 (質問者2) 恐らくそのLTDのタイムレンジを考えるときに、大体200ミリセカンド程度 で全体をカバーできるという話だったですよね。それで、運動が当然長くなっていくと、200 ミリ秒を当然超えてくるような運動もあるわけですよね。そういふうなときに、200ミリ秒ぐ らいのビン幅で切ってやって、それぞれに終点なり目標なりを設けてやるようなシリーズという ように考えるとか、そのようなアイデアになるわけでしょうか。 (回答) 2つあることについてまずコメントすると、こちらの後ろの山がシャッターが開いて から目で見て出た成分で、視覚入力から100ミリ秒ぐらいおくれています。一方こちらの前の 山は目から入ってきているのではなくて、末梢からのフィードバックと自分のモーターコマンド から順モデルなんかを使って計算した誤差だろうと思っています。この前の山は運動開始からこ のぐらい(150ミリ秒)たつと多分出てくると予想されるので、運動時間が長くなってもこの前 の成分が出てきて、うまく学習を進めるのではないかと考えています。 (質問者2) では、別に次に、きっとサルのほうが終点をどのぐらいで時間で行くのかという のを大体予測して出てきているというよりか、大体もう決まったタイムウィンドウで出てくるも のではないかという。 (回答) それを区別するには、運動時間を変えた実験をする必要があります。やっていないで す。 (質問者2) 大変なのはわかっているので。すみません。 (回答) いいのです。気を使わないでください(笑)。 (質問者3) 非常におもしろくて、終点の誤差でいかに軌道の途中を改善できるかというのは、 多分あしたの強化学習でも話が出ると思うのですが、それが小脳でどこまでできるかということ にやはり非常に興味あります。要するに、最後に話されたような目標軌道というのは、誰かよそ から来るのではやはりおもしろくない。小脳自身も軌道を生成しているとすると、やはり小脳が 単独で生成しているのか、あるいはただ小脳と体のフィードバック系でできているのか、あるい は小脳と大脳のフィードバック系でできているのか。しかもそれをある程度長い時間振り返って 直すという場合に、単純な相関がLTDみたいなものでいいのか、それともやはり何かメカニズ ムが必要なのか、その辺に関してコメントを。 (回答) ぜひ、理論の方に教えていただきたいなと思って来たのですが、僕がやっているこの リーチングは、とにかく早く反応しろという非常に単純なリフレキシカルなリーチングという感 じが非常に強いです。どうも歯状核と言うよりは、中位核を含むループで系で、わーっと本当に リズム・ジェネレーションをしているだけかもしれないという気がしています。 (質問者4) 目標軌道みたいなのは、どこかに、エクスプリシットに存在するのですか。 (回答) 目標点の情報は確実にありますが、非常に早いリーチングの場合は、目標軌道を運動 全域にわたって非常に細かく持つというのは難しいことだろうと思っています。この手の単純な リーチングについては、基底核からキューシグナルが来たら、ジェネレータがただぐるぐるっと 回っていくというイメージを持っているのですが、いかがでしょうか。 (質問者5) 僕自身はそういう考え方は割となじみがあるというか。というのは、きのう見せ た立ち上がりロボットなんていうやつも、エクスプリシットな目標軌道というのはなくて、コン トローラーと環境が相互作用すると、ああいう動きが出てきてしまうといったタイプです。 (回答) 脊髄反射の1つ上にあるのがリズムジェネレーターなので、ボトムアップの脊髄反射 から来ている僕にもなじみのある考えです。歩行とか、それからスイミングとか、そういうリズ ムジェネレーターは、リフレックスのループに1つフィードバックの結合が増えればできてしま います。そのリズムジェネレーターを、リズムではなくて1周期でストップするような初期条件 で回すとリーチングができる、というようなイメージを持っています。そうすると、回路のパラ メーターの次元数をすごく落とすことができるので、次元の落ちた巨視的なパラメーターだけが 変わるような空間でランダム・ウォークすれば、結構うまく誤差分散を小さくするような波形を ジェネレートするようにパラメーターが調節されるのではないか。と漠然とした期待を持ってい るのですが。 (質問者6) その辺に関する川人さんのコメントみたいなのは。 (川人先生) 言いたいことはいっぱいあるのですが、すごい話です。感激しました。特に最後 のモデルの部分は。僕はやはりもっとばかだから、もっとわかりやすい方法でやっていて、宮本 君と一緒に、まず言いたいことは、ミニマムバリアンスですごく感激して、僕もすごい感激して、 僕はやはり理論家だからすごいくやしくて、僕でも思いついたはずなのに先を超されたと、非常 にくやしかったです。だから、その本音は、トルク変換最小は僕自身はもうあきらめて、トルク 変換最小よりは、ミニマムバリアンスのほうがずっといいモデルだと思っています。ミニマムバ リアンスが最終回答かというとそうでないのはもう実験でわかっていて、中野さんがやっている のですが、人間はミニマムバリアンス解は選んでいないです。ミニマムバリアンスにやはり何ら かの滑らかさが入っていないといけない。僕らは今マキシマム・パス・アチーブメント・モデル でやっていますが、ことしの春から売り出し中なんですけど。それが最終回答だとは言いません けれども。  だから、今、あえて軌道生成のモデルというのは、順番にいいモデルが出てきて、それがある 場合は実験できて、ある場合はコンセプチュアルにリープしたり。だから、ミニマムバリアンス のいいところは何かというと、特に実験を説明するというよりは、コンセプチュアルに今まで僕 らは、スムーズネスがフィットネスよりいいと言っていたのだが、それの本当の意味は、かなり 終端誤差にかかわっているというのを示したところがおもしろいと思うのです。  ミニマムバリアンスのもう1つおもしろいところは、今言われたみたいに、最終端の誤差を見 るだけで、リインフォースメント・ラーニングみたいなことができる可能性がある。宮本君がや っているのは、リカレント・ネットワークで、ミニマムjerkモデルを生成できる、ホップ、アー ビブの神経回路モデルというのがあるのですが、それにちょこっと非線形性をつけて、リカレン トコネクションをつけておいて、そこのシナプス荷重を強化学習をして。ただ、その場合は本当 に当たり前の強化学習で、ウエートをちょっと書いておいて、10万回ぐらい軌道を生成して、 バリアンスを計算して、最急降下方向に動かしていくと。それでいくのですが、それだとあまり にも時間がかかりすぎるので、きのうちょっと話に出そうになったカルマンフィルタをちょっと 非線形に一般化した方法があって、それでやるとかなり短い回数で最適解へいくので、それと北 澤先生が言ってられたのがどう関わるのかなと思って、全然わからなくて、先程から言葉が出な くなっていたのですけれど。  そういう意味で、リカレント・ネットワークで最適解に近いものをだすと、そういう構造です よね、つながっていて。 (回答) ええ。 (川人先生) それはいいのだけれど、でも、そっちのほうがわかりやすい、気持ちがいいとい うのもわかるけれど、または一方で、でも腕だってスムーズ・パーシュートをするし、ターゲッ トが明示的ではない、字を書くような場合もできるわけだし、それはどうするのだろう。やはり 制御の部分と予測の部分と軌道情報の部分が分かれているほうが、同じ逆モデルでいくのではな いかと。それはまたそれで、うちのシャールさんがfMRIで、リズム運動とディスクリート・ム ーブメントで、どちらが広い範囲の脳活動を起こすかと調べたら、ディスクリート運動のほうが 広いのです。だから、先程北澤先生が言われたリズム運動に関しては何か理屈だけ教えたみたい な基本的なものがあって、それで何かその制御をかけて、やはりスタート、ストップとか、軌道 計画とか、あるいはリミット・サイクルを半分でぶった切ったために何かほかのものが入ってく るという描像は結構よさそうなのだけれど。 (回答) ただのリカレントネットワークで字を書くのは無理でしょう。軌道計画とか、歯状核 系がきっちりやるべき仕事はたくさんあると思います。今回のリーチングはネコのレベル、中位 核系を含むループでできる範囲を想定しています。猫は字を書かないですが、早いリーチングは うまいのです。人間はかなわない、大抵ひっかかれます。エラーも本当にバリアンスが小さいの ですよね、猫は。サルもリーチングについては同類かなと。 (司会) よろしいでしょう。では、時間を押していますので、これで終わりにしたいと思いま す。どうもありがとうございました。(拍手) − 了 − 12