脳型情報処理機械論10-2：予測符号化と能動推論を活用してロボットの心と技を高める。

2021年12月11日
2021年12月11日
大学院
脳型情報処理機械論, 予測符号化, ニューロ・ロボティクス, 階層型強化学習モデル
161view

大学院

1 はじめに
2 OISTの谷研究室の研究目標
3 ニューロ・ロボティクス
4 社会認知的ニューロ・ロボティクス
5 階層型強化学習モデル
6 自己・意識・自由意志
7 動的視覚のための予測符号化
8 一般知能を目指したニューロ・ロボティクス
9 まとめ

はじめに

12月10日に「脳型情報処理機械論」の第10回講義を受講した。講師は沖縄科学技術大学院大学(OIST)の谷淳教授だ。テーマは「予測符号化と能動推論によるロボットの心」だった。講義は時間通りに始まったけど、谷教授の講義はどんどん熱を帯びて終了時間を超えてクライマックスを迎えるのを國吉教授が時間を気にしながら見ていたのが可笑しかった。谷教授のプロファイルや研究分野などは前回の投稿を参照してほしい。今回は、谷研究室の概要をベースにしながら今回の講義のポイントを概観したい。

その１：講義の予習　（前回の投稿）
その２：講義の概要１（⇨ 今回の投稿）

OISTの谷研究室の研究目標

谷研究室の目標は、４歳児までの乳幼児の一般的な認知心の発達を合成ニューロ・ロボティクスの実験を通じて再構築することだ。この志は、第8回の講義を担当された長井志恵教授とも共通する。國吉教授は、「胎児からの発達原理の解明に基づく発達障害のシステム的理解」を研究されていて、その意味でもこの辺りの想いは共通しているのだと思う。谷研究室では、予測的コーディングと能動的推論の枠組みの下で合成ニューロロボティクスの実験研究を行い、身体化された認知と心の原理を理解しようと研究されている。知覚・行動・思考の構成性が、発達段階に応じた行動経験の統合学習によってどのように獲得されるのか、自己と他者を認識する社会的認知が、他者との内的・文脈的な相互作用によってどのように発達するのか、意識や自由意志の現象性がどのように科学的に説明できるのかなど研究テーマには事欠かない。

（出典：OIST)

ニューロ・ロボティクス

ニューロ・ロボティクス(Neurorobotics)とは、人間の脳神経やロボットAIなどを組み合わせた学問であり、自律的な神経システムを実現するための科学と技術だ。ニューラルシステムには、脳にインスパイアされたアルゴリズム、生体ニューラルネットワークの計算モデル、実際の生体システムが含まれる。つまり、脳は具現化されたものであり、身体は環境に埋め込まれているという考えだ。このため、多くのニューロ・ロボットは、現実の世界で機能することが求められる。谷研究室では、リカレントニューラルネットワーク(RNN)を用いたニューロ・ロボティクス関連技術として、予測符号化や能動的推論などを研究してきた。最近では、ピクセルビデオ画像とヒューマノイドロボットの固有感覚(proprioception)の連想・統合学習や、予測符号化にインスパイアされた変分ベイズRNNモデル（PV-RNN:predictive-coding-inspired variational Bayes RNN model)についての研究を進めている。

(出典：OIST）

社会認知的ニューロ・ロボティクス

谷研究室では、ロボットと人間、ロボットとロボットの相互作用(Interaction)に関する実験を通じて、社会的認知に関する神経心理学的メカニズムの可能性を探っている。特に、予測符号化と能動的推論のフレームワークを用いて、人とロボットがどのように総合に作用するのかを研究する。

(出典：OIST）

階層型強化学習モデル

階層型強化学習(HRL：hierarchical reinforcement learning)とは、エージェントが観測可能な環境に対する適切な行動系列を確率的に学習する機械学習手法の一つである。エージェントは設計者が環境に設定した報酬をもとに、それを最大にするような行動を選択するように学習する。階層型強化学習モデル(HRL)を開発することで、生涯学習の実現を目指している。このモデルは、積層型RNN(stacked RNNs)の各層で神経活性化ダイナミクス時定数と割引係数の値が異なる多重タイムスケール特性を特徴としている。また，探索行動を生成するために，運動出力だけでなく，内部のすべての神経ユニットにも確率的なダイナミクスを用いている。なお、階層型強化学習(HRL)における2つの課題は、サンプル効率が悪いことと汎用性がないことだ。こに対応するために、HIRO(HIerarchical Reinforcement learning with Off-policy correction)と呼ばれる手法が提案されている(出典)。このHIROでは、Off-Policy Correctionと呼ばれる手法を提案し，off-policyでの学習を実現したことと、下位方策の状態空間を上位方策の状態空間上に定義することで人間によるタスク特化の内在的な報酬の設計をなくしており、これによりHLRの課題を解決している。

(出典：OIST）

自己・意識・自由意志

谷研究室では、自己意識(sense of self)、意識(consciousness)、自由意志(free will)に関わる主観的経験を、合成ニューロ・ロボティクス(synthetic neurorobotics)研究による統合的な理解を目指している。無意識的な自己意識は特段の心理的や肉体的な葛藤がない状況でスムーズに機能するが、意識的な自己認識は、脳から発するトップダウン的な行動と、その結果としての知覚的行動にギャップがあるときに発生すると理解される。意識的な行動とは、何らかのこのギャップがあり、そのギャップを最小化するために働くという見方であると言える。谷教授は、講義のまとめの中で、「現象的な意識(Phenomenological consciousness)として、Fを最小化した非対立的な状況は、習慣化されていて、意識の関与が低い。一方、対立する状況では、Fを最小化するようにより意識的、意図的に努力する。」と説明している。

(出典：OIST）

動的視覚のための予測符号化

谷研究室では、予測コーディングフレームワークで動的な視覚パターンを生成するだけでなく、認識することができる新しいリカレントニューラルネットワークモデルを提案している。それは、予測型複数時空スケールRNN(P-MSTRNN:the predictive multiple spatio-temporal scales RNN)である。このモデルの特徴は、神経ユニットのダイナミクスに複数の時空間スケールが課せられており、それを通じて模範例からの学習によって適切な時空間階層が発達することである。変分RNNが体現された心のモデル化に重要な理由とはアナログ計量空間におけるトップダウンの主観的な心とボトムアップの感覚的な現実の間のシームレスな相互作用であり、変分ベイズは事前と事後の間の適応的な精度や弾性のあるダイナミックな相互作用を示す。

（出典：OIST）

一般知能を目指したニューロ・ロボティクス

谷研究室では、高次認知に必要な脳のメカニズムをロボット実験を通して総合的に理解しようと試みている。人間の脳の局所領域間の結合性データを利用して、LSBN(Large Scale Brain Network)モデルを構築する。脳の認知機能は、太一の脳領域が単独で作動するのではなく大規模なネットワークで作動する分散型の脳領域の総合作用によるものと理解されている。大規模な脳ネットワークにおける認知を理解するには、認知機能が脳の中核的な構造的・機能的ネットワークでどのように作用するかを理解する必要がある。ヒューマノイドロボットの認知機能を分析する場合にも、単に特定の認知タスクを得意とするロボットを育成するのではなく、一般的な知能が必要とされる様々な認知タスクを同時に実施するようなロボットの育成を目指す必要がある。このため、前頭前野、前運動野、側頭前野、頭頂葉、感覚周辺領域などの主要な皮質領域に焦点を当てたプロジェクトが検討されている。

（出典：OIST）

まとめ

そろそろ講義もあと３回だ。レポートは、A41枚程度で「13回の講義のうち最も興味深かったテーマを一つ選び、そのテーマにおける他のグループでの研究内容を調べ、それぞれを対比しながら学生の意見をまとめる」という内容だ。これに対応するには、まずどのテーマがもっとも興味深かったか、そのテーマがなぜ興味深かったのか、そして、他のアプローチや他の研究方法との対比をしながらまとめる必要がある。これは難易度が高い。悩ましいのはトップダウン方式か、ボトムアップ方式かだ。つまり、トップダウンとは文字通りまず興味深いテーマを選び、その研究内容を他の研究と比較する方法だ。ボトムアップは、対比できそうなテーマを選定して、その中でもっとも興味深いものを選ぶ方法だ。本来は前者で進めるべきだけど、後者の方が効率的かもしれない。例えば、今回のように、HLR方式とHERO方式を対比するような方法だ。でも、これは本当に13回の講義で最も興味深かったのかを自問自答する必要がある。

以上

最後まで読んで頂きありがとうございました。

拝