« November 2008 | Main | November 2009 »

Diracの拘束系の正準理論の解説で私が読んだのは
九後(九後汰一郎、ゲージ場の量子論I、培風館、1989)と
大貫(大貫義郎、解析力学、岩波書店、1987)だ。
同じ内容だと思い込んでいたけど、微妙な違いがあることに気がついた。他の人が轍を踏まないために註釈しておこうと思う。

拘束系ではハミルトニアン H に拘束条件φaに未定乗数λaをかけたものを加えた
  H +λaφa
をハミルトニアンの代わりにつかう。(これはハミルトニアンの変分をするときに拘束条件を守る必要があり、その都合でラグランジュの未定乗数法を使うからだ。)

で、問題はこの+λaφa 項に2次拘束条件が入るか入らないかである。大貫では2次拘束条件は入らない、九後では入っている。

ただ九後でも「2次拘束条件を入れる」と明言している訳ではない。p151(20)式の前で M = M1+M2+...と書いてあってM1が一次拘束条件の数なので(20)式に自動的に入っていると推察されるだけだ。しかし一方「上の(16)から(19)までに至る操作をもう一度行う」とアルゴリズムが書いてあるこの(16)から(19)までの間に+λaφaの付加は入っていないのだからむしろ2次拘束条件には加えないようにも読める。

どちらが正しいのか確信を持って言えるほどに精査する時間はないが、多分入れないんじゃないかな。なぜならHの定義式
  H = dq/dt ×p - L
からdq/dtを消去するには拘束条件を使わなくてはならないからHの定義自体が1次拘束条件が前提になっている。だから変分に1次拘束条件の考慮は必要である。しかし2次拘束条件はこのHと1次拘束条件から導かれるものだから、また新たに強制する必要もないような気もする。あともう一つの理由は、前に良く理解しないで2次拘束条件も加えて計算していったらなんか変なことになったことがあるような気がする。

しかし、どちらもゲージ変換について議論するときは1種拘束条件であれば2次拘束条件にも未定乗数がつく。九後ではすでに入っているものがそのままになっているようである。大貫はゲージ変換のalgebraから新たに未定乗数をもって加えてもよいgeneratorを探して加えている。この加えてよいかの条件をDiracのtest、Diracのtestをパスするものが1次拘束条件の全と一致することをDiracのconjectureと呼んでいる。

Diracがオリジナルになんと言っているか調べている時間は申し訳ないけどない。原典は以下である。

P.A.M. Dirac, Can. J. Math. 2, 129(1950)

P.A.M. Dirac, Generalized Hamiltonian dyanmics, Proc. R. Soc. A246, 326 (1958)

P.A.M. Dirac, Fixation of Coodinates in the Hamiltonian Theory of Gravitation, Phys. Rev. 114, 924 (1959)

P.A.M. Dirac, Lectures on Quantum Mechanics (Belfer Graduate School of Science, Yeshiva Univ., 1964)

| | Comments (0) | TrackBack (0)

情報量の有用性、補正、ビニング


「補正」が必要なのは、モデル化が不充分である証拠
より (pooneilの脳科学論文コメント)

怪しいところをwebで確認したりせずに書いた。もうしらない。厳しくせずに、褒めて伸ばしてほしい。

こう書いてあると、ちょっと絡みづらいな。だからコメントに行かずここでやることにします。それにどっちかというと自分の意見をclarifyする触媒として使わせてもらうという意味もあるのでここでやる方が適切かと。(出所を明示すれば引用は自由です。)

んでずっと放置してたんだけど、この「補正」という発想がポイント(ガン、って書こうと思ったけど、これっていまどきpolitically incorrectですかね)なんではないかと思ったんです。つまり、「補正」が必要なのは、モデル化が不充分である証拠。

というような問題意識を感じているようです。

んで、翻って、おなじような解決法が「ニューロンの発火の解析関連での情報理論の応用」でも見られないかなと思うんです。ここはたぶんベイジアンですよね。というのも、「少ない試行数だと、試行間のvariationの分だけ情報をoverestimateしてしまう」というのは、fittingにおけるoverfittingの問題とたぶん等価もしくは相似ですよね。

うーん。有限サンプルから分散を求めるとき
  1/N Σi (xi -〈x〉)^2
とするとまずいというのはよく知られていると思います。かわりに1/N -> 1/(N-1)と補正しますね。大まかに1/N補正になっています。情報量の補正公式もこれと同じ事できわめて自然なことです。この補正公式にoverfittingという言い方はちょっとしっくりきません。無理に言えばoverfittingの一種と言えないこともないけど。(平均値がサンプルにoverfitしている。)

分散のこの補正をする事をモデル化が不十分だからととらえる人はいませんよね。むしろ対象の性質がよく分かっているから一撃で計算できる「補正公式」を求めることが出来るわけです。むしろニューラルネットとかベイズにたよる方が対象の性質がよく分かってないときにやることです。だから補正公式があることをモデル化が不十分だからととらえるのはおかしいと思います。

分散の補正公式と情報量の補正公式の類似性をもう少しだけ詳しく言います。(すこしいい加減な式ですが)情報量の式の中に
  Σi pi log pi
みたいな部分がありますね。これは pi がpに近くて pi = p + Δpiとかける時には
  pi log pi = (p + Δpi) log (p + Δpi) ~ p log p + Δpi (log p +1) + (Δpi)^2/p + ...
となります。Δpiの一次の項は i について平均するとゼロです。で2次の項の平均はまさに分散のような形をしています。だから分散と同じように 1/Nの補正が必要になるわけです。

情報の補正公式(Treves-Panzeri)は難しいと思われているようですが、やっているのはこういうことを丁寧にやっているだけです。

(PRML本の第一章読んだのでかぶれてる…) Overfittingの場合も、データのnが少ないときに推定値の分散を考慮していないためにバイアスが出る、というのが元凶でした。 ペナルティの項を与えるっていう発想はちょっと「補正」の発想に似ていていやな気はするけど、試行数を明示的に入れた上で相互情報量やKL-divergenceのことを考える、というとベイジアン的な取り扱いをするということになりますよね。そういうのってあるんだろうか。たぶんあるんでしょう。よく知らないけど。なかったら作るべきだ。

「ベイジアン的な取り扱い」なら多分すでにありますよ。まさにそのPanzeri & Treves, Network 8 (1996) 87-のFigureのなかで四角いやつがBaysianを使ったestimateです。たしかに(合成データに対して)件の補正公式よりbetterな結果を出しています。(それにも関わらず彼らが補正公式を推す理由は次のベイズに対する懸念を私と共有しているからでしょう。物理をやっていた者の思考として自然だと思います。)

しかしそれはともかく、一般論として実験データの解析にベイジアンとかを使うのには私はあまり賛成しません。大局安定性のないアルゴリズムを解析の途中に使うと結果が制御できなくなって危険です。解析の途中で何が起こっているか人間が説明できないようななものを解析に使うべきではありません。
(脳のモデルとしてベイジアンは問題ないと思います。解析の途中の手段として使うのが問題です。)

相互情報量の「補正」なんかしてないで、このレベルから捉え直すべきだ。たぶんbinの問題(binの存在を前提としていること、binの中に必ずデータが入っているようにbinを切らないといけない)もここで解消すべき問題なんではないかと思います。

binはわたしも良くないと思っています。この問題意識から、一切binをとっぱらってしまうことを提案しました。ちょっと考えると、binがない(発火した/しなかったのみ)だと多数の刺激を区別出来なくてデコードできる情報量が減りそうに思えます。そのことがbinを使う定義を提案させたのでしょう。しかし、現実的な場合ではむしろbinを取っ払ったほうが沢山の情報量をデコードできることをここに示しました。だとするとbinの存在意義などありません。

そもそもわたしの分野で、真の意味で情報理論的取り扱いをする必要がある部分はどこにあるのか(反応選択性の指標代わりとかぢゃなくて)、というあたりが問題だったりもします。

将来的にはあると思います。

最近そういう論文が増えて来ましたが、行動の観察から脳が最尤推定をしているとかベイジアンの推定をしているという証拠はいくつも集まって来ています。つまりこれは脳が確率論的な最尤の計算をしていると言うことで、脳の中には確率に関するシグナルが飛び回っていることを意味します。従って脳の働きを理解するには確率論の言葉で理解する必要があります。そして、情報理論というのは大サンプル数の時の確率論のある一側面です。当然、脳を理解するには情報理論の観点から見る必要があります。

あと、ぶっちゃけ情報量の利用はプラグマティックな意味でも役に立ちます。

ニューロンの発火データを処理していてしばしば困るのが、発火数がべらぼうに多い細胞とかがいて平均を取っても、分散をとってもごく少数の細胞が引っ張ってしまって解析結果が荒れることです。そのために様々なad hocな足切りやその他を入れて、今度はそれを正当化するための理屈を考えてとなります。

しかし情報量を使うと不思議なくらいそういう必要はなくなります。結果は大抵きれいになります。


一方、我々はデータの解析をするときに、ニューロンの発火数を、異なる細胞間で平均したり足したり、大小を比べたり差を取ったり、分散を計算したりします。しかしそれには原理的な問題があります。異なるニューロンの発火数というのは互いに関係がありません。異なる物体でも質量のような示量変数は足したり比較したりすることは意味があります。しかし反対にそうでない変数は意味がありません。例えばテレビのR信号と水平発振ののこぎり波を足してもなんの意味もありません。コンピュータや信号処理回路は典型的にこうなります。そして当然脳も同じ事です。

それに対して情報量はきちんとした示量変数なので細胞間での加算や比較が意味を持ちます。


おそらく前者のプラグマティックな良さと、後者の原理的問題は関係していると思います。平均に必要な加算や検定に必要な大小比較(ないし減算)をやってはいけない量同士(=異なる細胞の発火数)に対してやっているから解析が暴れるのだと思います。

| | Comments (3) | TrackBack (0)

« November 2008 | Main | November 2009 »