人気ブログランキング | 話題のタグを見る

現代魔法を操る世界


by kagurayouyou
カレンダー
S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

正規分布に従う必要性は少ない

【人工知能・無脳】

自然言語の単語の出現確率などは正規分布に従うのだろうか?

という疑問が今日あった。
少し前まで全ての事象においての確率は、大局的に見れば正規分布に従うと思っていた。
n-gramの重みを正規分布で表そうかとずっと考えていたが、
どうやら多くの事象において違うと言う理論が多いため、
n-gramは正規分布に沿うか怪しい。
ちなみにあくまでも他者の考えを見てn-gramの重みを考えた場合であって、
私自身は正規分布に従わないと考えている。n-gramの出現度は。
と言うのも、正規分布が正負対象な分布であるので、当てはまる言葉が圧倒的に多い、
もしくは圧倒的に少ないと言うのがあると思う。
また、クセが存在するので必ずしも正規分布に従わないというのが私の持論です。
ではどうやって重みを点けるかと言うと、今のところ単純に出現回数における正規化かな
と思っています。
ただこれは最低3-gram以上かなと思っています。
と言うのも、自然言語は前置詞や助詞などが多く入ります。
すると「私は今日朝ごはんを食べました」とすると、
2-gramの場合、「私-は」「は-今日」「今日-朝」などと通常人間は記憶しないでしょう。
3-gramの場合、「私-は-今日」「は-今日-朝」「今日朝ごはん」などならば、
生成を目的として考えた場合、ありえそうです。
(トップダウン的な考え方なので独断です)
とお気づきの方もいると思いますが、これはありふれた(?)手法で、
マーガリン(人工無脳の名)にも使われているらしいです。
ただ、解析には良いのか論文では2-gramは必ず使用されていますね。
これは難しいところです。

解析である場合、2-gramを使用しても問題ないかと思います。
つまりは類似性を求めているわけです。
それならば下手に3-gramを使用しない方がよくなります。
しかし生成である場合、意味の通る文とした場合、できるだけ2-gramを使用しない方が、
良いのです。(生成後に解析して類似性を確かめ、
類似性があるならば意味のある文であるとする場合は違う)

生成の分野は解析の分野より発展は遅れている気はします。(流れから言えば当たり前)
良くてQ&Aの固有表現?
JapanKnowladgeさんの商用(と言っても研究状態)を使ってみましたけど、
やっぱり精度が微妙ですしね。解析精度の各箇所の精度を90パーセントずつに持ってきて、
生成で70パーセントに持ってこないと意味が無いです。
多分今40パーセントくらいだった気がします。
(それでも10回に4回ですごいかも知れないが結構限定的だし)
(あらゆる質問文には1パーセントにも満たないのでは?)
(つまり質問が複雑なのを多くする時)

翻訳ソフトの例で、人間が機械に合わせると言うのもいいですけれど、半々ですね。
陳腐になってしまいますから。
本当にそして欲しい答えは得られない気がする。

つまりは学習器をいくつか用意しておくのが良いのかもしれません。

あとSVMはlearnとか良く使われ学習とか呼ばれますが、
学習は単純にαを求めるために使われるので、本当に学習か?
と言う疑問。
αを入れて計算する部分が学習かもしれない。
いやいいのか?
ちょっと今は判断がつきません。
by kagurayouyou | 2006-10-17 22:58