現代魔法を操る世界


by kagurayouyou
カレンダー
S M T W T F S
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

<   2008年 03月 ( 2 )   > この月の画像一覧

久しぶりにSVM

SVMの話で未だに検索されて来ていただいている方が居ます。
#BLOGでは検索語調査をさせていただいています。
ありがとうございますm(_ _)m

と言っても今度のNLP2008ではSVMは見たところ下火な感じですね。
私もここ最近は同人の方や別のことに力を入れてしまい、SVMは全然手をつけていません。

と言いましてもSVMのことはたまに考えています。
技術的なレベルではなく基本構想の部分ですが。
最近は多クラスと情報量について考えています。

自然言語処理の場合、実用的に使用するためには
どうしても多クラスで分類する必要があるのです。
問題はまずSVMのようにそれぞれ2次元で分類してから、最終的に多クラスに分類するのは、
そもそも最適なのかどうかです。(一対多、トップダウン、ボトムアップなど)
で思うに、最適なものを選ぶには目的によって違うのではないかと言うことです。
機械処理はさまざまなパラメータや要因(入力値)によって、結果が変わってきますので、
一概には言えませんが、人が言葉を記憶する場合、まずは近いグループを形成して、
さらにそこから厳密に定義していくのではないでしょうか?

で以下最近考えた自分流の最適化方法。(誰かがすでに考えているかもしていません)
SVMの計算では最も距離が近いものを選択していきますが、
ここを最も距離の遠いものをはずしていくと言う作業に切り替え
A,B,CとグループがありAを見つけたい場合、
まずはA対B、A対Cで、最も外れていそうな物を選びます。(Aに近いグループの形成)
上記の計算から、最も外れていそうなB,Cの中の値を削除します。(Aに近いグループの形成)
その次にA対B,C(一対多)で=Aに近いグループからの厳密な分類。
(厳密な分類にSVMが的確かどうかは検討の余地はあります。)

計算時間はかかると思います。
精度はどうなるか実験してみないと分かりません。
(本当は論理的に言えればよいのですが、機械処理で論理で証明するのは難しいですね)

ここで問題が出てきます。
SVMは元々遠い値(外れている値)は削ってしまうのでは?と言うことです。
理論上はそうなはずです。
しかし実際計算させるとき、カーネルの問題で、
厳密な分類をさせやすいカーネルを使用することに変えたりすることで、
精度と高速化をトレードオフさせながら計算できるのではないかと思ってます。

結局はやってみなければわからないということなんですけどね。(^^;
[PR]
by kagurayouyou | 2008-03-09 01:30 | 研究-自然言語
c0023267_2050511.jpg


C74に申し込みました。
社会人になってから忙しくなりました。
しかしこのまま忙しいだけで終わりたくはありませんでした。

何がしたいのか?
それを考えて行き着いた結果の一つ。
まずは同人を書いてみよう。

久しぶりにいじったExciteブログは大分変わっておりました。
またホームページもいじっていこうと思います。
[PR]
by kagurayouyou | 2008-03-01 20:58 | 同人