現代魔法を操る世界


by kagurayouyou
カレンダー
S M T W T F S
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

この3日間

【戯言】
この3日間何やっていたんだろ。何もできていない。
GEOが100円レンタルやっていたので借りにいったり、見ていたりしたら、
それだけで終わってしまった気がします。
やっぱ自分に妥協しちゃいますよね。
で今週は眠ってはいけない日が出てくるっと。

どうも暑くて睡眠時間が変になったりして体がだるくなってしまったせいもあるかな。
(健康が理由でしなくてもいいのは小学生までだよ(嘘))
なので朝型の私が2時(26時)に起きていたりとかしています。
しかも頭が働かないのでシステムの名前を考えていたり。
結構まとまってきたけど、実際作っていかないとお話にならないよね。
というシステムばかり。

とこれを書きながら同時に並列機を動かしているんだけど、
このプログラムが4台で5分弱という微妙な長さ。
そして今初めて並列機に蹴られた。
(5分以内に実行できない場合(他人が並列機を使っている場合など)
つまりどちらにしろ5分待たなくてはいけないと言う微妙さ)
なので自動でするプログラムをperlで書いたらかなり便利。
perlを学び始めてかなり良かったです。
perlだと型宣言とかいらないし。
すごく適当なプログラムを作るのに向いていますね。
すぐにfor() system(); sleep;
未だにforeachには慣れませんね。
と書けますし。file openもopen (FILE,">>X.txt")だし。
しかしこういうとperl製作者の人に悪いけど、型宣言してくれると後で見やすいです。
やっぱりインタプリタじゃ遅いし。インターフェースとしては最高。
Rubyを前に少ししましたが、結構そこら辺が重要ですよね。
Rubyはネットワークにより強くなったと言う感じでしょうか。
でも簡単になったせいかRubyで全て書くのは許せない。
Cの方が速いしね。もう一度言うけど、あくまでもインターフェースとして。

で何もやらずに寝る。と。
[PR]
# by kagurayouyou | 2006-07-17 21:40 | 日記
【戯言】
暑くて眠れない。
雑文書いて頭の中を整理。
日記は1日1回と決めていたりするので今書きます。熱い想いを(嘘)

N-gramがどうしても経験的に納得できない。
理論的にはわかるんですよ。
tf-idfとの位置関係が難しい。N-gramは細かいので解析に使って、
tf-idfは抽出に使うってことでいいのかな?
どうも要約の英語論文とかを一生懸命読んでしまったせいでtf-idfに固執してしまう。
Namazuは実際tf-idfではないらしいので、発表になんて言えばいいんだ?
Namazuのスコアはtf-idfにヒューリスティクスな観点で改良したもので良いのか?
工学部、というか研究者にとって一つ一つをこの理論を使用した理論を
言わなければめんどくさい。Namazuは一応信頼ができます。では駄目でしょうね。
そこら辺が私自身が文系だなと感じる部分ですね。っつーか研究者にあるまじき。

で話を戻すんだけど、N-gramの理論は簡単なんだよね。
ただこれってどうやって素性の辞書を作るかわからない。
単純に抽出したN-gramを並べた辞書を作って素性にすればよいのだろうか?
それって理論的には簡単なんだけど、テスト分の辞書は作れないから、
テストのわかちきをN-gram用の辞書のどの部分に合うかを
それぞれif文でしなければいけない。
(まあ、それでも簡単で
for(i=0;i<形態素の数;i++){
while (fgets(....) != NULL) {
if(!strcmp(wakachiki[i],fgetで得た奴)){
fprintf(....)
}
}
}
とかするだけでいいと思うのです。
合ってりゃベクトルの数を+1にすれば良いだろうし。
でもbigramとか意味素が入ってくるとめんどくさいな。つまりunigramの場合と
意味素の言葉そのものがどちらだか混ざる気がする。
まあ、そこら辺は辞書が決まってから目で見て、どこからunigramでとかを
見るのだろうか?
でも今のままだとコーパスがない。
実験用に勝手に取ってくるプログラムを作ったほうが良いかな。
正式なコーパスは今のところNTCIR-WEBのコーパスで私が質問文と答えを作って、
他人に評価したものを使うとはおぼろげながら考えているんだけど、
この場合1000問以上だから厳しいな。

以上質問応答システムの一部分用考え。
ここまで来ると質問応答システムからテーマ変えられないんだよね。
自然言語の皆さん、私に力を!!

精度とかを考えていると他の人の案に乗っかるわけで(まあ学部生なら普通だが)
同じ大学でないので結構不安。ぱくられたとか思われたくないし。

7月も半分過ぎてしまいましたね。
3ヶ月間何していたんだーって悔やみます。なんかしていたんだろうけどね。
って言うか無駄なことに足引っ張られた気がする。
就活していたからかもしれないが、先生への無駄な説得が多かった気がする。
勝手にやって時間に潰してしまっていた方が良かったかもしれない。

並列のプログラムも実験しなければならないし、ちょっとめんどくさい。
3日休みで良かった。結構束縛されるのが嫌いで日誌が一番嫌い。
会社入ってもやらされるんだろうな。他人からの評価を求めるために集中してできない。
(つまり毎日結果が出せるものをしなければならない雰囲気。
実際はその日だけじゃ出ないもの、たとえばプログラムの進行状況。
バグがでたら結果出せないよ。社会人なら残業してするんだろうけど)

ちょっとソケット通信でやり取りできる、VC#のGUIを再び作りたくなった。
って言うかMSも結構VC#を押してくるよね。私にとってはかなり嬉しい。

今月から(?)BLOODのOP・ED変わったんだね。相変わらずカッコイイです。
[PR]
# by kagurayouyou | 2006-07-16 02:04 | 日記

まだ視ぬ世界は羨ましい

【戯言】
TinySVMのPerl版を使用しようとしたらコンパイルエラーでできませんでした。
Perl5.8なんですができませんね。
TinySVMはVer0.09ね。0.04でもいいんだけど、One-Class-SVMが
あるかないかだけだろうと思うし。
いっそのことSVMlibを使うのが手でしょうね。
こういっちゃなんだけど日本の人たちは結構TinySVMを使っているよね。
何でだろう?
世界だとlibSVMが多いと思うんですけど。しかもlibSVMの方が今のところ
いろいろなSVMが使える。
というかTinySVMは開発がとまっている感じがする。
TinySVMとlibSVMではどちらが実行速度が速いとかあるのだろうか?

他の人を見ている限りではできている人もいるようですし、(Perlのバージョン違いで)
しかしどうもエラー文を読んでいる限りではSWIGの自動生成した文が、
駄目なような気がします。通常のCはうまくいっていますし。
SWIGの使い方を学んで再出力した方がいいように思いますが、
昨日だけで何が原因かとか調べるのも合わせれば6時間くらい費やしちゃったし。
なので工藤さんにSWIGをしていただいた方が早いかも。
でこれは昨日のこと。

今日は朝からたまっていたジャンプを8冊ほど読んで、コミックファウストとかも読んで、
今から始めようかと思っています。

でよくよく昨日の帰りに運転しながら考えていたんですけど(あぶねぇなおい)
別にSVMをPerlで動かす必要がないことに気づきました。
まあ動かせるに越したことは無いのですが、別に他の作業の関連もあるし、
Cで作業する部分を書き直せばいいなと思いました。

また話は変わりますが今月は買う本が多い。先週他の本を買うんじゃなかった。
惰性で買っている本をいくつかやめたりしているのですが、お金が足りないな。

で論文では結構SVMが多い気がします(ルールベース除く)
類似度やエントロピーなども良い気がするけどね。
boostingも見所。
私が思うにそれほど工学的観点は変わらないのではない気がします。
ただ単純に微妙な精度が入ってくる。
それよりもどの素性とどの機械学習が合うかというのを考えた方が大事だと思う。
多分まだその領域。
[PR]
# by kagurayouyou | 2006-07-15 15:46
【戯言】
ダンドリ。
今日の新番組。すげえ青春。恋に恋する乙女ですね。
嫌いじゃなくない。

【人工知能・無脳】
今日はコンピュータがらみで成功と失敗が多かった。
P3B-Fの説明書によって電源スイッチピンがわかった。
って言うか見ないとわからないよ。その点GIGABYTEは色付で
(GA-8I945P-Gだけど)場所も基盤に書いてあるのでわかりやすい。
ただディスプレイとか接続していない。
理由は研究室のパソコンでWWWサーバがうまくいってしまったから。

SUSE10.0でApache入れたらRootのディレクトリは動くんだけど、
UserDirが動かなかった。forbiddenで駄目。
でいろいろ探してみるとどうやらconf.dの中にmod_userdir.confを入れると
すんなりできました。おいおい、マニュアル違くない?
default-server.confの下層に書いてあるけど、おかしいしね。
conf.d/apache2-manual?confって書いてあるから。
default-server.confがどうなっているかは今見れないので明日見よう。
まああとはセキュリティ関係とかをしようと思います。
学校のはFTPを外部からつなげないようにするし、
かつHP自体研究室からしか見れないようにします。
一応ある程度開発できたら公開したい…っていうかいろいろツールを使っているので、
GPLとかLGPLとか他の著作権の利権がどうなるか調べないと公開できないので、
(コーパスとかも)
少し公開は遅れるかもしれません。

で失敗はやっぱ新しい方法を考えるのは難しいなと言うこと。
まあ研究だから当たり前なんだけど、すんなりとは思いつかない。
質問応答の精度を上げるためにはたぶん推論システムを入れないともっと上げることは
できないと思います。ただ推論システムもルールベースではなく、
統計でできたら良いですね。
ここまできてSVMではない手法ばかり目が行きます。
でも多分目移りしているだけで、SVMが良いとは思います。
Boostingアルゴリズムの方がいい気がするけどね。
世界の真理が2値で表すことができるとか考えたら、SVMなのかもしれませんし。
そこら辺、どうしようもない。
共同研究っていうか、これやって欲しいという研究がありましたら教えてください。
学部生なのである程度の成果しかできませんが。

[PR]
# by kagurayouyou | 2006-07-11 22:25

回文分解

【戯言】
実験用にP3B-Fという懐かしい機体を使いたいのですが、
スイッチ関係のピンがわからない。一番端っこに見えるがどうも違うようだ。
説明書を本家からDLしているんだが、かなり遅い。1.6kBps。本体4.6MB。
54kbpsの時代じゃないんだぞ。
でもM/Bが壊れている予感。もしくは電源が。

人工無脳の質問応答システムですが、名前決まらなかった。
ザレゴトディクショナルを読んでいたし、
綾南豹(あやみなみ ひょう) 、『回る鈴木』、「凶獣(チーター)」。ちぃくん。
を使おうかと思ったけど、全然良い名前が浮かばない。
質問応答のqaを入れたいのですが、入らない。くぁ。
よくてもqa=「カ」かな。ある意味時事ネタでQaedaか?
Qasmiでカスミとかもあるんだよね。本当はカースミーだし、アラビア系。
Question-Answering System Make the Impossible come true。
とかちょっと苦しいかな。

しかも考えると、このシステム微妙な位置にいるんだよね。
人間が知りたいことを調べてくれると言うシステムは存在が巨大すぎる。
知的欲求に答えてくれるわけだし。
まあ推論システム、思考システムがないのであくまでも探索システムのみだと
考えた方が良いんだけど、探索+思考(ルール)だとすごく人工知能に近い。
この場合探査(シーク)ではない気がする。
シークの場合はIRの方に入りそう。しかも現在のQAシステムではIRに近いし。
そんなこんなで微妙な位置。
他にもありそうなのでまだ探しますけど。

【本】
同人を数冊。
まだ読み終わっていない。

ザレゴトディクショナル 戯言シリーズ用語辞典
西尾 維新 / 講談社
ISBN : 4061824899
スコア選択: ※※※


読み終わりましたが、後味が微妙。
最後だれてません?そんなことない?
本名朝日の説明をしなくてもいいとか、X/Yを自分で考えてくださいとか、結構不親切。
まあ、読者層も読者層なので別に良いかもしれないけど、
もうネタばれって言う興ざめになりそうなことなんだから、答えを出しても良いと思う。
ネットで調べればわかるしね。それともあくまでも解けない人への挑戦かな?かな?
いーちゃんの本名を聞きたいとか言っているんじゃないんだし。
私の中ではある程度の人が推測できる同じ答えはつまらない部類。
ある程度の人が複数の答えを出して、どれが正しいかわからなく、
論争するのが面白い問題。

伊吹かなみの名前は面白いよね。すごい普通の名前そうだもんね。
けど、昔回文で名前を書くのが流行った。
(時代が違うからわからないが、全国的にあると思う)
その時自分の名前がこれだったら嫌だよね。

零崎舞織は出てこなかった。私の中ではお気に入りのキャラなのに。
人間試験だしね。

ニンギョウがニンギョウが欲しいけれど、あの薄さであの価格は高いなあ。
しかし装丁などは良いのでいつかは買いたい。

関係はないかもしれないが、戯言のWikipediaが更新されている。
すごく辞書に近い言葉で。これはありなのか?
いやファンだったら本を買うだろうし。この読者層なら全部書かれても多分買うのだろう。
[PR]
# by kagurayouyou | 2006-07-11 00:42 |
【戯言】
今日から東京へ3日間。
少しゆっくりします。

【人工知能・無脳】
WWWサーバ用にPerlでプログラムを作っているのですが、
結構便利。
やっぱり文字処理とかの処理が格段に違う。
配列関係とか。
Cだったら容量考えないといけないし。
mallocとか使っても簡単には急に項目追加できないからね。

今のところ
Chasenで形態素解析→名詞と動詞のみのキーワード抜き出し
→Cabochaで構文解析。
までは作りました。作ったと言うか。繋げただけですけど。
system関数は結構役に立ちます。
あらかじめコンパイルしたC言語のプログラムを例えば、Hello worldだったら
system("a.out > result.txt");
とかするだけで実行できる。
で実行後結果ファイルを読み込んでやれば、間接的にC言語が使えますからね。

で現在進行中なのが、
1.Cabochaの出力がChasenのようにする方法を調べようとしています。
Cabochaのtest.plを読んでいるとChasenを使っているので、
そのまま形態素解析ができるんですよね。しかし表示形式とかわからない。
単純に調べるだけの作業。

2.Apacheのユーザディレクトリがなぜかfobbiden
SUSEでApacheサーバを立てているのですが、デフォルト(つまりルート)は
うまく表示してくれるのですが、ユーザディレクトリはfobbiden。
SUSEなのでほぼ設定しなくてもいけるはずなんですけど、何がおかしいのだろう。
public_htmlをもう一度作り直してみようかな?
エラーログとかもつけれるようにまだApacheを設定しなくてはいけません。

進行予定なのが
1.TinySVMが、TODOリストに
MultiClass SVM (one-for-all-others, pairwise)をあげているけど、
じゃあTinySVMはどのSVMの理論を使っているのだろう?って言うのを調べる。
もしできているのならば、オプションで選べると嬉しいな。
論文を読むとどうやらpairwiseの方がいいんだろうけど、
one vs restとかの方がサンプルが少ないときに有効らしい。
(当たり前な理論だと思うが、この論文は証明として捉えて良いかな)
かといってどちらが精度高いかなんて事前にわからないわけですよ。
サンプルが少ないって言うのが、どのくらいサンプルを用意すればいいの?
ってことね。SVMの性質上、サンプルを莫大に増やしても良いわけで、
じゃあいかにして人手で普遍的な学習サンプルを書くが問題。
どうすんの?フィードバックで将来はすれば良いのか?
そこら辺の理論も考え中。

自然言語を学ぶ皆さんへ気をつけて欲しいこと。
GA屋やANN屋の人たちが多くいるところで
featureを素性と訳してはいけない。
自然言語屋の人たちはfeatureを素性(そせい)と訳し素性選択とか言ったりする。
が、彼らは特徴と訳す。特徴選択とか、特徴抽出とか。
ちなみに本来なら英語訳はどちらでもOKなはずだ。
あとは専門用語の定義だね。
専門用語というか、日常用語を専門の視点で見る場合、定義が違います。
気をつけろ!!

個人的に思うに(=他の人はどうかしらないが)、
格フレームは最強ながら、合理的ではないと思います。
って言うかルールを作っているのが人手だから当たり前だよね。
SVMのサンプル作るのとどっちが良いだろうか?
コスト的にはSVMの楽。

人工無脳って当たらずとも遠からずな方法だと思うけど、
もちっと研究方向に進んで欲しい。
人工無脳の分野は研究にできにくい。
私の現在研究していることも本来は検索分野からの派生だし。
人工無脳の分野は人工知能に近いのだが、
ロボットが許されるのは機械工学の観点から有用であると認められている部分がある。
人間の動きをして物理的な仕事を真似してくれるなら有用であるとか。
しかし人工無脳は未だに有用であると見られにくい。
つまり、その研究で作られる製品はせいぜい介護や癒しの製品なのだ。
NECのPaperoなんかそうですよね。
将来的には売れるのかもしれませんが、あと数十年しないと受け入れられないし、
(つまり需要がない。ロボットが増えてそこに乗せたい人工無脳に需要がない限り)
でもその時から始めようなんて思ってもしょうがないので人工知能や検索分野に
隠れながらやっているわけですよ。(半笑)(=半マジ)

であとは名前を考えなければエンジンの名前を。
大学に提出するようには、やっぱ大学の名前を則した方が良いでしょうし。
(っつーか大学は迷惑か。というかそれを発表の時言うのも恥ずいな)
まあオリジナルではAIR(私オリジナルの人工無脳シリーズ。
Artificial Intelligence Ruleless。
このままじゃArtificial Intelligence by Ruleって感じだけどね。)
のエンジン名を考えなければ。
ChasenとかMeCabとか、和製もいいかもね。
すげえ下らないかもしれないけど、愛着は湧くんですよ。傍からはヤバイ人ですけど。

さあ、問題は山積みです。
[PR]
# by kagurayouyou | 2006-07-07 08:02
【戯言】
サーバ用パソコンを組み立てようとして中身は組み立てたんですけど、
ケースがない。どうしようケース。この間大量に捨てたパソコンが惜しい。
ケースは重たくて拾わなかったんだよね。
何でケースをひろわなかったっていうとあくまで実験用だったので
別にケースに入れなくても良いという概念が強かったんですよね。
しかし大失敗。
電源がつけられない。
単純にショートさせると言う仕組みながらも何もないとできません。
で拾ってこようと思ったのですが、すでに収集車によって回収されていました。
さてどうしようか考え中です。
ひもつき君なんていいかなぁと思います。
将来的にもコタツで電源つけれたり。

原付ガソリン代10kmちょいとエアコン代+その他電気代を比べたら
どちらが安いのだろうか?つまり学校に行くのと家にいるのってどっちがいいのだろう
と悩む暑い日々。

本屋に行くだけで日焼けした。痛い。

【本】
久しぶりに本を買いました。
バイト代が出たから。
コミックファウストが買えませんでした。
たぶん雑誌コーナーに売っているんだよね?
探すのがめんどくさいので通販にいたします。

dear 8 (8)
藤原 ここあ / スクウェア・エニックス
ISBN : 4757516908
スコア選択: ※※※※※


なかなか良い味がでていますね。
最後の結構ありそうでなさそうな服が描かれているので参考になります。
最後がいいところで終わるので残念。昴の思惑は?
カバーはずしたら書いてある漫画に萌え♪
しかしシチュエーションが格段にレベルが上がった気がするのでとても良い。
[PR]
# by kagurayouyou | 2006-07-02 12:50 |

言語理解を始めます

【戯言】
SUSE LinuxにChasenやCabocha、TinySVMやNeXT TypeCなど
自然言語関係のものをインストール。
ほぼ自然言語で行くことが決まりました。
思うに自然言語処理と自然言語理解は全く違うものではないかなと思います。
うまくは言えないんですが、自然言語処理は文法解析したもので、
自然言語理解はそれを利用して、何をするかかと。
でもそうなると人工知能という分野になってしまいますが、
人工知能という分野はとても広いので、当てはまってしまっているだけだと思います。
研究していて思うことは、やっぱり研究はいろいろなことが関与しているのだな
と思いました。
国語が進まない限り、この研究は不安定で(構文解析とか)
しかもテストを作るために、アンケートとか意見交換とかしないといけないわけです。
つまり人手が必要で、かつ解析するのにはハードウェア的な制限時間も必要で、
なかなか大変です。

本当はWikiも論文系とかツール系とかいろいろ書きたいのですけれども、
なかなか時間が取れません。
いや時間は暇を見つければあるのですけれども、なかなかね。
今週末に大幅更新したいとは思います。
[PR]
# by kagurayouyou | 2006-06-29 07:52

カンニングも実力

【戯言】
英語で苦しんでおります。
NHKのビジネス英会話でも聞けばいいのか?
何をすればいいのかすらわからない。留学は今更できないし。
苦しいプレッシャー。

自然言語のWikiが少しずつ出来上がっています。
XOOPがやっぱり使いたいなぁ。
っつーかWiki編集者手伝って欲しい。
結構大変なので(読みながらだから)それぞれが断片的にしかできない。
サーバでも立てるのか?

物理のテスト中に社会のまとめの紙を見ていて自殺した奴は
半分死んで良なかったと思うね。(←つまりは半分…)
開き直りっていうか、素直に謝れば良いじゃん。
久しぶりにどこが違うシリーズ。
Q.開き直ることと素直になることどこが違う?
A.反省しているかどうか
なんで人生の本番でどっちにも答えが出せないやつとかどうしようもない。
しかもやっていることは卑怯極まりねぇ。
そりゃ誰もが見たいよ。けどそれはルール違反だろ。
ルールはないって?暗黙の了解だよ。マナーだよ。
それが国語のテストだったらどうするんだよ。
実は歴史の評価が出てきているかもしれないジャン。
物理は関係ないって?
気分転換とか、全く別なことから冷静に見直して答えが出てくるなんてざらにあります。
テストを提出してしまっているとかだったらわからないでもない。
それはそいつが物理が得意だと言う証拠の代わりに社会が苦手ということだから。
暗黙の了解にゃ反するけど…。
人生うまく切り抜けようとして卑怯なことして失敗して自殺する奴は自業自得です。
マナー違反は殴られることや問い詰められる責任くらい背負え。
で私はカンニングで切り抜けてます。
[PR]
# by kagurayouyou | 2006-06-17 10:42 | 日記
【戯言】
物を片付けることって私は苦手なんですよね。
あくまでも片付けることで、整理することではありません。
まあよく片付けの言い訳に手に届く範囲にあれば便利ジャンとか、
物がどこにあるかすぐわかるっていう言い訳とかあるけど、私がそれ。
いや本当にわかるんですよ。
まあ、一番はわかっていて不便でないから片付けない。
かつ美的感覚も部屋にはない。ということですね。
私の場合一瞬で視覚の中に入る方が効率がよいのです。
なのでノートとかも行を空けずに書きます。
そっちの方がどこに書いたかすぐ見つけられるから。
ただ美的感覚がそこまでないわけではなく、片付けなければいけないなとは思いながら、
毎日少しずつ片付けてます。しかし物が増える速度の速いかも。
っつーか本が多すぎなんですよね。
たぶん許容量がない。これだいぶ前にも書いたな。

やっとダヴィンチコードを読み終わり。
最後の展開はあれでいいの?っていうかアメリケンくさい終わり方。
まあ読んでいてはスッキリ。
あとブラフマン4巻とか、研究室にある漫画を結構読んでいます。
しかし昔のペースではありませんね。まあ、研究が結構大変だからかもしれませんが。
まとまった時間がないからですからね。

オタクはオタクにしかわからねぇよなと今更思います。
あー抜けられないね。ある意味麻薬中毒者よりひどいね。
なぜなら自分を放棄しないから金を稼ぎ続けて投資するから。
「略。」を読んでいるとそんな感じがします。
まあ恥ずかしいとかそんな羞恥心は残っていますよ。
スポーツとか打ち込んでいないパンピーにあったら、
中途半端なお前らに言われたくねーと言ってやりましょう(すでに負け組)
[PR]
# by kagurayouyou | 2006-06-14 21:42 | 日記