人気ブログランキング | 話題のタグを見る

現代魔法を操る世界


by kagurayouyou
カレンダー
S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

うざくてうざくてどうしようもないのに、必要とされている

【戯言】
暑くて眠れない。
雑文書いて頭の中を整理。
日記は1日1回と決めていたりするので今書きます。熱い想いを(嘘)

N-gramがどうしても経験的に納得できない。
理論的にはわかるんですよ。
tf-idfとの位置関係が難しい。N-gramは細かいので解析に使って、
tf-idfは抽出に使うってことでいいのかな?
どうも要約の英語論文とかを一生懸命読んでしまったせいでtf-idfに固執してしまう。
Namazuは実際tf-idfではないらしいので、発表になんて言えばいいんだ?
Namazuのスコアはtf-idfにヒューリスティクスな観点で改良したもので良いのか?
工学部、というか研究者にとって一つ一つをこの理論を使用した理論を
言わなければめんどくさい。Namazuは一応信頼ができます。では駄目でしょうね。
そこら辺が私自身が文系だなと感じる部分ですね。っつーか研究者にあるまじき。

で話を戻すんだけど、N-gramの理論は簡単なんだよね。
ただこれってどうやって素性の辞書を作るかわからない。
単純に抽出したN-gramを並べた辞書を作って素性にすればよいのだろうか?
それって理論的には簡単なんだけど、テスト分の辞書は作れないから、
テストのわかちきをN-gram用の辞書のどの部分に合うかを
それぞれif文でしなければいけない。
(まあ、それでも簡単で
for(i=0;i<形態素の数;i++){
while (fgets(....) != NULL) {
if(!strcmp(wakachiki[i],fgetで得た奴)){
fprintf(....)
}
}
}
とかするだけでいいと思うのです。
合ってりゃベクトルの数を+1にすれば良いだろうし。
でもbigramとか意味素が入ってくるとめんどくさいな。つまりunigramの場合と
意味素の言葉そのものがどちらだか混ざる気がする。
まあ、そこら辺は辞書が決まってから目で見て、どこからunigramでとかを
見るのだろうか?
でも今のままだとコーパスがない。
実験用に勝手に取ってくるプログラムを作ったほうが良いかな。
正式なコーパスは今のところNTCIR-WEBのコーパスで私が質問文と答えを作って、
他人に評価したものを使うとはおぼろげながら考えているんだけど、
この場合1000問以上だから厳しいな。

以上質問応答システムの一部分用考え。
ここまで来ると質問応答システムからテーマ変えられないんだよね。
自然言語の皆さん、私に力を!!

精度とかを考えていると他の人の案に乗っかるわけで(まあ学部生なら普通だが)
同じ大学でないので結構不安。ぱくられたとか思われたくないし。

7月も半分過ぎてしまいましたね。
3ヶ月間何していたんだーって悔やみます。なんかしていたんだろうけどね。
って言うか無駄なことに足引っ張られた気がする。
就活していたからかもしれないが、先生への無駄な説得が多かった気がする。
勝手にやって時間に潰してしまっていた方が良かったかもしれない。

並列のプログラムも実験しなければならないし、ちょっとめんどくさい。
3日休みで良かった。結構束縛されるのが嫌いで日誌が一番嫌い。
会社入ってもやらされるんだろうな。他人からの評価を求めるために集中してできない。
(つまり毎日結果が出せるものをしなければならない雰囲気。
実際はその日だけじゃ出ないもの、たとえばプログラムの進行状況。
バグがでたら結果出せないよ。社会人なら残業してするんだろうけど)

ちょっとソケット通信でやり取りできる、VC#のGUIを再び作りたくなった。
って言うかMSも結構VC#を押してくるよね。私にとってはかなり嬉しい。

今月から(?)BLOODのOP・ED変わったんだね。相変わらずカッコイイです。
by kagurayouyou | 2006-07-16 02:04 | 日記