てきとうなメモ

本の感想とか技術メモとか

NLP

SimStringメモ

SimString どうやって高速化しているのか気になったのでメモ。基本的には辞書となるキーワードリストに対して、n-gram→キーワードのID(SID)のリストのマッピングをCDB(Constant Database)に保存しておいて、そこから入力文字列のn-gramを含むSIDがいくつn-gr…

日本語文字コード認識のテストレポートらしい

NLP

興味深かったのでコピペ. 88 :デフォルトの名無しさん:2009/10/20(火) 10:36:29 日本語の判定テストレポート 対象ソフト。 universalchardet-1.0.3 http://code.google.com/p/juniversalchardet/ icu4c-4_2_1 http://site.icu-project.org/ nkf-2.0.9 htt…

uroboe

NLP

カタカナから英単語に変換するサービス.totowaの中の人が作ったようだ.とゆうか,aboutページが「totowaについて」となっているし. お,ヒットした. なんか重複してる. Dozen Vedaって何だろ….スペルとカタカナ語の比較はやっていないようで,全く似て…

infony

あるサイトのテキストをmecabで形態素解析してキーワードを表示する.で,そのキーワードをwikipediaやはてなキーワードで検索して意味を表示するサービス. で,紹介されたいたマイコミジャーナルの記事でやってみるとこんな感じ.そこそこうまくいっている…

Googleの日本語データの続き

聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然 参加された方が詳細を記述している.英語だと1〜5-gramのwordの統計データを利用できるのだが,日本語のデータは係り受けの情報も入るかもしれないようだ.主語と動詞…

googleが大規模日本語データを公開

Error 404 (Not Found)!!1 たしか英語のデータは少し前に公開したという話があったけども,日本語のデータも公開するかもしれないようだ.via Googleが大規模日本語データを公開するという話 - www.textfile.org

自然言語処理を用いた検索エンジン

入力した質問に対して答えを返すような検索エンジンはGoogle Q&A以外にもいろいろあるっぽい.その一つがhakiaである. The basic promise is to bring search results by meaning match - similar to the human brain's cognitive skills - rather than by …

MacOSXでのMecab.pmのインストール

[boscono@luna mecab-perl-0.81]$ make g++ -c -I/usr/local/include -g -pipe -fno-common -DPERL_DARWIN -no-cpp-precomp -fno-strict-aliasing -I/usr/local/include -Os -DVERSION=\"0.81\" -DXS_VERSION=\"0.81\" "-I/System/Library/Perl/5.8.6/darwin…