てきとうなメモ

本の感想とか技術メモとか

自然言語処理を用いた検索エンジン

入力した質問に対して答えを返すような検索エンジンGoogle Q&A以外にもいろいろあるっぽい.その一つがhakiaである.

The basic promise is to bring search results by meaning match - similar to the human brain's cognitive skills - rather than by the mere occurrence (or popularity) of search terms. hakia's new technology is a radical departure from the conventional indexing approach, because indexing has severe limitations to handle full-scale semantic search.

http://www.hakia.com/about.html

インドの人口は何人?という質問をすると,ニュースのヘッドラインや基本情報,国のプロフィール,政府と政治などに分類されて表示される.基本情報を見るとインドの人口がsnippetとして現れている.ただ,Google Q&Aほどピンポイントで表示してくれるわけではないようだ.速度も今のところ申し分ない.

似たような物としてpowersetがある.

Our unique innovations in search are rooted in breakthrough technologies that take advantage of the structure and nuances of natural language. Using these advanced techniques, Powerset is building a large-scale search engine that breaks the confines of keyword search.

http://www.powerset.com/about.html

まだインターフェースは公開されていないがPARCがやっているらしい.

ただ,批判的な意見もある.

Besides, Google's own approaches for delivering answers show that it's hard to give a single relevant answer for most queries, which are by default ambiguous. Google is rather inclined to use its huge corpus and apply statistical algorithms instead of using grammar rules. Peter Norvig, director of research at Google, says: "I have always believed (well, at least for the past 15 years) that the way to get better understanding of text is through statistics rather than through hand-crafted grammars and lexicons. The statistical approach is cheaper, faster, more robust, easier to internationalize, and so far more effective." Google uses statistics for machine translation, question answering, spell checking and more.

http://googlesystem.blogspot.com/2007/02/powerset-natural-language-search-engine.html

速度の問題や精度の問題を考えるとGoogleの意見は一番現実的であるけれども,こういうのは研究開発して使っているうちになにか面白いことがわかるかもしれないのでがんばって欲しい.