てきとうなメモ

本の感想とか技術メモとか

Link Suggester

Link Suggester

Wikipediaのテキストに自動的にリンクを付与するソフトウェア.

もともとWiki自動的にWikiNameをリンクしてくれるものだったと思うけど,WikipediaなどはWikiNameはほとんどなくて編集する人がリンクを指定している.そのため,リンクの数が絶対的に少なくなり,リンクが欲しいところにリンクがないということがよくあるのではないだろうか.このソフトウェアはこのようなリンクすべき語を自動的にリンクしてくれる.

リンクにするかどうかをどのように判定するかというと,このソフトウェアでは良いリンクと悪いリンクを定義して,良いリンクのみリンクにしようとしている.良いリンクと悪いリンクは以下のように定義される.

A good link is usually either :

    * A complex phrase - e.g. There is no such thing as a free lunch. These are easy to
      recognise, because they are long (typically 3 or more words).
    * A proper noun - e.g. North Sydney, Anthony Albanese. These are easy to recognise,
      because they are capitalized, whilst not being at the start of a sentence.
    * An acronym - e.g. NAFTA is a free trade agreement. These are easy to recognise,
      because they are capitalized in multiple letters.

Then there are things that are sometimes worthwhile linking on:

    * Abstract nouns - refers to ideas or concepts - e.g. fraud can be a good link,
      whereas government is probably a bad link. Determining which abstract nouns make
      good links is hard, although we can make some broad generalizations (e.g. abstract
      noun words that end in "-ism" tend to be good links, such as fascism).
    * Adjectives - e.g. blue-collar is a good link, where as the blue in the phrase 
      "the sky is blue" would usually be a bad link. Determining which adjectives make
      good links is hard, as the best links are to infrequently used adjectives (some of
      which are on this list).

Things that are usually bad links:

    * Common nouns - e.g. restaurant, chair, bed.
    * Verbs - e.g. to be, suggesting.
    * As a rough rule, very short links tend to be bad. These are easy to recognise, 
      by rejecting any links less than say 4 or less characters long.

納得できるものが多いが,抽象名詞などは判定が難しいと思われるので"-ism"となるものしか良いリンクとして判定していないようである.