てきとうなメモ

本の感想とか技術メモとか

Googleの日本語データの続き

聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
参加された方が詳細を記述している.

英語だと1〜5-gramのwordの統計データを利用できるのだが,日本語のデータは係り受けの情報も入るかもしれないようだ.主語と動詞の関係とかはn-gramではなかなか出てこないからなあ.京大コーパスみたいな感じが研究者にはうれしいのではないかと.いろいろ使えそうだし.ただ,著作権的に大丈夫なのかは不明.京大コーパスは大丈夫らしいのだが,元のデータを復元可能ではないかという点でなんで大丈夫なのかよくわからない.

どのような解析済みデータが良いのかについて

Googleの考える現時点での提供データは,以下のデータを頻度およびデータサイズで足きりしたもの.

    * 単語N-gram(文字のN-gramではない)
    * 文節係り受けの部分木
          o 係り元と係り先のペア
          o 係り関係のチェイン
          o 係り元の兄弟関係を付加したもの
          o その他(ある程度の頻度がある部分木のパターンをとにかく全て出す etc.)

まあ,こっちの方が無難だよな