2010年1月2日土曜日

Google日本語入力が使い易くならないかなあ

1ヶ月前の2009年12月3日にGoogle日本語入力がβリリースされたが、
ちょっと使ってはみたものの、すぐにATOKに戻してしまった。
だって使いづらいんだもん。

何が使いづらいって、文脈に沿った単語に変換してくれない事です。
たしかに、Googleの検索クエリを元にした辞書の語彙力はすごいし、
「Googleサジェスト」や「もしかして」を元にしているであろう、
予測変換候補はおもしろいのだが、
いかんせん突拍子もない変換候補が出てくるので、
ATOKのように徹底的に辞書をカスタマイズし、
文脈に沿った変換をしてくれるようなIMEほどの実用性は無いかなあ。

でも、きっとGoogleさん(つーか小松さん)なら、きっと文脈に沿った単語変換とかもサクサクッと実現してくれるはず。
専門家じゃないのでド素人発言で恐縮ですが、
文脈に沿った単語変換って、要するに
「ある単語同士は同じ文章中にセットで出てくる事が多い」
みたいな単語同士の相関関係を統計的に分析する事で得られるもんだったりして。

そういう分析ってGoogleさんのお得意分野じゃなかろうか。
Web上に存在する膨大なドキュメントのキャッシュと、
それを処理する巨大な計算資源を持っているのだから。

きっと、Googleでキャッシュしている各Webページには、
検索用キーワードのインデックスが存在しているはずなので、
Webページ毎にキーワード間の相関関係マトリクスが作れるはず。
後は、全Webページの相関関係マトリクスの総和を求めればOKかと。

仮に単語同士の相関関係を分析してマトリクスを構築できたとして、
それをどうやってIMEの変換候補に組み込むか?ですが、
単にIMEの直近の変換履歴をキーにして相関関係の強い単語を上位候補にすれば良いと思います。

って、おいらが思いつく程度の事は、
きっとすでに思いついている、
もしくは試している、
もしくは試した結果ダメだったことが判明している、
とかだろーなー。

何となく、まだ小松さんが修論でやってたKukura (句倉) に近い仕組みに留まってる気がする。
でも、7年も前に今のGoogle日本語入力くらいの実用性があるIMEの仕組みを思いついてたってのは、やっぱりすごいなー。
あと友人のタカミヤ君が言っていた
「Google日本語入力のすごいところは、Googleの膨大なデータを利用すれば、少人数でもそこそこ実用的なIMEを開発できてしまう事を証明した」
ってところもうなずける。
なんだかんだ言って、Google日本語入力には期待せざるを得ないのだよね。

ATOK並に使い易いIMEを作ってくださいGoogleさん(つーか小松さん)。
期待してます。

3 件のコメント:

  1. お久しぶりです。その後、切腹はどうですか?

    何か具体的な例をいただけないでしょうか。ともあれ、「レンジで解凍」「テストを回答」ぐらいのことはしています。

    返信削除
  2. あ、お久しぶりです。
    切腹については、恥ずかしながら生きながらえております。
    相方は変わってないんですが。。。

    具体的な例かー。
    そうですね-、文節の区切り方とかでたまにイラッとする事がありましたが、
    漠然としてますね。

    ちょっとGoogle日本語入力を使い倒して、どんな風に使いづらいか整理してみます。

    返信削除
  3. 相方さん、って時点でもう話についてけてません。今度ゆっくり教えてください :)

    現在のものは長い道のりの第一歩なので、これからもっとよくしていきたいと思っています。ぜひご期待下さい。

    返信削除