「虜みたい」と「取り込みたい」

あるいは「可みたい」と「噛みたい」
この種類の対立は、トピックモデルで解消すべきことのような気がする。

この種の同音異義表現は、仮名漢字変換において盲点になっているのでは、と思った。

人間にとって同音異義語であることが意識されやすい同音異義語の多くは、品詞が一致している。
たとえば「気候」と「機構」。
仮名漢字変換は、品詞連接頻度を有力な手がかりとする場合が多いので、
品詞が一致する同音異義語を間違えやすい。
たとえば「ここのきこうはよくない」を正しく変換することができない。
それは人間でも同じで、単独の文ではどちらか分からない。
人間の場合は、前の文(発話)を参照することで、だいたい解決できているのだと思う。
そこで本当は仮名漢字変換でもトピックモデルが必要なのだと思うけれど、
実はそうとも限らない。
品詞が一致しているので、間違う箇所が狭く限定されていて、
間違いをあとから訂正するのが簡単だから。
どれが好まれる文字列かを、学習させるのも簡単。
間違う箇所が狭いからユーザが気づきにくいともいえるけど。

品詞が一致しない同音異義語は、まさに品詞連接頻度で解決できる。
「うみたがらない」を「海他画羅内」にしないということ。
未知語が絡むときくらいしか間違えないと思う。
間違える場合は、単語のレベルを越えて間違うので、ユーザは気づきやすい。
でも直すのに手間がかかる。

表題の同音異義語は、品詞が一致しない方に含まれるわけだけれども、
品詞が一致する方にかなり近いと思う。
これ全体が「用言」のような大雑把な品詞に分類されていて、
だからユーザは気づきにくい。
けれど単語レベルではないので、直すのに手間がかかる。

今回のリニューアルで初心者ユーザーを一気に虜みたい考えだ。

http://www.itmedia.co.jp/news/articles/0608/09/news083.html