アンケート詳細:Googleの大規模日本語データ公開に関する特別セッション
http://d.hatena.ne.jp/uchiuchiyama/20070321/details_about_google_questionnaire
現在,提供データの候補として単語 n-gram および文節係り受けを考えています.ご自身の研究で利用してみたいデータは以下のいずれでしょうか?(ひとつ選択)
1. 単語 n-gram
2. 文節係り受け
3. 単語 n-gram と文節係り受けの両方
4. どちらも利用したいと思わない
1.
かかりうけはまだ使ったことがないので、手持ちのプログラムの中にすぐには取り込めない。
前問で3. とお答えになった方にお聞きします.データサイズに制限がある場合,以下のいずれの形態を希望されますか?(ひとつ選択)
1. n-gram のみ希望する
2. 係り受けのみ希望する
3. データが少なくなってもいいので,n-gram と係り受けの両方を希望する
単語 n-gram および文節係り受け以外で望ましいデータがありましたら,ご記入ください.ただし,生文の公開は現状では困難です.(自由記入:
形態素の品詞情報は必要でしょうか?1. n-gram/係り受けの数が少なくなっても良いので,必要
2. n-gram/係り受けの数が少なくなるなら,必要ない
3. その他(自由記入:
文字N-gramと頻度一定以上の全文字列。
共有部分が大きいものは適当に縮約して。
係り受けを用いる場合,文節単位の部分解析木を提供することを予定しています.どのような部分木が重要でしょうか?例文として「私は秋の京都が好きだ」を用います.(複数選択可)
1. 係り元文節と係り先文節のペアのみ
* 例:私は-好きだ,秋の-京都が,京都が-好きだ
2. 係り関係のチェイン
* 例:秋の-京都が-好きだ
3. 兄弟関係にある文節および係り先文節
* 例:[私は,京都が,好きだ]
* この場合,元の語順により部分木を区別(すべき|すげきではない)
4. その他(自由記入:
1.
スキップ2-gramの一種としてみれるので、自分にとって使いやすい。
文節単位ではデータが非常にスパースになる可能性があるため,次のような処理をすることを検討しています.どのような処理が適切でしょうか?
1. 文節を主辞と付属語(存在する場合)のペアでまとめる
2. 1. に加え,たとえ長い文節でも高頻度であれば候補に含める
3. その他(自由記入:
2.
形態素解析が細かすぎることを想定すると、主辞だけでは不十分な気がする。
形態素解析や係り受け解析を行う際,どのツールを使うべきでしょうか?(一つ選択
1. ChaSen(MeCab),CaboCha
2. Juman,KNP
3. その他,オープンソースのツール等あればお知らせください(自由記入:
2.
これは今回の年次大会でJumanの話を何度か聞いたため。
ChaSenは特に名詞の生産性を考慮しない方針が強く、
誤りを減らせるなら辞書に長い名詞を登録するという方針らしい。
Jumanは形態素解析レベルでは切れるところを切りまくるという方針らしい。
Webには,絵文字やアスキーアートといった非言語的な文字列も混在しています.それらの文字列はどのように扱うべきでしょうか?
1. 区別無く全て含める
2. 簡単なヒューリスティックス(文字列長,漢字/ひらがなの割合等)でスクリーニングする
3. その他,オープンソースのツール等あればお知らせください(自由記入:
2.
顔文字やアスキーアートを的確に解析して記述することは、
理論的にも技術的にもそれなりにチャレンジングな課題だと思う。
現状は、Webの生データを見て解析に挑戦する、という段階だと思う。
言語データとしてはアスキーアートが入っている文書はまるごと無視するほうが、
ノイズが入るよりも有益かと。
n-gram/係り受けについては,データサイズ等の関係から低頻度のものはフィルタリングする予定でいます.それに加えて必要と思われるフィルタリングがありましたら,御記入下さい(自由記入:
長く高頻度な文字列のフィルタリング。
ユーザ側でやってもよい処理。
ノイズを減らすというより、データ削減のためのフィルタリング。
配布データを使った研究を行いたいですか?
1. はい
2. いいえ
3. 分からない
データを使ってどういった研究をしたいとお考えですか?またどんな応用が考えられますか?(自由記入:
単語分割に文字N-gram。
その他ご意見があればお知らせください(自由記入:
このアンケートの結果をできる範囲で公開してほしい。
経験豊富な方がたくさんいると思うので、
考えを聞きたい。