今回はYahoo!デベロッパーネットワークの日本語形態素解析をつかってみます。日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得することができます。

まずYahoo! JAPANのWebサービスを利用するには、アプリケーションIDが必要です。こちらから取得してください。

さて取得できたら・・・

まずはアプリの外観から。

左にあるのはテキストボックス、右にあるのはDataGridViewです。

実行するとこうなります。

もうちょっと拡張してみましょう。

リクエストURLはhttps://jlp.yahooapis.jp/MAService/V1/parse。ここにパラメーターをつけます。

https://jlp.yahooapis.jp/MAService/V1/parse?appid=<あなたのアプリケーションID>&results=ma&sentence=<解析したい文章>とやれば結果を得ることができます。これをDataGridViewに表示させます。

パラメーターはほかにも

results
“ma”: 形態素解析の結果を ma_result に返します。
“uniq”: 出現頻度情報を uniq_result に返します。
無指定の場合は “ma”。

response
surface, reading, pos, baseform, featureをコンマで区切って指定します。
無指定の場合は “surface,reading,pos”。

MakeUrlをちょっと変更。

これだと形態素解析だけでなく、使用されている単語の数もわかります。また助詞や助動詞のようなたいして意味のないものは取得したくない場合はフィルターを使います。

filter
解析結果として出力する品詞番号を “|” で区切って指定します。

1 : 形容詞
2 : 形容動詞
3 : 感動詞
4 : 副詞
5 : 連体詞
6 : 接続詞
7 : 接頭辞
8 : 接尾辞
9 : 名詞
10 : 動詞
11 : 助詞
12 : 助動詞
13 : 特殊(句読点、カッコ、記号など)

名詞と動詞と形容詞と形容動詞以外はいらないのであれば

とやればOKです。

あと出現頻度情報を表示させるとき、uniq_by_baseformがtrueならば、基本形で結果を求めます。

実用性のありそうなものをつくる

もうちょっと実用性のありそうなものをつくってみます。

これは名詞と動詞と形容詞と形容動詞のみを解析対象にしています。