Initial Site

Initial Site

Initial Site

形態素解析に可能性を感じる!WEB屋のメモ帳

  • ヤスダ  2016/06/20 18:31
keitaiso

こんにちは。

形態素解析に可能性を感じる!WEB屋の保田です。

ウィキペディア(Wikipedia)によると
形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別する作業である。

(´・ω・`)< なんのこっちゃ?

出力結果をみてくれると分かりやすいです。たとえば、“すもももももももものうち”を形態素解析すると以下のようにプログラムが自動的に解析してくれます。

すもも:名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も:助詞,係助詞,*,*,*,*,も,モ,モ
もも:名詞,一般,*,*,*,*,もも,モモ,モモ
も:助詞,係助詞,*,*,*,*,も,モ,モ
もも:名詞,一般,*,*,*,*,もも,モモ,モモ
の:助詞,連体化,*,*,*,*,の,ノ,ノ
うち:名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

“東京特許許可局”であれば、

東京:名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
特許:名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ
許可:名詞,サ変接続,*,*,*,*,許可,キョカ,キョカ
局:名詞,接尾,一般,*,*,*,局,キョク,キョク

(´・ω・`)< なんの役にたつの?

漢字にルビがふれる

形態素解析を使えば、自動的に漢字をひらがなにしてくれます。WEBサイトの漢字全てにルビを振ったり、フリガナ入力が必要な部分を省略することができます。

予測検索がすごくなる

サイト内検索の入力欄に文章が入力されても、形態素解析してから名詞のみ取得して検索することにより、もっと使いやすくなります。

サイト内検索の入力欄に「バーベキューの便利グッズ」と入力すると、
SELECT * FROM books WHERE name LIKE '%%バーベキューの便利グッズ%%';
みたいな感じで検索しちゃいます。

しかし、形態素解析を使えば、
SELECT * FROM books WHERE
name LIKE '%バーベキュー%' AND name Like '%%便利%%' AND name Like '%%グッズ%%';

みたいな検索方法にできます。こっちのほうがいろんな記事にヒットしやすいです。

記事の関連付けがしやすくなる

同じ名詞が含まれる記事を探すことにより、「あなたにおすすめの記事はコチラ」みたいなことができます。
※関連付けする場合には、名詞の中でも”代名詞”,”接尾”,”数”,”非自立”,”副詞可能”,”サ変接続”,”形容動詞語幹”は除いておいたほうがいいです。

(´・ω・`)< でも、東京特許許可局は1つの固有名詞だろ?

解決方法

連続する名詞は1つの名詞として扱うことにより、よりニッチな固有名詞として認識できます。

上記の形態素解析はigo-phpmecabを使いました。わかりやすかった設置方法と自分がつまずいた注意点です。形態素解析スクレイピングSPARQLをマッシュアップして面白いものが作れそう。

次回はSPARQLの記事を書きたいなあ。WEB屋の保田でした。


コメントをどうぞ

ブログの記事

  1. ダウンロード
    横浜のブラック企業 Initial Site(イニシャルサイト)から『テクハラ』の内部告発!?
  2. In Case of Hurricane Typhoon Cyclone Emergency Plan Icons
    迫りくる『台風19号』から大切なバイクを守りたい
  3. hanabi2
    はじめての夏季休暇
  4. 矢場とん という味噌カツ屋さんです。チェーン店さんらしいのですが東京にもあるとのこと。
    夏は暑いと噂の名古屋へ