めかぶについて調べた

MeCab(めかぶ)について

MeCabとは

MeCab京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
http://taku910.github.io/mecab/) より引用
クックパッド開発者ブログによるめかぶの仕組み解説(http://techlife.cookpad.com/entry/2016/05/11/170000
納豆めかぶで修造語録の頻出ワードを解析 (http://vsanna.sakura.ne.jp/wp/2015/02/natto_mecab/) なんか楽しそう。

形態素解析とは

ざっくり…日本語の文章を、形態素(言語で意味を持つ最小単位)に分割する技術。
何に使うか…かな漢字変換検索エンジン予測変換等。
何でできるか…MecabChaSen、JUMAN、KAKASI等。

インストール手順

環境:Windows10
http://taku910.github.io/mecab/) を見ながら進める。

①ダウンロード

上記サイトのまんなかあたり[ダウンロード]のBinary package for MS-Windows、[mecab-0.996.exe:ダウンロード]をクリック。
文字コードutf-8。辞書を作ると言われるので作ってもらう。10秒くらいで完了する。
これで完了。

とりあえず使ってみる

が、文字コードutf-8にしたので公式サイトのとりあえず解析は使えない。

% mecab
すもももももももものうち
すもももももももものうち        險伜捷,荳闊ャ,*,*,*,*,*
EOS

(Shift-JISでインストールすると使える。)

utf8で使ってみる

http://handsrecs2nd.seesaa.net/article/140090025.html) を参考に動作確認を行う。

①ファイルの作成

ファイル名:in.txt
文字コードUTF-8
ファイルの中身:吾輩は猫である。名前はまだない。
場所:デスクトップとかやりやすいところ

※同じく出力用のout.txtも作っておく(設定は同じ)。

コマンドプロンプトで以下を入力
"C:\Program Files (x86)\MeCab\bin\mecab.exe"  C:\Users\XXX\Desktop\in.txt -o  C:\Users\XXX\Desktop\out.txt

環境変数いじるのがめんどくさいのでフルパスで全部書いた。

③結果

(out.txtの中に作られている)

吾輩   名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある  助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。 記号,句点,*,*,*,*,。,。,。
名前  名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
まだ  副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ
ない  形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ
。 記号,句点,*,*,*,*,。,。,。
EOS

すごい。

そのた(ついで)

自分の日報の頻出ワード検索をする。(今度)

めかぶの由来は開発されたかたがめかぶ好きだかららしいです。