めかぶについて調べた
MeCab(めかぶ)について
MeCabとは
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
(http://taku910.github.io/mecab/) より引用
クックパッド開発者ブログによるめかぶの仕組み解説(http://techlife.cookpad.com/entry/2016/05/11/170000)
納豆めかぶで修造語録の頻出ワードを解析
(http://vsanna.sakura.ne.jp/wp/2015/02/natto_mecab/)
なんか楽しそう。
形態素解析とは
ざっくり…日本語の文章を、形態素(言語で意味を持つ最小単位)に分割する技術。
何に使うか…かな漢字変換、検索エンジン予測変換等。
何でできるか…Mecab、ChaSen、JUMAN、KAKASI等。
インストール手順
環境:Windows10
(http://taku910.github.io/mecab/) を見ながら進める。
①ダウンロード
上記サイトのまんなかあたり[ダウンロード]のBinary package for MS-Windows、[mecab-0.996.exe:ダウンロード]をクリック。
文字コードはutf-8。辞書を作ると言われるので作ってもらう。10秒くらいで完了する。
これで完了。
とりあえず使ってみる
が、文字コードをutf-8にしたので公式サイトのとりあえず解析は使えない。
% mecab すもももももももものうち すもももももももものうち 險伜捷,荳闊ャ,*,*,*,*,* EOS
(Shift-JISでインストールすると使える。)
utf8で使ってみる
(http://handsrecs2nd.seesaa.net/article/140090025.html) を参考に動作確認を行う。
①ファイルの作成
ファイル名:in.txt
文字コード:UTF-8
ファイルの中身:吾輩は猫である。名前はまだない。
場所:デスクトップとかやりやすいところ
※同じく出力用のout.txtも作っておく(設定は同じ)。
②コマンドプロンプトで以下を入力
"C:\Program Files (x86)\MeCab\bin\mecab.exe" C:\Users\XXX\Desktop\in.txt -o C:\Users\XXX\Desktop\out.txt
環境変数いじるのがめんどくさいのでフルパスで全部書いた。
③結果
(out.txtの中に作られている)
吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 。 記号,句点,*,*,*,*,。,。,。 名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ は 助詞,係助詞,*,*,*,*,は,ハ,ワ まだ 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ ない 形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ 。 記号,句点,*,*,*,*,。,。,。 EOS
すごい。
そのた(ついで)
自分の日報の頻出ワード検索をする。(今度)
めかぶの由来は開発されたかたがめかぶ好きだかららしいです。