日本語形態素解析システム。C++ で書かれている。
Ubuntu および Vine Linux では、 本体、辞書ともパッケージが提供されているが、 最新版ではないことがある。 Windows 用は本体と辞書が一体で配布されている。
辞書や連接表は元ファイルがテキスト形式なので、 内部に興味がある人は覗いてみるとよい。
配布されているものを開きインストール。
$ sudo apt-get update $ sudo apt-get install libmecab1 libmecab-dev mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils
パッケージ名は Ubuntu 9.04 時点のもので、その後変更されている可能性がある。
UTF-8 の辞書が用意されていて親切。
Java から使うには、まず辞書を utf-8 にしておき、 mecab-java-X.XX.tar.gz を追加でインストールする。
ここでは mecab-java-0.98.tar.gz をダウンロードして ~/src に置いたものとする。
$ cd ~/src $ tar xvzf mecab-java-0.98.tar.gz $ cd mecab-java-0.98 $ make INCLUDE=(java sdk の header file のある場所)