形態素解析システム MeCab

日本語形態素解析システム。C++ で書かれている。

インストール

本体および辞書

Ubuntu および Vine Linux では、 本体、辞書ともパッケージが提供されているが、 最新版ではないことがある。 Windows 用は本体と辞書が一体で配布されている。

辞書や連接表は元ファイルがテキスト形式なので、 内部に興味がある人は覗いてみるとよい。

Windows

配布されているものを開きインストール。

Ubuntu

$ sudo apt-get update
$ sudo apt-get install libmecab1 libmecab-dev mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils

パッケージ名は Ubuntu 9.04 時点のもので、その後変更されている可能性がある。

UTF-8 の辞書が用意されていて親切。

Java からの利用

Java バインディング (公式)

Java から使うには、まず辞書を utf-8 にしておき、 mecab-java-X.XX.tar.gz を追加でインストールする。

ここでは mecab-java-0.98.tar.gz をダウンロードして ~/src に置いたものとする。

$ cd ~/src
$ tar xvzf mecab-java-0.98.tar.gz
$ cd mecab-java-0.98
$ make INCLUDE=(java sdk の header file のある場所)

cmecab-java