文字種の変化に基づく日本語単語の切り出し

日本語文を単語に区切るためには、形態素解析システムが必要である。しかし、形態素解析をするには辞書引きをする必要があり、その処理コストが許容できない場合がある。また、外部プログラムの呼び出しが不可能な環境で、システムを構築しなければならない場合もある。

このような時に、能力は低いものの非常に簡便な方法として、文字種の変化する場所を区切りとする方法がある。正規表現により簡単に実装が可能である。

特徴

正規表現を用いて、漢字、ひらがな、かたかな、英数字の境で区切る。
現代語では助詞がひらがなで記述されるため、その他が漢字やカタカナであればうまくいく。
漢語は漢字のみからなるが、和語(大和言葉)は漢字とひらがなが混ざるためうまくいかない。
- 「日本語の場合」→ ○「日本語|の|場合」
- 「走る」→ ×「走|る」
複合名詞は文字種が変化しない限り分割できない。
- 「トヨタ自動車」→ ○「トヨタ|自動車」
- 「工学部事務部教務担当」→ 分割不能

コード例

import java.util.regex.*;
...
    String string;
    Pattern p = Pattern.compile(
        "(\\p{InBasicLatin}+|\\p{InHiragana}+|\\p{InKatakana}+|\\p{InCJKUnifiedIdeographs}+)");
    ...
    (stringに分割したい文字列を代入)
    ...
    Matcher m = p.matcher(string);
    while (m.find()) {
        System.out.println(m.group());
    }

実運用する場合には、日本語文の中に英文が現れたりする場合も考慮すべきである。