気の向くままに辿るIT/ICT
ソフトウェア

形態素解析ライブラリSudachi/SudachiPy

ホーム前へ次へ
フリーソフト・オープンソースを活用しよう。

形態素解析ライブラリSudachi/SudachiPy

形態素解析ライブラリSudachi/SudachiPy

2021/11/15

 Sudachiは、主にテキスト分割、品詞付与、正規化処理を行う形態素解析のJavaライブラリ、SudachiPyは、Pythonバインディングのライブラリです。

 Sudachiのインストールは、Linuxの場合、ビルド済みフォルダと辞書をダウンロードするか、ビルドするか、SudachiPyのインストールは、pip/pip3でできます。

Sudachiのインストールと動作確認

debian~:$ java --version
openjdk 11.0.12 2021-07-20
OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2)
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)
debian~:$ mkdir -p ~/tmp/app
debian~:$ cd tmp/app
debian~:$ wget https://github.com/WorksApplications/Sudachi/releases/download/v0.5.3/sudachi-0.5.3-executable.zip
debian~:$ unzip sudachi-0.5.3-executable.zip
debian~:$ wget http://sudachi.s3-website-ap-northeast-1.amazonaws.com/sudachidict/sudachi-dictionary-latest-core.zip
debian~:$ unzip sudachi-dictionary-latest-core.zip
debian~:$ mv sudachi-dictionary-20210802/system_core.dic sudachi-0.5.3/
debian~:$ cd sudachi-0.5.3/
debian~:$ java -jar sudachi-0.5.3.jar
JPOPを再生して
JPOP 名詞,普通名詞,一般,*,*,* jpop
を 助詞,格助詞,*,*,*,* を
再生 名詞,普通名詞,サ変可能,*,*,* 再生
し 動詞,非自立可能,*,*,サ行変格,連用形-一般 為る
て 助詞,接続助詞,*,*,*,* て
EOS
[Ctrl]+[C]
debian~:$ echo JPOPを再生してくれたら嬉しいな | java -jar sudachi-0.5.3.jar
JPOP 名詞,普通名詞,一般,*,*,* jpop
を 助詞,格助詞,*,*,*,* を
再生 名詞,普通名詞,サ変可能,*,*,* 再生
し 動詞,非自立可能,*,*,サ行変格,連用形-一般 為る
て 助詞,接続助詞,*,*,*,* て
くれ 動詞,非自立可能,*,*,下一段-ラ行,連用形-一般 呉れる
たら 助動詞,*,*,*,助動詞-タ,仮定形-一般 た
嬉しい 形容詞,一般,*,*,形容詞,終止形-一般 嬉しい
な 助詞,終助詞,*,*,*,* な
EOS
[Ctrl]+[C]
debian~:$

 Java RuntimeやJava開発環境が整っていれば、Linuxだとこんな感じでダウンロード、展開、辞書の移動をすれば、動作確認できます。

 ビルド方法については、リンク先を参照ください。

 ここでは辞書は、coreにしていますが、他にsmall、fullがあるので全て、もしくは何れかをダウンロードして必要に応じた種類を選択します。

SudachiPyのインストールと動作確認

debian~:$ python -V
Python 3.9.2
debian~:$ pip3 install sudachipy sudachidict_core
debian~:$ echo JPOPを再生して | sudachipy
JPOP 名詞,普通名詞,一般,*,*,* jpop
を 助詞,格助詞,*,*,*,* を
再生 名詞,普通名詞,サ変可能,*,*,* 再生
し 動詞,非自立可能,*,*,サ行変格,連用形-一般 為る
て 助詞,接続助詞,*,*,*,* て
EOS
[Ctrl]+[C]
debian~:$

 Pythonだけで使う分には、Sudachiは不要、SudachiPyと辞書だけあれば十分で辞書のダウンロードにやや時間がかかるかもしれませんが、何れもpip/pip3でインストールできます。

 辞書には、やはり、core、small、fullの3種類があるので全てまたは何れかをインストール、必要に応じて種類を選択します。

 コマンドラインでの利用方法やユーザー辞書の作成、システム辞書のカスタマイズなど詳細は、リンク先を参照ください。

ホーム前へ次へ