Sudachiは、主にテキスト分割、品詞付与、正規化処理を行う形態素解析のJavaライブラリ、SudachiPyは、Pythonバインディングのライブラリです。
Sudachiのインストールは、Linuxの場合、ビルド済みフォルダと辞書をダウンロードするか、ビルドするか、SudachiPyのインストールは、pip/pip3でできます。
Java RuntimeやJava開発環境が整っていれば、Linuxだとこんな感じでダウンロード、展開、辞書の移動をすれば、動作確認できます。
ビルド方法については、リンク先を参照ください。
ここでは辞書は、coreにしていますが、他にsmall、fullがあるので全て、もしくは何れかをダウンロードして必要に応じた種類を選択します。
Pythonだけで使う分には、Sudachiは不要、SudachiPyと辞書だけあれば十分で辞書のダウンロードにやや時間がかかるかもしれませんが、何れもpip/pip3でインストールできます。
辞書には、やはり、core、small、fullの3種類があるので全てまたは何れかをインストール、必要に応じて種類を選択します。
コマンドラインでの利用方法やユーザー辞書の作成、システム辞書のカスタマイズなど詳細は、リンク先を参照ください。