日本語文書校正ツール jcorrect をDebian8に導入する

jcorrectとは?

jcorrect は、形態素解析 / 係受け解析ソフトウェアである、cabocha の解析 結果を利用して、日本語文章の校正を補助するツールです。

http://www.lsnl.jp/~ohsaki/research/tips-jcorrect/

形態素解析、係受け解析を用いて技術文章を構成するためのツールです。

論文を執筆する際に、文法的におかしい部分や冗長な部分を発見、修正する際に利用します。

簡易に使うだけであれば以下のようなWebインターフェースが用意されています。

jcorrect — A simple Japanese grammer checker [Web interface]

http://www.lsnl.jp/cgi-bin/jcorrect

 

目的

論文を執筆している際に、先生の勧めでjcorrect を導入しました。

しかしlatexで書いてコピペしてはっつけて修正・・・がめんどくさい。

そこで、GithubのWebhookを利用し、pushされた際に自動で文法がおかしい部分にコメントを入れるようなサービスの実装を目指します。

最終的にはjcorrectをNode.JSで実装し直す予定ですが、まず、その第一段階としてjcorrectをオフライン、コンソール上で動作させます。

導入

前提とする環境は

  • Debian 8 ( on Vagrant)
  • RAM 4GB
  • CPU 4

となっています。

メモリとCPUは大目に確保しないと後述のcabochaのmakeで止まります。

また、今回はaptで入る物でも基本的にソースからコンパイルします。

 

まず、前提としてコンパイルに必要なbuild-essentialを入れます。

また、jcorrectの動作には

が必要なので、これらをダウンロードし、必要であれば展開します。

Perlはaptで入れてください。 標準で入っているかもしれませんが・・・

以下のコマンドはバージョンを適宜、読み替えてください。

まず、CRF++からビルドしていきます。

MeCab本体をビルドします。

MeCab辞書をビルドします。

ここまで上手く行っていればMeCab単体で動作するはずです。

以下のようにテストできます。

ここまで確認できたらCabochaをビルドします。

上手く行っていればCabocha単体で動作するはずです。

以下のようにテストできます。

ここまでで問題がなければjcorrectは動作します。

以下のように使えます。

ただし、jcorrectのオリジナルはEUC-JPなのでUTF-8に文字コードを変換しないと正常に動作しないです。

以上で終了です。

今後、JavaScriptにjcorrect移植したうえでgithubとの連携を目指します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です