Sanmoku(0.0.5): 原型や読みの情報取得に対応
Sanmoku(0.0.4): 辞書データサイズ縮小のコメントにて要望があったのでSanmokuを形態素の原型や読みの情報取得に対応させてみた。
Sanmoku本体のインターフェースは以前の同様*1で、原型・読み・発音の取得を行うためのFeatureExクラス(sanmoku-feature-ex-x.x.x.jar)を新しく追加した。
使用例:
import net.reduls.sanmoku.Tagger; import net.reduls.sanmoku.Morpheme; import net.reduls.sanmoku.FeatureEx; // 追加 for(Morpheme m : Tagger.parse("...")) { // 形態素解析 FeatureEx fe = new FeatureEx(m); // 解析結果の形態素インスタンスから、追加の素性データを取得 // 結果表示 System.out.println(m.surface+"\t"+m.feature+","+fe.baseform+","+fe.reading+","+fe.pronunciation); }
$ export CLASSPATH=sanmoku-0.0.5.jar:sanmoku-feature-ex-0.0.1.jar $ echo '招待制でリリースしました' | java net.reduls.sanmoku.bin.SanmokuFeatureEx 招待 名詞,サ変接続,*,*,*,*,招待,ショウタイ,ショータイ 制 名詞,接尾,一般,*,*,*,制,セイ,セイ で 助詞,格助詞,一般,*,*,*,で,デ,デ リリース 名詞,サ変接続,*,*,*,*,リリース,リリース,リリース し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS
比較
以前の表にSanmoku-0.0.5(+ FeatureEx-0.0.1)を追加したもの。
辞書データサイズ(IPADIC) | 最小所要メモリ(-Xmx) | 起動(≒辞書ロード)時間*2 | 10MBテキストの解析時間 | |
---|---|---|---|---|
Igo-0.4.3 | 40MB | 73MB | 0.058秒 | 2.729秒 |
Gomoku-0.0.4 | 8.2MB | 23MB | 0.371秒 | 2.621秒 |
Sanmoku-0.0.4 | 4.8MB | 2MB | 0.057秒 | 5.807秒 |
Sanmoku-0.0.5(+ FeatureEx-0.0.1) | 10MB | 11MB | 0.098秒 | 6.814秒 |
読み等の情報を取得した場合、性能は全体的に劣化しているけど、これくらいなら十分許容範囲内のような気がする。