2011-01-01から1ヶ月間の記事一覧

二バイトコード(UTF-16)を用いてDoubleArrayを構築する際のトライ探索方法

これまではDoubleArrayを構築する際には、ソースとなるトライのノードを深さ優先順で探索しDoubleArrayへと変換していた。 トライのキーセットとなる文字列のエンコーディングがUTF-8等の一バイトコード(?)の場合は深さ優先順探索でも特に問題はないが、UTF-…

Gomoku: MeCabと形態素解析速度比較

Igoの時と同じように、Gomoku(0.0.4)とMeCab(0.98)の形態素解析速度を比較してみた。 計時結果 テキストには青空文庫より取得の夏目漱石の『こころ』(x256. 136M. UTF-8)を、辞書にはMeCabのサイトより入手可能なmecab-ipadic-2.7.0-20070801*1を使用。 総処…

Gomoku: Google App Engine上で動くことを確認

昨日取り上げたGomokuがGoogle App Engine上で動くことを確認。 ただそれだけ。 昨日から若干修正したのでバージョンは0.0.3。 サンプルURL: ・形態素解析: http://gomoku-morp.appspot.com/ ・JavaScript: http://gomoku-morp.appspot.com/js-morp-sample.h…

Gomoku: 辞書込みの形態素解析器

IgoをベースにしてJARファイルに辞書データを同梱した形態素解析器を作成した。 名前は同系統のGomoku(ver 0.0.1)。 特徴 開発コンセプト(?)は「JARファイルのみで形態素解析」と「サイズを(比較的)小さく」の二点。 このJARファイル一つで形態素解析が行え…