ruby

UNF : Unicode正規化ライブラリ

UNFという名前*1で、C++でUnicode正規化を行うライブラリを実装 (ver 0.0.1)。 ついでに、それを利用したRuby拡張ライブラリも作成。C++やRubyで使える、軽くて高速なUnicode正規化ライブラリは、一年以上前から欲しい(作りたい)と思っていたので、作り終え…

ham: 分類性能評価的なもの

hamの分類性能評価的なもの。 そんなに本格的なことは行わない。 hamでは、基本的に『Practical Common Lisp』にて説明されているスパムフィルタリングの方法(ベイジアンフィルタの一種)をそのまま使わせてもらっている。 このベイジアンフィルタによる分類…

IPA辞書から無駄な項目を省く(MeCab)

MeCabのサイトからダウンロードできるIPA辞書には、無駄な項目(単語)が若干含まれている。 ※ '無駄'とは普通の形態素解析しか行わない限り。N-Best解などの結果を使いたい場合は別。 # IPA辞書のダウンロードディレクトリに移動 $ cd mecab-ipadic-2.7.0-200…

Shift_JIS: 全角→半角変換

Shift_JISの全角文字を半角文字に変換するrubyの拡張ライブラリを作成した。 中身は変換テーブル*1を用意してマッピングを行っているだけの単純なものだが、毎回一から作るのは若干面倒なので、まとめてここにおいておく(ruby/sjis_conv-0.1.0.tar.gz)。使え…

uriへのpingメソッド

正確にはpingではないけど、機能的には似てなくもないメソッド。 引数にuriにHEADコマンドを投げて、open_timeout時間内に接続できればtrueを返す。 uriが有効(安全に読み込める)かどうかを知りたいときに便利。 同様の機能の既存のメソッドがあるかもしれな…

JSONデコード: ruby

最近はJSONばっかりだが、一昨日書いたC++版のJSONパーサのrubyバインディングを作ってみた。ソースコードは(ruby用にいろいろ変更が加わっているが)今まで書いてきたJSONのそれと基本的には同じものなので割愛する。 インストール用のファイル一式はここに…