String Tokenizer 機能だいたい完成?


まだ完成してない。しかし半分くらいは実装完了。二次元配列の一次元配列化で機能実装できることは確認。Vector も使わないで行けそう。

エクステ作りながら思うことは、言語処理関係メンドクセーなってこと。

文字列の符号化処理(エンコード/デコード)は公式の GET Object には絶対実装されないだろうなとも思った。UTF-8 だけサポートしてくれれば実用上問題無い。とはいえ動作確認がメンドクセーから必要性が無ければ作られないシロモノだとは思う。

あとエクステとして作る場合「汎用性」を考慮するため、予めメモリをそれなり大きめ確保してあるけど、これは小さな用途だとデフォルトでメモリ喰い過ぎてるのが気になる。汎用性無くせばもっと処理速度追求とか省メモリ、エラー訂正ロジックも省いて良いけどその代わり「汎用」では無くなってしまう。

とりあえずいま自分が作れる範囲で機能実装するけど、本家の String Tokenizer とか Get Object と比較して処理速度とか性能でなるべく劣りたくない。Get に関しては本家より省メモリで動くみたいだけど、取得速度は互角かやや劣るかもしれない。

String Tokenizer 機能については本家版が Vector 使ってるなら処理速度で勝てるかもしれない(願望)。完成したらベンチマークが楽しみな機能ではある。


Leave a comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です