外字注記の抽出２

抽出のための前処理に検索置換ラクダをもちいていたけれども、使用ソフトを ConvChar に変更。検索置換ラクダのほうがフォルダごとのドロップに対応してくれる。ただし、作業量が多くなるせいか、処理に時間がかかった。

ConvChar は、改行（\r\n）・タブ（\t）・半角スペース（\s）の３種類にかぎって置換辞書に記述することができる（ConvChar マニュアルより）。このことに長く気がつかなかった。正規表現に対応とまではいかないものの、知らないでいたころよりも、確実に用途に幅ができる。

外字注記抽出用辞書（ConvChar 用）

［ \r\n［
］］\r\n
【 \r\n【
】】\r\n
[ \r\n[
] ]\r\n
〔 \r\n〔
〕〕\r\n
※［ \r\n※［
※【 \r\n※【
※[ \r\n※[

こうなれば、勝手知ったるなんとやらで。
テストにも成功。

くりかえしになるが、いちおう ConvChar 用辞書の解説。二重処理はしない、辞書後方のリストから処理する、というのが ConvChar の仕様。なので、今回の処理のために、最後の３行を追加するだけ。注記先頭に※印のあるものにかぎって※の直前で改行させる。あとは従来の処理のまま。

厳密な意味での完全な注記抽出にはならない（入れ子注記未対応、先頭文字抽出できない）ものの、ここでは、ここまでできればＯＫ。

2008.5.1
しだひろし／PoorBook G3'99
翻訳・朗読・転載は自由です。

タグ：

+ タグ編集

最終更新：2008年05月01日 12:26

名前:
コメント: