外字注記の抽出2

※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

外字注記の抽出2


抽出のための前処理に検索置換ラクダをもちいていたけれども、使用ソフトを ConvChar に変更。検索置換ラクダのほうがフォルダごとのドロップに対応してくれる。ただし、作業量が多くなるせいか、処理に時間がかかった。

ConvChar は、改行(\r\n)・タブ(\t)・半角スペース(\s)の3種類にかぎって置換辞書に記述することができる(ConvChar マニュアルより)。このことに長く気がつかなかった。正規表現に対応とまではいかないものの、知らないでいたころよりも、確実に用途に幅ができる。


外字注記抽出用辞書(ConvChar 用)


[ \r\n[
] ]\r\n
【 \r\n【
】 】\r\n
[ \r\n[
] ]\r\n
〔 \r\n〔
〕 〕\r\n
※[ \r\n※[
※【 \r\n※【
※[ \r\n※[


こうなれば、勝手知ったるなんとやらで。
テストにも成功。

くりかえしになるが、いちおう ConvChar 用辞書の解説。二重処理はしない、辞書後方のリストから処理する、というのが ConvChar の仕様。なので、今回の処理のために、最後の3行を追加するだけ。注記先頭に※印のあるものにかぎって※の直前で改行させる。あとは従来の処理のまま。

厳密な意味での完全な注記抽出にはならない(入れ子注記未対応、先頭文字抽出できない)ものの、ここでは、ここまでできればOK。



2008.5.1
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。

名前:
コメント: