frame_decoration

メモ3:【テキスト中に現れる記号について】の変換


外字注記の変換にともない、“[#]:入力者注”の部分の凡例がかみあわなくなる。対処方としていくつか考えられる。

1.なにもしない。かんべんしてもらう。
2.parl のスクリプトで処理。できるひとにお願いする。
3.凡例を全作品共通の内容にする。
4.単純置換による書き換えをおこなう。

ここでは4を考える。


単純置換による入力者注・凡例の書き換え


1) \r\n → @ へ置換。
 ・---------- を \- へ置換。
 ・定型説明文を短略化。
2) \-@@ → \-\r\n へ置換。
3) YooEdit で「\-」を一括検索。
※ 一括検索で抽出できるのは、行頭から255字までの制限がある。
※ そこで、定型部分は極力短略化させる。
※ 期待どおりであれば、行末はかならず「@\-」となる。
※ そうでないばあいは、255字オーバーなので手作業。
※ あるいは、「 」のように期待はずれも発生する。
※ そのばあい、検索結果はすべて1行目のはずなのに1行目以外を抽出していることになるので、[^1]で検出可能。あとは手作業。


1.全作品の【テキスト中に現れる記号について】を切り出す。
 ・作品の個別認識のためにタイトル・著者名をふくむ。
 ・具体的には、テキストファイル冒頭から「------\r\n\r\n」まで。
2.改行コード「\r\n」を「\t」で代用。
 ・単純置換できるように、切り出した部分を強引に一行にする。
3.0213 変換後に残る入力者注のなかで、最初に現われる注記を抽出。
 ・すべての注記を抽出したあとに、最初に現われる注記のみを残してほかを削除。
 1) すべての注記を抽出。
 2) 1)からファイル名のみ切り出して重複行を削除、作品リスト作成。
 3) 1)から全改行を一括削除。
 4) [#]を手がかりに、直前で改行。\r\n[#]
 5) [#]の直後につづく注記を残して、それ以降を削除。
  ・[#]\([#[]]*]\)\(.*\) を \1に置換。
4.2と3-2)と3-5)は1対1対1で対応する(はず)。
 ・とするならば、2の(例)\(.*\)の部分を3-5)で置換可能(のはず)。
 ・(例)\(.*\) → (例)3-5)
 1) 2を表計算で読みこむ。
 2) 空行に3-5)をペースト。
 3) \t(例)\([^\t]*\)\t\(.*\)\t\((例).*\) → \3\2 へ置換。
 4) 2と4-3)を\tで結合。置換辞書完成(のはず)。



執筆:2008.4.24
公開:2008.4.30
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。

名前:
コメント:

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2008年04月30日 01:25