frame_decoration
あさっての向かい風 **♡計画 2

1.JIS X 0213 形式への変換
作業環境: Mac OS 9.2、ConvChar 0.8.2、検索置換ラクダv1.01。

2.Unicode(utf-8)形式への変換
作業環境:Mac OS X10.4(Tiger)、検索置換ラクダX。

3.変換用辞書
JIS X 0213 変換用:
主に、もりみつさん提供の『JIS漢字コード表 (JIS X 0208 + JIS X 0213) 2000.12.22』より「p-r-c」と「(ch)」の項を使用。

utf-8 変換用:
主に、青空文庫(川山さん・小林さん)提供の『外字注記辞書』より、面区点番号・unicode番号・注記形式を使用。utf-8 はutf-16 よりも小さい文字集合になる(はず)。当初、テキストのエンコーディングに utf-16 を選択することを考えていたものの、2つの理由により、utf-8 を採用することとする。

1つ、Mac OS X10.4(Tiger)が utf-8 を標準環境としている(らしい)こと。2つ、テキストファイルと html(xhtml)ページの整合性。テキスト版では utf-16 を採用可能だけれども、html 版ではたぶん、utf-8 を選択することになる。テキスト版と html 版で異なるエンコーディング・文字集合を使用するということは、テキスト版 ≠ html 版で、利用の際の理解にやや難がある。誤解を生じる可能性が高い。ので、今回の **♡計画では utf-8 を採用ということで。

メモ

変換のためには、元テキストファイルと置換用辞書のエンコーディングをそろえる作業が最初になる。

JIS X 0213:
本家提供の Shift JIS・Windows 改行(cr+lf)のまま。変更なし。文字集合のみ 0213。

utf-8:
最初に、元テキストファイルのエンコーディングをすべて utf-8 へ変換すること。

図書カード:
現状(本家)では、図書カードのエンコーディングに EUC、作品閲覧用 xhtml ページのエンコーディングに Shift JIS を使用。おそらく、現状維持のまま作業することになるので、変換用辞書のほうで要注意。

1.JIS X 0213:テキストファイル
2.JIS X 0213:xhtml ページ
3.utf-8:テキストファイル
4.utf-8:xhtml ページ

1・3・4は、目視による確認が可能。2については変換できたとしても、確認する方法がいまのところわからない。(T-Time、azur?)

紙の歴史 utf-8 アクセント表記置換済み版について

參照(20)のところに「SaalebĹs」と誤置換されている箇所があった。〔…… Saalebl's ……〕なので「Saalebĺs」が正しい。誤置換を確認できたのは、この1か所のみ。

確認のため「アクセント分解辞書uniの1」を見ると、下から7行目に「l\' → 〔ĺ〕」とある。検索置換ラクダXの仕様によるものか、それとも perl5.8 の仕様によるものか、「l\' → 〔ĺ〕」よりも5行前の「L\' → 〔Ĺ〕」に反応したことが推測される。「l\' → 〔ĺ〕」を「L\' → 〔Ĺ〕」よりも前の行に移動させてみると期待どおりの変換ができた。検索置換ラクダX「アクセント分解辞書uni」では、小文字群を辞書前半に、大文字群を辞書後半に記述すること。

アクセント表記置換の3ステップについて

1.アクセント分解注記用〔、〕のありなしにかかわらず、「アクセント分解辞書uniの1 」で、該当する文字列すべてを〔○〕の形に置換。すると、アクセント分解注記の部分は、〔……〔○〕……〔○〕…〕のように二重の入れ子型カッコになって表現される。

2.「アクセント分解辞書uniの2 」の1行目で、アクセント分解記号をもちいていない文字列「〔……〔」の前後のカッコ「〔」を両方とも削除。文字列「……」をそのまま出力。2行目で、おなじく「〕……〔」の前後のカッコを両方とも削除。おなじく、文字列「……」をそのまま出力。3行目で、おなじく「〕……〕」の前後のカッコを両方とも削除。おなじく、文字列「……」をそのまま出力。

3.1と2のステップが期待どおりに変換されているとすれば、テキストには、アクセント分解注記とは無関係の記述だったにもかかわらず、1で強引に変換された文字だけが、カッコ〔、〕入りで残るはず。「アクセント分解辞書uniの3 」では、カッコ〔、〕入りのアクセント注記ではない、もとの文字列へもどす作業をおこなう。


公開:2008.3.27
更新:2008.3.28
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。
wiki *99 へ参加するばあいは、青空文庫の工作員名義でよろしく。

  • この3ステップ置換のアイデアは、たしか LUNA CAT さんや大野さんたちの xhtml 自動生成プログラムのなかで紹介されていたもの、だったような気がする。あるいは、正規表現関係の本もしくは web だったかも。 -- しだ (2008-03-28 08:59:45)
名前:
コメント:

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2008年03月28日 23:44