あさっての向かい風 **♡計画 3

※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

あさっての向かい風 **♡計画 3

メモ1 変換テキストについて

青空文庫提供のDVD(もしくはCD-ROM)収録のテキストを用いる。ただし、テキストファイルには、「/cards/作者ID/files」以下のフォルダに zip 形式で圧縮されたものと、「/作家別テキストファイル」として新規に用意されたものの2種類がある。

圧縮/解凍のちがいがある以外に、ファイル名・フォルダ名が変更されていること、画像ファイル添付の有無のちがいがあること、図書カードからのリンクの有無のちがいがある。

作業的には、もちろん解凍済みの「/作家別テキストファイル」のほうがやりやすい(ことが推察)。画像ファイルも、とくに不要。問題は、そのままでは図書カードからの使用ができないこと。0213 と utf-8 用にそれぞれ「/作家別テキストファイル」をコピー。テキストファイル名末尾に「_x」「_u」を一括添付して元ファイルと区別。
(JIS X 0213 を便宜的に _x で区別。expand(拡張)されたファイル/文字コードの意)

DVD のようにローカルな環境での使用であれば、2バイト文字のファイル名のまま、図書カードへリンクさせてもさしつかえなさそう。だが、web での提供までを想定するとなると、1バイト文字が無難。ロングファイルネームの問題もある。

メモ2 提供ディレクトリ構造について

「/cards」なり「/作家別テキストファイル」なりを構造ごと、そっくりそのままコピーするのが作業的にラクそうに思える。既存の「/cards/作者ID/files」や「/cards」以下のフォルダに 0208・0213・utf-8 テキストを混浴させない。「/cards」に並立して「/cards_x」「/cards_u」を用意するイメージ。

メモ3 ファイル概量

0213 のばあい、txt・html とも、ほぼファイル総量に変化はないはず。注記が減るぶんだけ微減することが予想。いっぽう utf-8 のばあい、たぶん3割増となる。2バイト文字を1文字表現するのに3バイト要するため(表現が変?)。

『青空文庫 全(収録作品数:6613、2007年10月1日付)』「作家別テキストファイル」が 230.5MB ある。

0208:230.5MB
0213:230.5MB
utf-8:230.5MB×1.33=306.6MB
トータル、767.6MB

この時点で CD-ROM での提供は考えないでよさそう。ちなみに「/cards」以下は 646.5MB。仮に、上とおなじ条件として計算すると、2,153MB。2GB 超(添付画像や ebk 込みの値)。

0208 を含めないとして、
0213 テキスト:230.5MB
utf-8 テキスト:306.6MB
0213 html:646.5MB
utf-8 html:860MB
トータル、2,120MB

「/aozora_bunko」が 1.96GB なので、総計4GB 前後の見込み。



2008.3.28 朝、なごり雪。
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。

  • なんか大切なモノを思いだした気分……みたいな♡ -- しだ (2008-03-28 23:47:15)
名前:
コメント: