「あさっての向かい風 **♡計画 3」の編集履歴(バックアップ)一覧はこちら
「あさっての向かい風 **♡計画 3」(2008/03/28 (金) 23:47:15) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
あさっての向かい風 **♡計画 3
*メモ1 変換テキストについて
青空文庫提供のDVD(もしくはCD-ROM)収録のテキストを用いる。ただし、テキストファイルには、「/cards/作者ID/files」以下のフォルダに zip 形式で圧縮されたものと、「/作家別テキストファイル」として新規に用意されたものの2種類がある。
圧縮/解凍のちがいがある以外に、ファイル名・フォルダ名が変更されていること、画像ファイル添付の有無のちがいがあること、図書カードからのリンクの有無のちがいがある。
作業的には、もちろん解凍済みの「/作家別テキストファイル」のほうがやりやすい(ことが推察)。画像ファイルも、とくに不要。問題は、そのままでは図書カードからの使用ができないこと。0213 と utf-8 用にそれぞれ「/作家別テキストファイル」をコピー。テキストファイル名末尾に「_x」「_u」を一括添付して元ファイルと区別。
(JIS X 0213 を便宜的に _x で区別。expand(拡張)されたファイル/文字コードの意)
DVD のようにローカルな環境での使用であれば、2バイト文字のファイル名のまま、図書カードへリンクさせてもさしつかえなさそう。だが、web での提供までを想定するとなると、1バイト文字が無難。ロングファイルネームの問題もある。
*メモ2 提供ディレクトリ構造について
「/cards」なり「/作家別テキストファイル」なりを構造ごと、そっくりそのままコピーするのが作業的にラクそうに思える。既存の「/cards/作者ID/files」や「/cards」以下のフォルダに 0208・0213・utf-8 テキストを混浴させない。「/cards」に並立して「/cards_x」「/cards_u」を用意するイメージ。
*メモ3 ファイル概量
0213 のばあい、txt・html とも、ほぼファイル総量に変化はないはず。注記が減るぶんだけ微減することが予想。いっぽう utf-8 のばあい、たぶん3割増となる。2バイト文字を1文字表現するのに3バイト要するため(表現が変?)。
『青空文庫 全(収録作品数:6613、2007年10月1日付)』「作家別テキストファイル」が 230.5MB ある。
0208:230.5MB
0213:230.5MB
utf-8:230.5MB×1.33=306.6MB
トータル、767.6MB
この時点で CD-ROM での提供は考えないでよさそう。ちなみに「/cards」以下は 646.5MB。仮に、上とおなじ条件として計算すると、2,153MB。2GB 超(添付画像や ebk 込みの値)。
0208 を含めないとして、
0213 テキスト:230.5MB
utf-8 テキスト:306.6MB
0213 html:646.5MB
utf-8 html:860MB
トータル、2,120MB
「/aozora_bunko」が 1.96GB なので、総計4GB 前後の見込み。
2008.3.28 朝、なごり雪。
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。
----
#comment
あさっての向かい風 **♡計画 3
*メモ1 変換テキストについて
青空文庫提供のDVD(もしくはCD-ROM)収録のテキストを用いる。ただし、テキストファイルには、「/cards/作者ID/files」以下のフォルダに zip 形式で圧縮されたものと、「/作家別テキストファイル」として新規に用意されたものの2種類がある。
圧縮/解凍のちがいがある以外に、ファイル名・フォルダ名が変更されていること、画像ファイル添付の有無のちがいがあること、図書カードからのリンクの有無のちがいがある。
作業的には、もちろん解凍済みの「/作家別テキストファイル」のほうがやりやすい(ことが推察)。画像ファイルも、とくに不要。問題は、そのままでは図書カードからの使用ができないこと。0213 と utf-8 用にそれぞれ「/作家別テキストファイル」をコピー。テキストファイル名末尾に「_x」「_u」を一括添付して元ファイルと区別。
(JIS X 0213 を便宜的に _x で区別。expand(拡張)されたファイル/文字コードの意)
DVD のようにローカルな環境での使用であれば、2バイト文字のファイル名のまま、図書カードへリンクさせてもさしつかえなさそう。だが、web での提供までを想定するとなると、1バイト文字が無難。ロングファイルネームの問題もある。
*メモ2 提供ディレクトリ構造について
「/cards」なり「/作家別テキストファイル」なりを構造ごと、そっくりそのままコピーするのが作業的にラクそうに思える。既存の「/cards/作者ID/files」や「/cards」以下のフォルダに 0208・0213・utf-8 テキストを混浴させない。「/cards」に並立して「/cards_x」「/cards_u」を用意するイメージ。
*メモ3 ファイル概量
0213 のばあい、txt・html とも、ほぼファイル総量に変化はないはず。注記が減るぶんだけ微減することが予想。いっぽう utf-8 のばあい、たぶん3割増となる。2バイト文字を1文字表現するのに3バイト要するため(表現が変?)。
『青空文庫 全(収録作品数:6613、2007年10月1日付)』「作家別テキストファイル」が 230.5MB ある。
0208:230.5MB
0213:230.5MB
utf-8:230.5MB×1.33=306.6MB
トータル、767.6MB
この時点で CD-ROM での提供は考えないでよさそう。ちなみに「/cards」以下は 646.5MB。仮に、上とおなじ条件として計算すると、2,153MB。2GB 超(添付画像や ebk 込みの値)。
0208 を含めないとして、
0213 テキスト:230.5MB
utf-8 テキスト:306.6MB
0213 html:646.5MB
utf-8 html:860MB
トータル、2,120MB
「/aozora_bunko」が 1.96GB なので、総計4GB 前後の見込み。
2008.3.28 朝、なごり雪。
しだひろし/PoorBook G3'99
翻訳・朗読・転載は自由です。
----
- なんか大切なモノを思いだした気分……みたいな♡ -- しだ (2008-03-28 23:47:15)
#comment