frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/21 付)
* Special Data Files * 特殊データファイル
* Updated LSTM Data Files for Version 4.00 * [バージョン4.00用のLSTMデータファイルの更新](#バージョン400用の最新の更新データファイル - 9月15日 - 15-2017)
* Data Files for Version 4.00 * [バージョン4.00用データファイル](#400用のデータファイル - 11月29日 - 2016年2月)
* Data Files for Version 3.04/3.05 * バージョン3.04 / 3.05用データファイル
* Cube Data Files for Version 3.04/3.05 * バージョン3.04 / 3.05用キューブデータファイル
* Fraktur Data Files * Frakturデータファイル
* Data Files for Version 3.02 * バージョン3.02用データファイル
* Data Files for Version 2.0x * バージョン2.0x用データファイル
* Format of traineddata files * 学習データファイルの形式
## Special Data Files ##特別なデータファイル
Lang Code Description 4.0/3.0x traineddata ラングコード 説明 4.0 / 3.0xトレーニングデータ
:-------- :---------- :------------------- :-------- :---------- :-------------------
osd Orientation and script detection osd.traineddata OSDオリエンテーションと台本検出osd.traineddata
equ Math / equation detection equ.traineddata equ 数学/方程式の検出equ.traineddata
Note: These two data files are compatible with older versions of Tesseract. osd is compatible with version 3.01 and up, and equ is compatible with version 3.02 and up. Note:これら2つのデータファイルはTesseractの古いバージョンと互換性があります。 osdはバージョン3.01以上と互換性があり、equはバージョン3.02以上と互換性があります。
## Updated Data Files for Version 4.00 (September 15, 2017) ##バージョン4.00のデータファイルを更新しました(2017年9月15日)
We have three sets of .traineddata files on GitHub in three separate repositories. GitHubの3つの別々のリポジトリにある3セットの.traineddataファイルがあります。
* https://github.com/tesseract-ocr/tessdata_best * https://github.com/tesseract-ocr/tessdata_best
* https://github.com/tesseract-ocr/tessdata_fast * https://github.com/tesseract-ocr/tessdata_fast
* https://github.com/tesseract-ocr/tessdata * https://github.com/tesseract-ocr/tessdata
Most users will want tessdata_fast and that is what will be shipped as part of Linux distributions. ほとんどのユーザーは tessdata_fast を望んでいるでしょう、そしてそれはLinuxディストリビューションの一部として出荷されるものです。
tessdata_best is for people willing to trade a lot of speed for slightly better accuracy. It is also tessdata_best は、少し精度を上げるために多くの速度を犠牲にすることを望む人々のためのものです。それも
the only set of files which can be used for certain retraining scenarios for advanced users. 上級ユーザー向けの特定の再訓練シナリオに使用できる唯一のファイルセット。
The third set in tessdata is the only one that supports the legacy recognizer. The 4.00 files from November 2016 have both legacy and older LSTM models. The current set of files in tessdata have the legacy models and newer LSTM models (integer versions of 4.00.00 alpha models in tessdata_best). tessdata の3番目のセットはレガシーレコグナイザをサポートする唯一のものです。 2016年11月の4.00ファイルには、従来のLSTMモデルと古いLSTMモデルの両方があります。 tessdata のファイルの現在のセットは、レガシーモデルとより新しいLSTMモデル(tessdata_bestの4.00.00アルファモデルの整数バージョン)を持っています。
Note: When using the new models in the tessdata_best and tessdata_fast repositories, only the new LSTM-based OCR engine is supported. The legacy engine is not supported with these files, so Tesseract's oem modes '0' and '2' won't work with them. Note : tessdata_best tessdata_fast リポジトリで新しいモデルを使うとき、新しいLSTMベースのOCRエンジンだけがサポートされます。これらのファイルではレガシエンジンはサポートされていないため、TesseractのOEMモードである「0」と「2」はこれらのファイルでは動作しません。
## Data Files for Version 4.00 (November 29, 2016) ##バージョン4.00のデータファイル(2016年11月29日)
This set of traineddata files has support for the legacy recognizer with --oem 0 and for LSTM models with --oem 1. この一連の学習済みデータファイルは、 - oem 0のレガシーレコグナイザーと--oem 1のLSTMモデルをサポートしています。
Note: The kur data file was not updated from 3.04. For Fraktur, see the section Fraktur Data Files, or use the newer data files from the tessdata_fast or tessdata_best repositories. Note: kurデータファイルは3.04から更新されていません。 Frakturについては、セクションFrakturデータファイルを参照するか、tessdata_fastまたはtessdata_bestリポジトリから新しいデータファイルを使用してください。
Lang Code Language 4.0 traineddata ラングコード 言語 4.0訓練データ
:--------- :------- :--------------- :--------- :------- :---------------
afr Afrikaans afr.traineddata AFRアフリカーンス語 afr.traineddata
amh Amharic amh.traineddata ああアムハラ語 amh.traineddata
ara Arabic ara.traineddata あらアラビア語 ara.traineddata
asm Assamese asm.traineddata ASM アッサムasm.traineddata
aze Azerbaijani aze.traineddata あぜアゼルバイジャン語 aze.traineddata
aze_cyrl Azerbaijani - Cyrillic aze_cyrl.traineddata aze_cyrl アゼルバイジャン語 - キリル文字 aze_cyrl.traineddata
bel Belarusian bel.traineddata ベル ベラルーシ語bel.traineddata
ben Bengali ben.traineddata ベン ベンガル語ben.traineddata
bod Tibetan bod.traineddata ボディーチベットbod.traineddata
bos Bosnian bos.traineddata ボスボスニア語 bos.traineddata
bul Bulgarian bul.traineddata bul ブルガリア語 bul.traineddata
cat Catalan; Valencian cat.traineddata 猫カタロニア語バレンシアcat.traineddata
ceb Cebuano ceb.traineddata ceb セブアノceb.traineddata
ces Czech ces.traineddata ces チェコces.traineddata
chi_sim Chinese - Simplified chi_sim.traineddata chi_sim 中国語 - 簡体字 chi_sim.traineddata
chi_tra Chinese - Traditional chi_tra.traineddata chi_tra 繁体字中国語chi_tra.traineddata
chr Cherokee chr.traineddata chr チェロキーchr.traineddata
cym Welsh cym.traineddata cym ウェールズ語 cym.traineddata
dan Danish dan.traineddata ダン デンマーク語 dan.traineddata
deu German deu.traineddata デウドイツ語 deu.traineddata
dzo Dzongkha dzo.traineddata dzoゾンカdzo.traineddata
ell Greek, Modern (1453-) ell.traineddata ell ギリシャ語、モダン(1453-) ell.traineddata
eng English eng.traineddata eng 英語 eng.traineddata
enm English, Middle (1100-1500) enm.traineddata enm 英語、中(1100 - 1500) enm.traineddata
epo Esperanto epo.traineddata エポエスペラントepo.traineddata
est Estonian est.traineddata 最新 エストニア語 est.traineddata
eus Basque eus.traineddata ユー バスクeus.traineddata
fas Persian fas.traineddata fasペルシャ語 fas.traineddata
fin Finnish fin.traineddata ひれフィンランド語fin.traineddata
fra French fra.traineddata fra フランス語 fra.traineddata
frk Frankish frk.traineddata frk フランキー語frk.traineddata
frm French, Middle (ca. 1400-1600) frm.traineddata frm フランス語、中級(約1400-1600) frm.traineddata
gle Irish gle.traineddata グレアイルランドgle.traineddata
glg Galician glg.traineddata glg ガリシア語glg.traineddata
grc Greek, Ancient (-1453) grc.traineddata grc ギリシャ語、古代(-1453) grc.traineddata
guj Gujarati guj.traineddata guj グジャラート語 guj.traineddata
hat Haitian; Haitian Creole hat.traineddata ヘブヘブライ語 heb.traineddata
heb Hebrew heb.traineddata ひんヒンディー語 hin.traineddata
hin Hindi hin.traineddata hrv クロアチア語 hrv.traineddata
hrv Croatian hrv.traineddata フンハンガリー語hun.traineddata
hun Hungarian hun.traineddata イクイヌクティットiku.traineddata
iku Inuktitut iku.traineddata ind インドネシア語 ind.traineddata
ind Indonesian ind.traineddata isl アイスランド語 isl.traineddata
isl Icelandic isl.traineddata イタイタリア語 ita.traineddata
ita Italian ita.traineddata ita_old イタリア語 - 古いita_old.traineddata
ita_old Italian - Old ita_old.traineddata Jav Javジャワjav.traineddata
jav Javanese jav.traineddata jpn 日本語 jpn.traineddata
jpn Japanese jpn.traineddata かんカンナダkan.traineddata
kan Kannada kan.traineddata キャットグルジア語 kat.traineddata
kat Georgian kat.traineddata kat_old グルジア語 - 古いkat_old.traineddata
kat_old Georgian - Old kat_old.traineddata カズカザフkaz.traineddata
kaz Kazakh kaz.traineddata khmセントラルクメールkhm.traineddata
khm Central Khmer khm.traineddata キルキルギスキルギスkir.traineddata
kir Kirghiz; Kyrgyz kir.traineddata 韓国語 kor.traineddata
kor Korean kor.traineddata クルクルド人kur.traineddata
kur Kurdish kur.traineddata ラオスラオスlao.traineddata
lao Lao lao.traineddata 緯度ラテン語 lat.traineddata
lat Latin lat.traineddata ラヴラトビア語lav.traineddata
lav Latvian lav.traineddata 点灯 リトアニア語lit.traineddata
lit Lithuanian lit.traineddata Mal マラヤーラム語mal.traineddata
mal Malayalam mal.traineddata 3月マラーティーmar.traineddata
mar Marathi mar.traineddata mkd マケドニア語mkd.traineddata
mkd Macedonian mkd.traineddata mlt マルタmlt.traineddata
mlt Maltese mlt.traineddata msa マレー msa.traineddata
msa Malay msa.traineddata ミアビルマmya.traineddata
mya Burmese mya.traineddata ネップネパールnep.traineddata
nep Nepali nep.traineddata nld オランダの;フランドルnld.traineddata
nld Dutch; Flemish nld.traineddata またノルウェー語 nor.traineddata
nor Norwegian nor.traineddata オリ オリヤori.traineddata
ori Oriya ori.traineddata パン パンジャブ語パンジャブpan.traineddata
pan Panjabi; Punjabi pan.traineddata pol ポーランド語 pol.traineddata
pol Polish pol.traineddata por ポルトガル語 por.traineddata
por Portuguese por.traineddata 膿プッシューパシュトウpus.traineddata
pus Pushto; Pashto pus.traineddata ロンルーマニア語モルダビアンモルドバron.traineddata
ron Romanian; Moldavian; Moldovan ron.traineddata rus ロシア語 rus.traineddata
rus Russian rus.traineddata さんサンスクリットsan.traineddata
san Sanskrit san.traineddata 罪シンハラ語シンハラsin.traineddata
sin Sinhala; Sinhalese sin.traineddata slk スロバキアslk.traineddata
slk Slovak slk.traineddata slv スロベニア語slv.traineddata
slv Slovenian slv.traineddata スパスペイン語カスティーリャspa.traineddata
spa Spanish; Castilian spa.traineddata spa_old スペイン語カスティーリャ - オールド spa_old.traineddata
spa_old Spanish; Castilian - Old spa_old.traineddata sqi アルバニア語 sqi.traineddata
sqi Albanian sqi.traineddata srp セルビア語 srp.traineddata
srp Serbian srp.traineddata srp_latn セルビア語 - ラテン語 srp_latn.traineddata
srp_latn Serbian - Latin srp_latn.traineddata スワスワヒリ語 swa.traineddata
swa Swahili swa.traineddata 汗スウェーデン語 swe.traineddata
swe Swedish swe.traineddata syr シリアsyr.traineddata
syr Syriac syr.traineddata タムタミル語tam.traineddata
tam Tamil tam.traineddata tel テルグ語tel.traineddata
tel Telugu tel.traineddata tgk タジクtgk.traineddata
tgk Tajik tgk.traineddata tgl タガログ語 tgl.traineddata
tgl Tagalog tgl.traineddata tha タイ語 tha.traineddata
tha Thai tha.traineddata ティルティグリニャtir.traineddata
tir Tigrinya tir.traineddata tur トルコ語 tur.traineddata
tur Turkish tur.traineddata ウィッグウイグル語ウイグルuig.traineddata
uig Uighur; Uyghur uig.traineddata イギリスウクライナ語 ukr.traineddata
ukr Ukrainian ukr.traineddata urd ウルドゥー語urd.traineddata
urd Urdu urd.traineddata uzb ウズベク語uzb.traineddata
uzb Uzbek uzb.traineddata uzb_cyrl ウズベキスタン - キリル文字 uzb_cyrl.traineddata
uzb_cyrl Uzbek - Cyrillic uzb_cyrl.traineddata 争うベトナム人 vie.traineddata
vie Vietnamese vie.traineddata イードイディッシュ語yid.traineddata
yid Yiddish yid.traineddata
## Data Files for Version 3.04/3.05 ##バージョン3.04 / 3.05用のデータファイル
Note: For Arabic and Hindi you need both the traineddata file and the cube data files. 注意:アラビア語とヒンディー語の場合は、学習データファイルと[キューブデータファイル]の両方が必要です(#cube-data-files-for-version-304305)。
Lang Code Language 3.04 traineddata ラングコード 言語 3.04トレーニングデータ
:-------- :------- :--------------- :-------- :------- :---------------
afr Afrikaans afr.traineddata AFRアフリカーンス語 afr.traineddata
amh Amharic amh.traineddata ああアムハラ語 amh.traineddata
ara Arabic ara.traineddata あらアラビア語 ara.traineddata
asm Assamese asm.traineddata ASM アッサムasm.traineddata
aze Azerbaijani aze.traineddata あぜアゼルバイジャン語 aze.traineddata
aze_cyrl Azerbaijani - Cyrillic aze_cyrl.traineddata aze_cyrl アゼルバイジャン語 - キリル文字 aze_cyrl.traineddata
bel Belarusian bel.traineddata ベル ベラルーシ語bel.traineddata
ben Bengali ben.traineddata ベン ベンガル語ben.traineddata
bod Tibetan bod.traineddata ボディーチベットbod.traineddata
bos Bosnian bos.traineddata ボスボスニア語 bos.traineddata
bul Bulgarian bul.traineddata bul ブルガリア語 bul.traineddata
cat Catalan; Valencian cat.traineddata 猫カタロニア語バレンシアcat.traineddata
ceb Cebuano ceb.traineddata ceb セブアノceb.traineddata
ces Czech ces.traineddata ces チェコces.traineddata
chi_sim Chinese - Simplified chi_sim.traineddata chi_sim 中国語 - 簡体字 chi_sim.traineddata
chi_tra Chinese - Traditional chi_tra.traineddata chi_tra 繁体字中国語chi_tra.traineddata
chr Cherokee chr.traineddata chr チェロキーchr.traineddata
cym Welsh cym.traineddata cym ウェールズ語 cym.traineddata
dan Danish dan.traineddata ダン デンマーク語 dan.traineddata
deu German deu.traineddata デウドイツ語 deu.traineddata
dzo Dzongkha dzo.traineddata dzoゾンカdzo.traineddata
ell Greek, Modern (1453-) ell.traineddata ell ギリシャ語、モダン(1453-) ell.traineddata
eng English eng.traineddata eng 英語 eng.traineddata
enm English, Middle (1100-1500) enm.traineddata enm 英語、中(1100 - 1500) enm.traineddata
epo Esperanto epo.traineddata エポエスペラントepo.traineddata
est Estonian est.traineddata 最新 エストニア語 est.traineddata
eus Basque eus.traineddata ユー バスクeus.traineddata
fas Persian fas.traineddata fasペルシャ語 fas.traineddata
fin Finnish fin.traineddata ひれフィンランド語fin.traineddata
fra French fra.traineddata fra フランス語 fra.traineddata
frk Frankish frk.traineddata frk フランキー語frk.traineddata
frm French, Middle (ca. 1400-1600) frm.traineddata frm フランス語、中級(約1400-1600) frm.traineddata
gle Irish gle.traineddata グレアイルランドgle.traineddata
glg Galician glg.traineddata glg ガリシア語glg.traineddata
grc Greek, Ancient (-1453) grc.traineddata grc ギリシャ語、古代(-1453) grc.traineddata
guj Gujarati guj.traineddata guj グジャラート語 guj.traineddata
hat Haitian; Haitian Creole hat.traineddata 帽子ハイチ語ハイチクレオールhat.traineddata
heb Hebrew heb.traineddata ヘブヘブライ語 heb.traineddata
hin Hindi hin.traineddata ひんヒンディー語 hin.traineddata
hrv Croatian hrv.traineddata hrv クロアチア語 hrv.traineddata
hun Hungarian hun.traineddata フンハンガリー語hun.traineddata
iku Inuktitut iku.traineddata イクイヌクティットiku.traineddata
ind Indonesian ind.traineddata ind インドネシア語 ind.traineddata
isl Icelandic isl.traineddata isl アイスランド語 isl.traineddata
ita Italian ita.traineddata イタイタリア語 ita.traineddata
ita_old Italian - Old ita_old.traineddata ita_old イタリア語 - 古いita_old.traineddata
jav Javanese jav.traineddata Jav Javジャワjav.traineddata
jpn Japanese jpn.traineddata jpn 日本語 jpn.traineddata
kan Kannada kan.traineddata かんカンナダkan.traineddata
kat Georgian kat.traineddata キャットグルジア語 kat.traineddata
kat_old Georgian - Old kat_old.traineddata kat_old グルジア語 - 古いkat_old.traineddata
kaz Kazakh kaz.traineddata カズカザフkaz.traineddata
khm Central Khmer khm.traineddata khmセントラルクメールkhm.traineddata
kir Kirghiz; Kyrgyz kir.traineddata キルキルギスキルギスkir.traineddata
kor Korean kor.traineddata 韓国語 kor.traineddata
kur Kurdish kur.traineddata クルクルド人kur.traineddata
lao Lao lao.traineddata ラオスラオスlao.traineddata
lat Latin lat.traineddata 緯度ラテン語 lat.traineddata
lav Latvian lav.traineddata ラヴラトビア語lav.traineddata
lit Lithuanian lit.traineddata 点灯 リトアニア語lit.traineddata
mal Malayalam mal.traineddata Mal マラヤーラム語mal.traineddata
mar Marathi mar.traineddata 3月マラーティーmar.traineddata
mkd Macedonian mkd.traineddata mkd マケドニア語mkd.traineddata
mlt Maltese mlt.traineddata mlt マルタmlt.traineddata
msa Malay msa.traineddata msa マレー msa.traineddata
mya Burmese mya.traineddata ミアビルマmya.traineddata
nep Nepali nep.traineddata ネップネパールnep.traineddata
nld Dutch; Flemish nld.traineddata nld オランダの;フランドルnld.traineddata
nor Norwegian nor.traineddata またノルウェー語 nor.traineddata
ori Oriya ori.traineddata オリ オリヤori.traineddata
pan Panjabi; Punjabi pan.traineddata パン パンジャブ語パンジャブpan.traineddata
pol Polish pol.traineddata pol ポーランド語 pol.traineddata
por Portuguese por.traineddata por ポルトガル語 por.traineddata
pus Pushto; Pashto pus.traineddata 膿プッシューパシュトウpus.traineddata
ron Romanian; Moldavian; Moldovan ron.traineddata ロンルーマニア語モルダビアンモルドバron.traineddata
rus Russian rus.traineddata rus ロシア語 rus.traineddata
san Sanskrit san.traineddata さんサンスクリットsan.traineddata
sin Sinhala; Sinhalese sin.traineddata 罪シンハラ語シンハラsin.traineddata
slk Slovak slk.traineddata slk スロバキアslk.traineddata
slv Slovenian slv.traineddata slv スロベニア語slv.traineddata
spa Spanish; Castilian spa.traineddata スパスペイン語カスティーリャspa.traineddata
spa_old Spanish; Castilian - Old spa_old.traineddata spa_old スペイン語カスティーリャ - オールド spa_old.traineddata
sqi Albanian sqi.traineddata sqi アルバニア語 sqi.traineddata
srp Serbian srp.traineddata srp セルビア語 srp.traineddata
srp_latn Serbian - Latin srp_latn.traineddata srp_latn セルビア語 - ラテン語 srp_latn.traineddata
swa Swahili swa.traineddata スワスワヒリ語 swa.traineddata
swe Swedish swe.traineddata 汗スウェーデン語 swe.traineddata
syr Syriac syr.traineddata syr シリアsyr.traineddata
tam Tamil tam.traineddata タムタミル語tam.traineddata
tel Telugu tel.traineddata tel テルグ語tel.traineddata
tgk Tajik tgk.traineddata tgk タジクtgk.traineddata
tgl Tagalog tgl.traineddata tgl タガログ語 tgl.traineddata
tha Thai tha.traineddata tha タイ語 tha.traineddata
tir Tigrinya tir.traineddata ティルティグリニャtir.traineddata
tur Turkish tur.traineddata tur トルコ語 tur.traineddata
uig Uighur; Uyghur uig.traineddata ウィッグウイグル語ウイグルuig.traineddata
ukr Ukrainian ukr.traineddata イギリスウクライナ語 ukr.traineddata
urd Urdu urd.traineddata urd ウルドゥー語urd.traineddata
uzb Uzbek uzb.traineddata uzb ウズベク語uzb.traineddata
uzb_cyrl Uzbek - Cyrillic uzb_cyrl.traineddata uzb_cyrl ウズベキスタン - キリル文字 uzb_cyrl.traineddata
vie Vietnamese vie.traineddata 争うベトナム人 vie.traineddata
yid Yiddish yid.traineddata イードイディッシュ語yid.traineddata
## Cube Data Files for Version 3.04/3.05 ##バージョン3.04 / 3.05用のキューブデータファイル
In Tesseract 3.0x Arabic and Hindi use the Cube OCR engine. You need to download the cube files and move them to the same folder where the .traineddata file is located. Tesseract 3.0xでは、アラビア語とヒンディー語はCube OCRエンジンを使用します。キューブファイルをダウンロードして、それらを .traineddataファイルと同じフォルダーに移動する必要があります。
In Tesseract 4.0 the Cube OCR engine was removed from the codebase, so if you are using 4.0 or a newer version these files are not needed. Tesseract 4.0では、Cube OCRエンジンはコードベースから削除されたため、4.0以降のバージョンを使用している場合、これらのファイルは必要ありません。
Hindi: ヒンディー語:
hin.cube.bigrams, hin.cube.bigrams
hin.cube.fold, hin.cube.fold
hin.cube.lm, hin.cube.lm
hin.cube.nn, hin.cube.nn
hin.cube.params, hin.cube.params
hin.cube.word-freq, hin.cube.word-freq
hin.tesseract_cube.nn hin.tesseract_cube.nn
Arabic: アラビア語:
ara.cube.bigrams, ara.cube.bigrams
ara.cube.fold, ara.cube.fold
ara.cube.lm, ara.cube.lm
ara.cube.nn, ara.cube.nn
ara.cube.params, ara.cube.params
ara.cube.word-freq, ara.cube.word-freq
ara.cube.size, ara.cube.size
ara.tesseract_cube.nn ara.tesseract_cube.nn
## Fraktur Data Files ## Frakturデータファイル
These data files were prepared by @paalberti for some old versions of Tesseract. dan_frak, deu_frak and swe_frak were prepared for version 3.00, slk_frak was prepared for 3.01. Updates to these files are available at paalberti/tesseract-dan-fraktur. これらのデータファイルは、Tesseractの古いバージョン用に@paalbertiによって作成されました。 dan_frakdeu_frakおよび swe_frakはバージョン3.00用に準備され、slk_frakは3.01用に準備されました。これらのファイルの更新はpaalberti / tesseract-dan-frakturで入手できます。
Lang Code Language 3.0x traineddata ラングコード 言語 3.0xトレーニング済みデータ
:-------- :------- :---------------- :-------- :------- :----------------
dan_frak Danish - Fraktur dan_frak.traineddata dan_frak デンマーク語 - Fraktur dan_frak.traineddata
deu_frak German - Fraktur deu_frak.traineddata deu_frak ドイツ語 - Fraktur deu_frak.traineddata
slk_frak Slovak - Fraktur slk_frak.traineddata slk_frak スロバキア - Fraktur slk_frak.traineddata
swe_frak Swedish - Fraktur swe-frak.traineddata swe_frak スウェーデン語 - Fraktur swe-frak.traineddata
## Data Files for Version 3.02 ##バージョン3.02用のデータファイル
Lang Code Language 3.02 traineddata ラングコード 言語 3.02トレーニングデータ
:-------- :------- :---------------- :-------- :------- :----------------
afr Afrikaans tesseract-ocr-3.02.afr.tar.gz AFRアフリカーンス語 tesseract-ocr-3.02.afr.tar.gz
ara Arabic tesseract-ocr-3.02.ara.tar.gz あらアラビア語 tesseract-ocr-3.02.ara.tar.gz
aze Azerbaijani tesseract-ocr-3.02.aze.tar.gz あぜアゼルバイジャン語 tesseract-ocr-3.02.aze.tar.gz
bel Belarusian tesseract-ocr-3.02.bel.tar.gz ベル ベラルーシ語tesseract-ocr-3.02.bel.tar.gz
ben Bengali tesseract-ocr-3.02.ben.tar.gz ベン ベンガル語tesseract-ocr-3.02.ben.tar.gz
bul Bulgarian tesseract-ocr-3.02.bul.tar.gz bul ブルガリア語 tesseract-ocr-3.02.bul.tar.gz
cat Catalan; Valencian tesseract-ocr-3.02.cat.tar.gz 猫カタロニア語バレンシアtesseract-ocr-3.02.cat.tar.gz
ces Czech tesseract-ocr-3.02.ces.tar.gz ces チェコtesseract-ocr-3.02.ces.tar.gz
chi_sim Chinese - Simplified tesseract-ocr-3.02.chi_sim.tar.gz chi_sim 中国語 - 簡体字 tesseract-ocr-3.02.chi_sim.tar.gz
chi_tra Chinese - Traditional tesseract-ocr-3.02.chi_tra.tar.gz chi_tra 繁体字中国語tesseract-ocr-3.02.chi_tra.tar.gz
chr Cherokee tesseract-ocr-3.02.chr.tar.gz chr チェロキーtesseract-ocr-3.02.chr.tar.gz
dan Danish tesseract-ocr-3.02.dan.tar.gz ダン デンマーク語 tesseract-ocr-3.02.dan.tar.gz
deu German tesseract-ocr-3.02.deu.tar.gz デウドイツ語 tesseract-ocr-3.02.deu.tar.gz
ell Greek, Modern (1453-) tesseract-ocr-3.02.ell.tar.gz ell ギリシャ語、モダン(1453-) tesseract-ocr-3.02.ell.tar.gz
eng English tesseract-ocr-3.02.eng.tar.gz eng 英語 tesseract-ocr-3.02.eng.tar.gz
enm English, Middle (1100-1500) tesseract-ocr-3.02.enm.tar.gz enm 英語、中(1100 - 1500) tesseract-ocr-3.02.enm.tar.gz
epo Esperanto tesseract-ocr-3.02.epo.tar.gz エポエスペラントtesseract-ocr-3.02.epo.tar.gz
est Estonian tesseract-ocr-3.02.est.tar.gz 最新 エストニア語 tesseract-ocr-3.02.est.tar.gz
eus Basque tesseract-ocr-3.02.eus.tar.gz ユー バスクtesseract-ocr-3.02.eus.tar.gz
fin Finnish tesseract-ocr-3.02.fin.tar.gz ひれフィンランド語tesseract-ocr-3.02.fin.tar.gz
fra French tesseract-ocr-3.02.fra.tar.gz fra フランス語 tesseract-ocr-3.02.fra.tar.gz
frk Frankish tesseract-ocr-3.02.frk.tar.gz frk フランキー語tesseract-ocr-3.02.frk.tar.gz
frm French, Middle (ca. 1400-1600) tesseract-ocr-3.02.frm.tar.gz frm フランス語、中級(約1400-1600) tesseract-ocr-3.02.frm.tar.gz
glg Galician tesseract-ocr-3.02.glg.tar.gz glg ガリシア語tesseract-ocr-3.02.glg.tar.gz
grc Greek, Ancient (-1453) tesseract-ocr-3.02.grc.tar.gz grc ギリシャ語、古代(-1453) tesseract-ocr-3.02.grc.tar.gz
heb Hebrew tesseract-ocr-3.02.heb.tar.gz ヘブヘブライ語 tesseract-ocr-3.02.heb.tar.gz
hin Hindi tesseract-ocr-3.02.hin.tar.gz ひんヒンディー語 tesseract-ocr-3.02.hin.tar.gz
hrv Croatian tesseract-ocr-3.02.hrv.tar.gz hrv クロアチア語 tesseract-ocr-3.02.hrv.tar.gz
hun Hungarian tesseract-ocr-3.02.hun.tar.gz フンハンガリー語tesseract-ocr-3.02.hun.tar.gz
ind Indonesian tesseract-ocr-3.02.ind.tar.gz ind インドネシア語 tesseract-ocr-3.02.ind.tar.gz
isl Icelandic tesseract-ocr-3.02.isl.tar.gz isl アイスランド語 tesseract-ocr-3.02.isl.tar.gz
ita Italian tesseract-ocr-3.02.ita.tar.gz イタイタリア語 tesseract-ocr-3.02.ita.tar.gz
ita_old Italian - Old tesseract-ocr-3.02.ita_old.tar.gz ita_old イタリア語 - 古いtesseract-ocr-3.02.ita_old.tar.gz
jpn Japanese tesseract-ocr-3.02.jpn.tar.gz jpn 日本語 tesseract-ocr-3.02.jpn.tar.gz
kan Kannada tesseract-ocr-3.02.kan.tar.gz かんカンナダtesseract-ocr-3.02.kan.tar.gz
kor Korean tesseract-ocr-3.02.kor.tar.gz 韓国語 tesseract-ocr-3.02.kor.tar.gz
lav Latvian tesseract-ocr-3.02.lav.tar.gz ラヴラトビア語tesseract-ocr-3.02.lav.tar.gz
lit Lithuanian tesseract-ocr-3.02.lit.tar.gz 点灯 リトアニア語tesseract-ocr-3.02.lit.tar.gz
mal Malayalam tesseract-ocr-3.02.mal.tar.gz Mal マラヤーラム語tesseract-ocr-3.02.mal.tar.gz
mkd Macedonian tesseract-ocr-3.02.mkd.tar.gz mkd マケドニア語tesseract-ocr-3.02.mkd.tar.gz
mlt Maltese tesseract-ocr-3.02.mlt.tar.gz mlt マルタtesseract-ocr-3.02.mlt.tar.gz
msa Malay tesseract-ocr-3.02.msa.tar.gz msa マレー tesseract-ocr-3.02.msa.tar.gz
nld Dutch; Flemish tesseract-ocr-3.02.nld.tar.gz nld オランダの;フランドルtesseract-ocr-3.02.nld.tar.gz
nor Norwegian tesseract-ocr-3.02.nor.tar.gz またノルウェー語 tesseract-ocr-3.02.nor.tar.gz
pol Polish tesseract-ocr-3.02.pol.tar.gz pol ポーランド語 tesseract-ocr-3.02.pol.tar.gz
por Portuguese tesseract-ocr-3.02.por.tar.gz por ポルトガル語 tesseract-ocr-3.02.por.tar.gz
ron Romanian; Moldavian; Moldovan tesseract-ocr-3.02.ron.tar.gz ロンルーマニア語モルダビアンモルドバtesseract-ocr-3.02.ron.tar.gz
rus Russian tesseract-ocr-3.02.rus.tar.gz rus ロシア語 tesseract-ocr-3.02.rus.tar.gz
slk Slovak tesseract-ocr-3.02.slk.tar.gz slk スロバキアtesseract-ocr-3.02.slk.tar.gz
slv Slovenian tesseract-ocr-3.02.slv.tar.gz slv スロベニア語tesseract-ocr-3.02.slv.tar.gz
spa Spanish; Castilian tesseract-ocr-3.02.spa.tar.gz スパスペイン語カスティーリャtesseract-ocr-3.02.spa.tar.gz
spa_old Spanish; Castilian - Old tesseract-ocr-3.02.spa_old.tar.gz spa_old スペイン語カスティーリャ - オールド tesseract-ocr-3.02.spa_old.tar.gz
sqi Albanian tesseract-ocr-3.02.sqi.tar.gz sqi アルバニア語 tesseract-ocr-3.02.sqi.tar.gz
srp Serbian tesseract-ocr-3.02.srp.tar.gz srp セルビア語 tesseract-ocr-3.02.srp.tar.gz
swa Swahili tesseract-ocr-3.02.swa.tar.gz スワスワヒリ語 tesseract-ocr-3.02.swa.tar.gz
swe Swedish tesseract-ocr-3.02.swe.tar.gz 汗スウェーデン語 tesseract-ocr-3.02.swe.tar.gz
tam Tamil tesseract-ocr-3.02.tam.tar.gz タムタミル語tesseract-ocr-3.02.tam.tar.gz
tel Telugu tesseract-ocr-3.02.tel.tar.gz tel テルグ語tesseract-ocr-3.02.tel.tar.gz
tgl Tagalog tesseract-ocr-3.02.tgl.tar.gz tgl タガログ語 tesseract-ocr-3.02.tgl.tar.gz
tha Thai tesseract-ocr-3.02.tha.tar.gz tha タイ語 tesseract-ocr-3.02.tha.tar.gz
tur Turkish tesseract-ocr-3.02.tur.tar.gz tur トルコ語 tesseract-ocr-3.02.tur.tar.gz
ukr Ukrainian tesseract-ocr-3.02.ukr.tar.gz イギリスウクライナ語 tesseract-ocr-3.02.ukr.tar.gz
vie Vietnamese tesseract-ocr-3.02.vie.tar.gz 争うベトナム人 tesseract-ocr-3.02.vie.tar.gz
## Data Files for Version 2.0x ##バージョン2.0x用のデータファイル
Lang Code Language 2.0x traineddata ラングコード 言語 2.0xトレーニング済みデータ
:-------- :------- :---------------- :-------- :------- :----------------
deu German tesseract-2.00.deu.tar.gz デウドイツ語 tesseract-2.00.deu.tar.gz
deu-f German - Fraktur tesseract-2.01.deu-f.tar.gz deu-f ドイツ語 - Fraktur tesseract-2.01.deu-f.tar.gz
eng English tesseract-2.00.eng.tar.gz eng 英語 tesseract-2.00.eng.tar.gz
eus Basque tesseract-2.04-eus.tar.gz ユー バスクtesseract-2.04-eus.tar.gz
fra French tesseract-2.00.fra.tar.gz fra フランス語 tesseract-2.00.fra.tar.gz
ita Italian tesseract-2.00.ita.tar.gz イタイタリア語 tesseract-2.00.ita.tar.gz
nld Dutch; Flemish tesseract-2.00.nld.tar.gz nld オランダの;フランドルtesseract-2.00.nld.tar.gz
por Portuguese tesseract-2.01.por.tar.gz por ポルトガル語 tesseract-2.01.por.tar.gz
spa Spanish; Castilian tesseract-2.00.spa.tar.gz スパスペイン語カスティーリャtesseract-2.00.spa.tar.gz
vie Vietnamese tesseract-2.01.vie.tar.gz 争うベトナム人 tesseract-2.01.vie.tar.gz
## Format of traineddata files ##訓練されたデータファイルのフォーマット
The traineddata file for each language is an archive file in a Tesseract specific format. It contains several uncompressed component files which are needed by the Tesseract OCR process. The program combine_tessdata is used to create a tessdata file from the component files and can also extract them again like in the following examples: 各言語の traineddataファイルはTesseract特有のフォーマットのアーカイブファイルです。それはTesseract OCRプロセスによって必要とされるいくつかの非圧縮コンポーネントファイルを含みます。プログラム combine_tessdataは、コンポーネントファイルからtessdataファイルを作成するのに使われていて、以下の例のようにそれらを再び抽出することもできます:
### Pre 4.0.0 format from Nov 2016 (with both LSTM and Legacy models) 2016年11月からの###プレ4.0.0フォーマット(LSTMとLegacyの両方のモデルを含む)
` | `
combine_tessdata -u eng.traineddata eng. combine_tessdata -u eng.traineddata eng。
Extracting tessdata components from eng.traineddata eng.traineddataからのtessdataコンポーネントの抽出
Wrote eng.unicharset eng.unicharsetを書き込みました
Wrote eng.unicharambigs eng.unicharambigsを書きました
Wrote eng.inttemp eng.inttempを書きました
Wrote eng.pffmtable eng.pffmtableを書きました
Wrote eng.normproto eng.normprotoを書きました
Wrote eng.punc-dawg eng.punc-dawgを書きました
Wrote eng.word-dawg eng.word-dawgを書いた。
Wrote eng.number-dawg eng.number-dawgを書き込みました
Wrote eng.freq-dawg eng.freq-dawgを書き込みました
Wrote eng.cube-unicharset eng.cube-unicharsetを書き込みました
Wrote eng.cube-word-dawg eng.cube-word-dawgを書き込みました
Wrote eng.shapetable eng.shapetableを書き込みました
Wrote eng.bigram-dawg eng.bigram-dawgを書きました
Wrote eng.lstm 英語を書く
Wrote eng.lstm-punc-dawg eng.lstm-punc-dawgを書き込みました
Wrote eng.lstm-word-dawg eng.lstm-word-dawgを書き込みました
Wrote eng.lstm-number-dawg eng.lstm-number-dawgを書き込みました。
Wrote eng.version eng.versionを書きました
Version string:Pre-4.0.0 バージョン文字列:4.0.0以前
1:unicharset:size=7477, offset=192 1:ユニセット:サイズ= 7477、オフセット= 192
2:unicharambigs:size=1047, offset=7669 2:unicharambigs:サイズ= 1047、オフセット= 7669
3:inttemp:size=976552, offset=8716 3:inttemp:size = 976552、offset = 8716
4:pffmtable:size=844, offset=985268 4:pffmtable:サイズ= 844、オフセット= 985268
5:normproto:size=13408, offset=986112 5:normproto:サイズ= 13408、オフセット= 986112
6:punc-dawg:size=4322, offset=999520 6:punc-dawg:サイズ= 4322、オフセット= 999520
7:word-dawg:size=1082890, offset=1003842 7:単語 - 夜明け:サイズ= 1082890、オフセット= 1003842
8:number-dawg:size=6426, offset=2086732 8:number-dawg:サイズ= 6426、オフセット= 2086732
9:freq-dawg:size=1410, offset=2093158 9:freq-dawg:サイズ= 1410、オフセット= 2093158
11:cube-unicharset:size=1511, offset=2094568 11:立方ユニキャスト:サイズ= 1511、オフセット= 2094568
12:cube-word-dawg:size=1062106, offset=2096079 12:cube-word-dawg:サイズ= 1062106、オフセット= 2096079
13:shapetable:size=63346, offset=3158185 13:シェイプテーブル:サイズ= 63346、オフセット= 3158185
14:bigram-dawg:size=16109842, offset=3221531 14:bigram-dawg:サイズ= 16109842、オフセット= 3221531
17:lstm:size=5390718, offset=19331373 17:lstm:サイズ= 5390718、オフセット= 19331373
18:lstm-punc-dawg:size=4322, offset=24722091 18:lstm-punc-dawg:サイズ= 4322、オフセット= 24722091
19:lstm-word-dawg:size=7143578, offset=24726413 19:lstm-word-dawg:サイズ= 7143578、オフセット= 24726413
20:lstm-number-dawg:size=3530, offset=31869991 20:lstm-number-dawg:サイズ= 3530、オフセット= 31869991
23:version:size=9, offset=31873521 23:バージョン:サイズ= 9、オフセット= 31873521
` | `
### 4.00.00alpha LSTM only format ### 4.00.00alpha LSTMのみのフォーマット
` | `
combine_tessdata -u eng.traineddata eng. combine_tessdata -u eng.traineddata eng。
Extracting tessdata components from eng.traineddata eng.traineddataからのtessdataコンポーネントの抽出
Wrote eng.lstm 英語を書く
Wrote eng.lstm-punc-dawg eng.lstm-punc-dawgを書き込みました
Wrote eng.lstm-word-dawg eng.lstm-word-dawgを書き込みました
Wrote eng.lstm-number-dawg eng.lstm-number-dawgを書き込みました。
Wrote eng.lstm-unicharset eng.lstm-unicharsetを書き込みました
Wrote eng.lstm-recoder eng.lstm-recoderを書きました
Wrote eng.version eng.versionを書きました
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1] バージョン文字列:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192 17:lstm:サイズ= 11689099、オフセット= 192
18:lstm-punc-dawg:size=4322, offset=11689291 18:lstm-punc-dawg:サイズ= 4322、オフセット= 11689291
19:lstm-word-dawg:size=3694794, offset=11693613 19:lstm-word-dawg:サイズ= 3694794、オフセット= 11693613
20:lstm-number-dawg:size=4738, offset=15388407 20:lstm-number-dawg:サイズ= 4738、オフセット= 15388407
21:lstm-unicharset:size=6360, offset=15393145 21:lstm-unicharset:size = 6360、offset = 15393145
22:lstm-recoder:size=1012, offset=15399505 22:lstmレコーダ:サイズ= 1012、オフセット= 15399505
23:version:size=80, offset=15400517 23:バージョン:サイズ= 80、オフセット= 15400517
` | `
### Proposal for compressed traineddata files ###圧縮トレーニングデータファイルの提案
There are some proposals to replace the Tesseract archive format by a standard archive format which could also support compression. A [discussion on the tesseract-dev forum](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip sort:date/tesseract-dev/U5HSugUeeeI) proposed the ZIP format already in 2014. In 2017 an experimental implementation was provided as a pull request. Tesseractアーカイブ形式を、圧縮をサポートすることもできる標準アーカイブ形式に置き換える提案がいくつかあります。 [tesseract-devフォーラムでの議論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip sort:date/tesseract-dev/U5HSugUeeeI)がZIPを提案しましたフォーマットはすでに2014年にあります。2017年には、実験的実装がプルリクエストとして提供されました。
最終更新:2019年08月19日 20:54