frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/28 付)
------------------------------------ ------------------------------------
### For training Neural net based LSTM Tesseract 4.00 see Training Tesseract 4.00 ###ニューラルネットベースのLSTM Tesseract 4.00をトレーニングするにはTraining Tesseract 4.00を参照してください。
------------------------------------- -------------------------------------
### How to use the tools provided to train Tesseract 3.00–3.02 for a new language? ###新しい言語のためにTesseract 3.00–3.02を訓練するために提供されたツールをどのように使いますか?
NOTE: These instructions are for older versions of Tesseract. Training instructions for the more recent versions are [[here Training-Tesseract]]. 注:これらの説明は古いバージョンのTesseract用です。より新しいバージョンのためのトレーニング指示は[[here Training-Tesseract]]です。
* Introduction   * はじめに
* Background and Limitations   * 背景と制限
* Data files required   * 必要なデータファイル
* Requirements for text input files     * テキスト入力ファイルの要件
* How little can you get away with?     * あなたはどのくらい逃げることができますか?
* Training Procedure   * トレーニング手順
* Generate Training Images     * トレーニング画像の生成
* Make Box Files     * ボックスファイルの作成
* Bootstrapping a new character set       * 新しい文字セットのブートストラップ
* Tif/Box pairs provided!       * Tif / Boxペアが提供されました!
* Run Tesseract for Training     * トレーニングのためにTesseractを実行する
* Compute the Character Set     * 文字セットを計算する
* font_properties (new in 3.01)     * font_properties(3.01の新機能)
* Clustering     * クラスタリング
* shapeclustering (new in 3.02)       * shapeclustering(3.02の新機能)
* mftraining       * mftraining
* cntraining       * cntraining
* Dictionary Data (Optional)     * [辞書データ(任意)](#辞書データ - 任意)
* The last file (unicharambigs)     * 最後のファイル(unicharambigs)
* Putting it all together   * 全部まとめて
# Introduction # 前書き
Tesseract 3.0x is fully trainable. This page describes the training process, provides some guidelines on applicability to various languages, and what to expect from the results. Tesseract 3.0xは完全にトレーニング可能です。このページでは、トレーニングプロセスについて説明し、さまざまな言語への適用性に関するガイドライン、および結果から何を期待するかについて説明します。
3rd Party training tools are also available for training. サードパーティのトレーニングツールもトレーニングに利用できます。
Please check the list of languages for which traineddata is already available as of release 3.04 before embarking on training. トレーニングを開始する前に、traineddataがリリース3.04以降ですでに使用可能である言語のリストを確認してください。
# Background and Limitations #背景と制限
Tesseract was originally designed to recognize English text only. Efforts have been made to modify the engine and its training system to make them able to deal with other languages and UTF-8 characters. Tesseract 3.0 can handle any Unicode characters (coded with UTF-8), but there are limits as to the range of languages that it will be successful with, so please take this section into account before building up your hopes that it will work well on your particular language! Tesseractはもともと英語のテキストだけを認識するように設計されました。エンジンとそのトレーニングシステムを変更して、他の言語とUTF-8文字を処理できるようにする努力がなされています。 Tesseract 3.0は(UTF-8でコード化された)どんなユニコード文字も扱うことができますが、それがうまくいく言語の範囲に関して制限があるので、それがうまくいくことを期待する前にこのセクションを考慮に入れてくださいあなたの特定の言語!
Tesseract 3.01 added top-to-bottom languages, and Tesseract 3.02 added Hebrew (right-to-left). Tesseract currently handles scripts like Arabic and Hindi with an auxiliary engine called cube (included in Tesseract 3.0+). Traineddata for additional [languages] (https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages) has been provided by Google for the 3.04 release. Tesseract 3.01では上から下への言語が追加され、Tesseract 3.02ではヘブライ語(右から左へ)が追加されました。 Tesseractは現在、cubeと呼ばれる補助エンジン(Tesseract 3.0以降に含まれています)を使ってアラビア語やヒンディー語などのスクリプトを処理します。追加の[言語]のトレーニングデータ(https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages)が3.04リリース用にGoogleから提供されています
Tesseract is slower with large character set languages (like Chinese), but it seems to work OK. Tesseractは(中国語のような)大きな文字セット言語では遅くなりますが、うまくいくようです。
Tesseract needs to know about different shapes of the same character by having different fonts separated explicitly. The number of fonts is limited to 64 fonts. Note that runtime is heavily dependent on the number of fonts provided, and training more than 32 will result in a significant slow-down. Tesseractは、異なるフォントを明示的に分離することによって、同じ文字の異なる形状について知る必要があります。フォント数は64フォントに制限されています。実行時間は提供されるフォントの数に大きく依存します。32以上のトレーニングは大幅に遅くなります。
For versions 3.00/3.01, any language that has different punctuation and numbers is going to be disadvantaged by some of the hard-coded algorithms that assume ASCII punctuation and digits. [Fixed in 3.02] バージョン3.00 / 3.01では、異なる句読点と数字を持つ言語は、ASCII句読点と数字を想定したハードコードされたアルゴリズムによって不利になるでしょう。 [3.02で修正]
You need to run all commands in the same folder where your input files are located. 入力ファイルが置かれているのと同じフォルダーですべてのコマンドを実行する必要があります。
# Data files required #必要なデータファイル
To train for another language, you have to create some data files in the tessdata subdirectory, and then crunch these together into a single file, using combine_tessdata. The naming convention is languagecode.file_name Language codes for released files follow the ISO 639-3 standard, but any string can be used. The files used for English (3.00) are: 別の言語を訓練するには、いくつかのデータファイルを tessdataサブディレクトリに作成してから、それらをcombine_tessdataを使用して1つのファイルにまとめる必要があります。命名規則は languagecode.file_nameですリリースされたファイルの言語コードはISO 639-3規格に従いますが、どんな文字列でも使用できます。英語(3.00)に使用されるファイルは次のとおりです。
* tessdata/eng.config * tessdata / eng.config
* tessdata/eng.unicharset * tessdata / eng.unicharset
* tessdata/eng.unicharambigs * tessdata / eng.unicharambigs
* tessdata/eng.inttemp * tessdata / eng.inttemp
* tessdata/eng.pffmtable * tessdata / eng.pffmtable
* tessdata/eng.normproto * tessdata / eng.normproto
* tessdata/eng.punc-dawg * tessdata / eng.punc-dawg
* tessdata/eng.word-dawg * tessdata / eng.word-dawg
* tessdata/eng.number-dawg * tessdata / eng.number-dawg
* tessdata/eng.freq-dawg * tessdata / eng.freq-dawg
... and the final crunched file is: ...そして最後のクランチファイルは次のとおりです。
* tessdata/eng.traineddata * tessdata / eng.traineddata
and そして
* tessdata/eng.user-words * tessdata / eng.user-words
may still be provided separately. まだ別に提供されるかもしれません。
The traineddata file is simply a concatenation of the input files, with a table of contents that contains the offsets of the known file types. See ccutil/tessdatamanager.h in the source code for a list of the currently accepted filenames. NOTE the files in the traineddata file are different from the list used prior to 3.00, and will most likely change, possibly dramatically in future revisions. 訓練されたデータファイルは単に既知のファイルタイプのオフセットを含む目次を持つ入力ファイルの連結です。現在受け入れられているファイル名のリストについては、ソースコードのccutil / tessdatamanager.hを参照してください。 NOTE traineddataファイルのファイルは3.00以前に使用されていたリストとは異なり、おそらく将来の改訂で劇的に変わるでしょう。
## Requirements for text input files ##テキスト入力ファイルの要件
Text input files (lang.config, lang.unicharambigs, font_properties, box files, wordlists for dictionaries...) need to meet these criteria: テキスト入力ファイル(lang.config、lang.unicharambigs、font \ _properties、ボックスファイル、辞書の単語リスト...)は、次の基準を満たす必要があります。
* ASCII or UTF-8 encoding without BOM * [BOM]なしのASCIIまたはUTF-8エンコーディング(http://ja.wikipedia.org/wiki/Byte_order_mark)
* Unix end-of-line marker ('\n') * Unix 行末マーカー( '\ n')
* The last character must be an end of line marker ('\n'). Some text editors will show this as an empty line at the end of file. If you omit this you will get an error message containing "last_char == '\n':Error:Assert failed..." *最後の文字は行末マーカー( '\ n')でなければなりません。テキストエディタの中にはこれをファイルの最後に空行として表示するものがあります。これを省略すると、 "last \ _char == '\ n':エラー:アサートに失敗しました..."を含むエラーメッセージが表示されます。
## How little can you get away with? ##あなたはどのくらい逃げることができますか?
You must create unicharset, inttemp, normproto, pffmtable using the procedure described below. If you are only trying to recognize a limited range of fonts (like a single font for instance), then a single training page might be enough. The other files no longer need to be provided, but will most likely improve accuracy, depending on your application. あなたは以下で説明される手順を使って unicharsetinttempnormprotopffmtableを作成しなければなりません。限られた範囲のフォント(たとえば単一のフォントなど)のみを認識しようとしている場合は、単一のトレーニングページで十分かもしれません。他のファイルを提供する必要はなくなりましたが、アプリケーションによっては正確性が向上する可能性があります。
# Training Procedure #トレーニング手順
Some of the procedure is inevitably manual. As much automated help as possible is provided. The tools referenced below are all built in the training subdirectory. 手順のいくつかは必然的に手動です。できるだけ多くの自動ヘルプが提供されています。下記のツールはすべてtrainingサブディレクトリに構築されています。
## Generate Training Images ##トレーニング画像を生成する
The first step is to determine the full character set to be used, and prepare a text or word processor file containing a set of examples. The most important points to bear in mind when creating a training file are: 最初のステップは、使用する全文字セットを決定し、一連の例を含むテキストまたはワードプロセッサフ​​ァイルを準備することです。トレーニングファイルを作成する際に留意する必要がある最も重要な点は次のとおりです。
* Make sure there are a minimum number of samples of each character. 10 is good, but 5 is OK for rare characters. *各文字のサンプル数が最小であることを確認してください。 10が良いですが、5はまれな文字のためにOKです。
* There should be more samples of the more frequent characters - at least 20. *より頻繁な文字のサンプルがもっとあるはずです - 少なくとも20。
* Don't make the mistake of grouping all the non-letters together. Make the text more realistic. For example, The quick brown fox jumps over the lazy dog. 0123456789 !@#$%^&(),.{}<>/? is terrible. Much better is The (quick) brown {fox} jumps! over the $3,456.78 <lazy> #90 dog & duck/goose, as 12.5% of E-mail from aspammer@website.com is spam? This gives the textline finding code a much better chance of getting sensible baseline metrics for the special characters. *すべての非文字を一緒にグループ化するのを間違えないでください。テキストをよりリアルにします。例えば、速い茶色のキツネは怠惰な犬を飛び越えます。 0123456789!@#$%^&()、。{}&lt;&gt; /?はひどいです。はるかに良いです (速い)茶色の{fox}はジャンプします! $ 3,456.78以上の
最終更新:2019年08月20日 20:35