frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/18 付)
See testing section in のテストセクションを参照してください。
https://github.com/tesseract-ocr/docs/blob/master/das_tutorial2016/7Building%20a%20Multi-Lingual%20OCR%20Engine.pdf for accuracy rates for different languages. 言語ごとの正解率については、https://github.com/tesseract-ocr/docs/blob/master/das_tutorial2016/7Building%20a%20Multi-Lingual%20OCR%20Engine.pdfを参照してください
---------------------- ----------------------
Big test in Google Data Center (Hindi?) Google Data Centerで大きなテスト(ヒンディー語)
Engine Total char errors Word Recall Errors Word Precision Errors Walltime CPUtime*
--- --- --- --- --- --- --- --- --- --- --- ---
Tess 3.04 13.9
Cube 15.1
Tess+Cube 11.0
LSTM 7.6
Note in the above table that LSTM is faster than Tess 3.04 (without adding cube) in both wall time and CPU time! For wall time by a factor of 2. 上記の表では、LSTMは(キューブを追加せずに)Tess 3.04よりも実時間とCPU時間の両方で速いことに注意してください。実時間の場合は2倍です。
------ ------
Median of three results from test on HP Z420 on a single Hindi page. 単一のヒンディー語ページでのHP Z420でのテストの結果の中央値。
Test Mode Real User テストモードリアル ユーザー
--- --- --- --- --- ---
Original (cube + tess) 7.6 7.3 オリジナル(立方体+テス) 7.6 7.3
Base Tess 2.9 2.6 ベーステス2.9 2.6
Cube 5.4 4.9 キューブ5.4 4.9
LSTM With OpenMP+AVX 1.8 3.8 OpenMP + AVXによるLSTM 1.8 3.8
LSTM No OpenMP with AVX 2.7 2.4 LSTM、AVXを使用したOpenMPなし2.7 2.4
LSTM No OpenMP with SSE 3.1 2.7 SSTMによるLSTM No OpenMP 3.1 2.7
LSTM No OpenMP no SIMD at all 4.6 4.1 LSTMいいえOpenMPいいえSIMD 4.6 4.1
--------------- ---------------
> My first test with a simple screenshot gave significant better results with LSTM, but needed 16 minutes CPU time (instead of 9 seconds) with a debug build of Tesseract (-O0). A release build (-O2) needs 17 seconds with LSTM, 4 seconds without for the same image. >簡単なスクリーンショットでの私の最初のテストはLSTMでかなり良い結果をもたらしましたが、Tesseractのデバッグビルド(-O0)で16分のCPU時間(9秒の代わりに)を必要としました。リリースビルド(-O2)はLSTMで17秒、同じイメージでは4秒かかりません。
The slow speed with debug is to be expected. The new code is much more memory intensive, so it is a lot slower on debug (also openmp is turned off by choice on debug). The optimized build speed sounds about right for Latin-based languages. It デバッグ速度が遅いことが予想されます。新しいコードははるかに多くのメモリを消費するので、デバッグ時にはずっと遅くなります(openmpはデバッグ時に選択によってオフにされます)。最適化されたビルドスピードはラテン語ベースの言語にはまさに響きます。それ
is the complex scripts that will run faster relative to base Tesseract. 基本的なTesseractに比べて高速に実行される複雑なスクリプトです。
------------------------------- -------------------------------
Ref: https://github.com/tesseract-ocr/tesseract/issues/40 参照:https://github.com/tesseract-ocr/tesseract/issues/40
最終更新:2019年06月12日 20:37