See testing section in |
のテストセクションを参照してください。 |
https://github.com/tesseract-ocr/docs/blob/master/das_tutorial2016/7Building%20a%20Multi-Lingual%20OCR%20Engine.pdf for accuracy rates for different languages. |
言語ごとの正解率については、https://github.com/tesseract-ocr/docs/blob/master/das_tutorial2016/7Building%20a%20Multi-Lingual%20OCR%20Engine.pdfを参照してください。 |
---------------------- |
---------------------- |
Big test in Google Data Center (Hindi?) |
Google Data Centerで大きなテスト(ヒンディー語) |
Engine |
|
Total char errors |
Word Recall Errors |
Word Precision Errors |
Walltime |
CPUtime* |
--- |
--- |
--- |
--- |
--- |
--- |
|
|
--- |
--- |
--- |
--- |
--- |
--- |
Tess 3.04 |
|
13.9 |
Cube |
|
15.1 |
Tess+Cube |
|
11.0 |
LSTM |
|
7.6 |
Note in the above table that LSTM is faster than Tess 3.04 (without adding cube) in both wall time and CPU time! For wall time by a factor of 2. |
上記の表では、LSTMは(キューブを追加せずに)Tess 3.04よりも実時間とCPU時間の両方で速いことに注意してください。実時間の場合は2倍です。 |
------ |
------ |
Median of three results from test on HP Z420 on a single Hindi page. |
単一のヒンディー語ページでのHP Z420でのテストの結果の中央値。 |
Test Mode |
Real |
User |
|
|
テストモードリアル |
ユーザー |
--- |
--- |
--- |
|
|
--- |
--- |
--- |
Original (cube + tess) |
7.6 |
7.3 |
|
|
オリジナル(立方体+テス) |
7.6 |
7.3 |
Base Tess |
2.9 |
2.6 |
|
|
ベーステス2.9 |
2.6 |
Cube |
5.4 |
4.9 |
|
|
キューブ5.4 |
4.9 |
LSTM With OpenMP+AVX |
1.8 |
3.8 |
|
|
OpenMP + AVXによるLSTM 1.8 |
3.8 |
LSTM No OpenMP with AVX |
2.7 |
2.4 |
|
|
LSTM、AVXを使用したOpenMPなし2.7 |
2.4 |
LSTM No OpenMP with SSE |
3.1 |
2.7 |
|
|
SSTMによるLSTM No OpenMP 3.1 |
2.7 |
LSTM No OpenMP no SIMD at all |
4.6 |
4.1 |
|
|
LSTMいいえOpenMPいいえSIMD 4.6 |
4.1 |
--------------- |
--------------- |
> My first test with a simple screenshot gave significant better results with LSTM, but needed 16 minutes CPU time (instead of 9 seconds) with a debug build of Tesseract (-O0). A release build (-O2) needs 17 seconds with LSTM, 4 seconds without for the same image. |
>簡単なスクリーンショットでの私の最初のテストはLSTMでかなり良い結果をもたらしましたが、Tesseractのデバッグビルド(-O0)で16分のCPU時間(9秒の代わりに)を必要としました。リリースビルド(-O2)はLSTMで17秒、同じイメージでは4秒かかりません。 |
The slow speed with debug is to be expected. The new code is much more memory intensive, so it is a lot slower on debug (also openmp is turned off by choice on debug). The optimized build speed sounds about right for Latin-based languages. It |
デバッグ速度が遅いことが予想されます。新しいコードははるかに多くのメモリを消費するので、デバッグ時にはずっと遅くなります(openmpはデバッグ時に選択によってオフにされます)。最適化されたビルドスピードはラテン語ベースの言語にはまさに響きます。それ |
is the complex scripts that will run faster relative to base Tesseract. |
基本的なTesseractに比べて高速に実行される複雑なスクリプトです。 |
------------------------------- |
------------------------------- |
Ref: https://github.com/tesseract-ocr/tesseract/issues/40 |
参照:https://github.com/tesseract-ocr/tesseract/issues/40 |