# Tesseract release planning |
#Tesseractのリリース計画 |
Here we can plan the next releases of Tesseract. |
ここで、Tesseractの次のリリースを計画することができます。 |
## Future releases |
##今後のリリース |
Here are some ideas for future Tesseract releases. |
これが将来のTesseractリリースのためのいくつかのアイデアです。 |
* Modernize the code using C++11 (see discussions here and here). |
* C ++ 11を使ってコードを近代化する(議論ここおよびここ / tesseract-ocr / tesseract / commit / 69a2e94bc52b57ba26081fb43051dacf2fdc56a0)。 |
* Use llvm's tools: clang-format, clang-tidy, scan-build, sanitizers. |
* llvmのツールを使う:clang-format、clang-tidy、scan-build、sanitizers。 |
* Replace more Tesseract data types by C++ standard types (GenericVector , ...), especially for the API. |
*特にAPIのために、より多くのTesseractデータ型をC ++標準型( GenericVector など)に置き換えます。 |
* Add json (or xml) output format. It will be used for full ocr and for psm 2 - layout info only. |
* json(またはxml)出力フォーマットを追加してください。これはfull ocrとpsm 2に使用されます - レイアウト情報のみ。 |
* Add option to use alternative binarization methods from leptonica. |
* leptonicaの代替二値化方法を使うためのオプションを追加。 |
* Add an option to output separate files for multipage input (out1.hocr, out2.hocr ...). |
*複数ページ入力用に別々のファイルを出力するオプション(out1.hocr、out2.hocr ...)を追加しました。 |
* Add multi-threading option to the command line (openmp will be disabled at runtime in this mode). |
*コマンドラインにマルチスレッドオプションを追加しました(このモードではopenmpは実行時に無効になります)。 |
* Explore the option to use Protocol Buffers or FlatBuffers for the traineddata. |
*訓練されたデータにプロトコルバッファまたはフラットバッファを使用するオプションを調べてください。 |
* Improve error handling and don't ignore return values from functions (see discussion). |
*エラー処理を改善し、関数からの戻り値を無視しないようにしました(discussionを参照)。 |
## 4.0.0 |
## 4.0.0 |
See the release notes. |
リリースノートを参照してください。 |
See also the discussion for issue #1423. |
issue#1423の説明も参照してください。 |
### Open issues which should be fixed |
###修正されるべき未解決の問題 |
* #### Issues with the "bug" label (see list here) |
#### "bug"ラベルに関する問題([ここにリスト]を参照(https://github.com/tesseract-ocr/tesseract/labels/bug)) |
* #### Noise characters recognized with bbox as the entire page #1192 |
* ####ノイズ文字がページ全体としてbboxで認識される#1192 |
* #### Segmentation fault when using integer models for LSTM training #1573 |
* #### LSTMトレーニングに整数モデルを使用した場合のセグメンテーション違反#1573 |
* #### Report a warning when the Tesseract initialisation code detects an unsupported locale setting. (See comment) |
* #### Tesseract初期化コードがサポートされていないロケール設定を検出したときに警告を報告します。 (コメントを参照してください)。 |
* #### Insufficient error message when output file cannot be created Issue 1424 |
* ####出力ファイルを作成できない場合の不十分なエラーメッセージ課題1424 |
* #### “no best words!!” on mixed language (fra+ara) items (see issue 235) |
* ####混在言語(fra + ara)の項目に「最高の言葉はありません!!」(issue 235を参照) |
* #### mgr_.Init(traineddata_path.c_str()):Error:Assert failed: #1075 (see issue 1075) |
* #### mgr_.Init(traineddata_path.c_str()):エラー:アサートが失敗しました:#1075([issue 1075]を参照(https://github.com/tesseract-ocr/tesseract/issues/1075)) |
### Features wanted for this release |
###このリリースで欲しい機能 |
* #### Script for installing only selected languages from github (see issue) |
* #### githubから選択した言語のみをインストールするためのスクリプト(issueを参照) |
https://github.com/zdenop/tessdata_downloader |
https://github.com/zdenop/tessdata_downloader |
### To be discussed |
### 話し合います |
Depending on available resources and opinions, these suggestions will either be added to the planning for the next or a future release or abandoned. |
利用可能なリソースや意見に応じて、これらの提案は次回または将来のリリースの計画に追加されるか、放棄される予定です。 |
* #### Enhance --list-langs to show additional information for scripts and languages like legacy / LSTM, version
|
* #### --list-langsを拡張して、スクリプトやレガシー/ LSTM、バージョンなどの言語に関する追加情報を表示します |
This will make the command slower, because each file must be opened and parsed. Add this as --list-langs-details or as --list-lang-details for one language file based on lang-code? |
各ファイルを開いて解析する必要があるため、これによってコマンドが遅くなります。これを--list-langs-detailsまたはlang-codeに基づく1つの言語ファイルの--list-lang-detailsとして追加しますか。 |
* #### --list-langs should also display the directory it is using |
* #### --list-langsはそれが使用しているディレクトリも表示するはずです |
* #### Fix the autotools build so that the debug mode uses -O0 as intended |
デバッグモードが意図したように-O0を使用するようにautotoolsビルドを修正しました。 |
* #### Add option to optionally select implementation for dot product (CPU, SSE, AVX, ...) |
* ####オプションでドット積(CPU、SSE、AVXなど)の実装を選択するオプションを追加しました |
* #### Relative includes for traineddata |
* ####トレーニングデータの相対インクルード |
tessedit_load_sublangs should search for the sublangs relative to the parent, not starting in tessdata dir. |
tessedit_load_sublangsは、tessdataディレクトリではなく、親を基準にしてサブランを検索します。 |
* #### More fixes for compiler warnings and issues reported by Coverity Scan |
* #### Coverity Scanによって報告されたコンパイラーの警告および問題に対するその他の修正 |
* #### Add a simple bash script for building tesseract |
* #### tesseractを構築するための簡単なbashスクリプトを追加する |
* #### New traineddata format |
* ####新しい訓練データフォーマット |
In addition to the current proprietary format Tesseract could also support ZIP archives (see discussion). |
現在の独自フォーマットに加えて、TesseractはZIPアーカイブもサポートすることができます(discussionを参照)。 |
A possible implementation using libarchive is available, but needs more testing. |
libarchiveを使った可能な実装はavailableですが、もっとテストが必要です。 |
* #### "Training light" - Learning by doing (see issue) |
* #### "トレーニングライト" - することによる学習(issueを参照) |
* #### Modify text2image to use PrepareDistortedPix() #1052 |
* #### text2imageをPrepareDistortedPix()を使用するように修正しました#1052 |
* #### Schedule date |
* ####開催日 |
### Regression of features from 3.0x |
### 3.0xからの機能の回帰 |
Tesseract 4.0 should be a full replacement for Tesseract 3.05 and have the same features when used with the old OCR engine (--oem 0 ). The following regressions still need verification (are they really regressions, or are they just missing features for LSTM): |
Tesseract 4.0はTesseract 3.05に完全に置き換わるものであり、古いOCRエンジン( --oem 0 )と一緒に使われるとき同じ機能を持つべきです。次の回帰ではまだ検証が必要です(本当に回帰なのか、それともLSTMの機能が足りないのでしょうか)。 |
* #### User Words (See comment) |
* ####ユーザーワード(コメントを参照) |
* #### User Patterns (See issue) |
* ####ユーザーパターン(issueを参照) |
### Features from 3.0x which are missing for LSTM |
### LSTMに欠けている3.0xからの機能 |
These features still work with the old OCR engine (--oem 0 ), but are missing and desired for LSTM. |
これらの機能はまだ古いOCRエンジン( --oem 0 )で動作しますが、欠けていてLSTMには望ましいです。 |
* #### Black list / White list (See issue). Here is a workaround. |
* ####ブラックリスト/ホワイトリスト(issueを参照)。これは[回避策]です(https://github.com/tesseract-ocr/tesseract/issues/751#issuecomment-333904808)。 |
* #### hOCR font info (See comment) |
* #### hOCRフォント情報(コメントを参照) |
## Future release |
##今後のリリース |
Here we collect important issues and features for the release(s) following 4.0.0. |
ここでは、4.0.0以降のリリースに関する重要な問題と機能をまとめています。 |
* #### New LSTM-based OSD detector (see comment). |
* ####新しいLSTMベースのOSDディテクタ(コメントを参照)。 |
* #### Remove Legacy Tesseract Engine (see issue) |
* ####従来のTesseractエンジンを削除する(issueを参照) |
* #### Better Multi-language implementation for training (See comment) |
* ####トレーニングのためのより良い多言語実装(コメント) |
* #### ARM SIMD support for dot product #519 |
* #### ARM SIMDによるドット積のサポート#519 |
* #### Using OpenMP for dot product #983 |
* ####ドット積にOpenMPを使用する#983 |
* #### Remove deprecated code |
* ####廃止予定のコードを削除 |
This does not include OpenCL or the old Tesseract engine. |
これにはOpenCLや古いTesseractエンジンは含まれません。 |
* #### Tesseract creates output for missing input (see issue 1023). |
* #### Tesseractは欠けている入力に対して出力を作成します(issue 1023を参照)。 |
Mostly solved, but could be improved. |
ほとんど解決されましたが、改善される可能性があります。 |
* #### Issue 1353: Patch for /training/tessopt.cpp (see pull request 13) |
* ####問題1353:/training/tessopt.cpp用のパッチ(pull request 13を参照) |
It looks like it is not possible to run more than one training in the same process. The pull request describes a possible fix, but does not include a complete implementation (low priority). |
同じプロセスで複数のトレーニングを実行することはできないようです。プルリクエストは可能性のある修正を記述しますが、完全な実装を含んでいません(低い優先順位)。 |