frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/17 付)
## 4.0 ## 4.0
Tesseract 4.0 rc source code is available in the 'master' branch of the repository. It adds a new OCR engine based on LSTM neural networks. It initially works (well) on x86/Linux. Model data for 101 languages is available in the tessdata repository. Tesseract 4.0 rcソースコードは[リポジトリ]のマスターブランチ(https://github.com/tesseract-ocr/tesseract)にあります。それはLSTMニューラルネットワークに基づく新しいOCRエンジンを追加します。最初はx86 / Linuxで(うまく)動作しています。 101の言語のモデルデータはtessdata repositoryにあります。
## Documentation ## ドキュメンテーション
* NeuralNetsInTesseract4.00 * NeuralNetsInTesseract4.00
* VGSLSpecs * VGSLSpecs
* DAS 2016 tutorial slides * DAS 2016チュートリアルスライド
Slides スライド
#2, #2
#6, #6
#7 #7
have information about LSTM integration in Tesseract 4.0. Tesseract 4.0でのLSTM統合についての情報があります。
* 4.0 Accuracy and Performance * 4.0精度とパフォーマンス
## Training Tesseract LSTM engine ##トレーニングTesseract LSTMエンジン
* TrainingTesseract 4.00 * TrainingTesseract 4.00
3.0 version of box files can be converted for use with LSTM training by adding a tab character at end of each line and boxes with space after each word. Mark EOL and Mark EOL Bulk functions under Edit in Box Editor tab of latest version of jTessBoxEditor - jTessBoxEditor-2.0-Beta can be used to add the EOL tabs automatically. Insert mode can be used on last letter of each word to add a box with space. There is no automated way to do this. ボックスファイルの3.0バージョンは、各行の末尾にタブ文字を追加し、各単語の後にスペースを含むボックスを追加することで、LSTMトレーニングで使用するために変換できます。 [jTessBoxEditor - jTessBoxEditor-2.0-Beta]の最新版の[ボックスエディタ]タブの[編集]の下にある[マークEOL]および[マークEOL一括]機能(https://sourceforge.net/projects/vietocr/files/jTessBoxEditor) /)を使用してEOLタブを自動的に追加できます。各単語の最後の文字に挿入モードを使用して、スペース付きのボックスを追加できます。これを自動化する方法はありません。
## 4.0.0-alpha ppa ## 4.0.0-alpha ppa
Unofficial Ubuntu PPAs for Tesseract 4.00 & Leptonica 1.74: Tesseract 4.00およびLeptonica 1.74用の非公式Ubuntu PPA:
* https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr * https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr
Leptonica 1.74.1 package for Debian: Debian用Leptonica 1.74.1パッケージ:
* https://packages.debian.org/sid/libleptonica-dev * https://packages.debian.org/sid/libleptonica-dev
## 4.0.0-alpha for Windows Windows用## 4.0.0-alpha
Unofficial experimental binaries of tesseract-ocr 4.0.0-alpha are available from the following links. Each one is from a different commit from master branch in early 2017. See individual sites for more details: tesseract-ocr 4.0.0-alphaの非公式の実験的バイナリは以下のリンクから入手可能です。それぞれが2017年初めのマスターブランチからの異なるコミットからのものです。詳細については個々のサイトを参照してください。
* Windows Installer made with MinGW-w64 from UB Mannheim * MinGW-w64で作られたWindowsインストーラ[UB Mannheim](https:// github) .com / UB-Mannheim / tesseract / wiki)
* zip file with cppan generated .dll and .exe files, You have to install VC2015 x86 redist from microsoft.com in order to run them. * cppanで生成された.dllおよび.exeファイルのzipファイル、VC2015 x86をインストールする必要がありますそれらを実行するためにmicrosoft.comから再リストします。
* Win64 build of tesseract 4.0.0 alpha, leptonica 1.74.1, and charlesw/tesseract .Net wrapper - built using CPPAN for Visual Studio 2017. * Win64のtesseract 4.0.0 alpha、leptonica 1.74.1、およびcharlesw / tesseract .Netラッパーのビルド - Visual Studio 2017用のCPPANを使用してビルドされました。
## 4.0.0-alpha with GUI frontend GUIフロントエンドを備えた## 4.0.0-alpha
### VietOCR ### VietOCR
Windows binaries of tesseract-ocr 4.0.0-alpha with GUI interface are available for VietOCR from GUIインタフェースを備えたtesseract-ocr 4.0.0-alphaのWindowsバイナリはVietOCRで利用可能から
* VietOCR5.0alpha * VietOCR5.0alpha
* Visual C++ Redistributable for Visual Studio 2015 runtime - vc_redist.x86.exe is REQUIRED for VietOCR to run correctly. * Visual C ++再配布可能なVisual Studio 2015ランタイム - vc_redist.x86.exeはVietOCRを正しく実行するために必要です。
VietOCR can be used to download appropriate 4.0.0alpha traineddata for additional languages. VietOCRを使用して、追加の言語用に適切な4.0.0alphaトレーニングデータをダウンロードできます。
### gImageReader ### gImageReader
Windows binaries of tesseract-ocr 4.0.0-alpha with GUI interface are available for gImageReader from GUIインターフェースを備えたtesseract-ocr 4.0.0-alphaのWindowsバイナリはgImageReaderで利用可能から
* gImageReader_3.2.1_qt5_i686_tesseract4.0.0.git2f10be5.exe * gImageReader_3.2.1_qt5_i686_tesseract4.0.0.git2f10be5.exe
* gImageReader_3.2.1_qt5_x86_64_tesseract4.0.0.git2f10be5.exe * gImageReader_3.2.1_qt5_x86_64_tesseract4.0.0.git2f10be5.exe
Download 4.0.0alpha traineddata to use with the above from master branch of tessdata. e.g. for Hindi download the following file: tessdataのmasterブランチから上記で使用するために4.0.0alpha traineddataをダウンロードしてください。例えばヒンディー語で次のファイルをダウンロードします。
https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata
* *
## 3.05-dev ## 3.05-dev
The [3.05 branch on GitHub] (https://github.com/tesseract-ocr/tesseract/tree/3.05) can be used by those who want the bug fixes for 3.05.01 release. GitHubの3.05ブランチは、3.05.01リリースのバグ修正をしたい人が使用できます。
An unofficial installer for Tesseract 3.05-dev for Windows is available from Tesseract at UB Mannheim. This includes the training tools. Windows用のTesseract 3.05-devの非公式インストーラーはTesseract at UB Mannheimから入手できます。これにはトレーニングツールが含まれます。
## Current official release ##現在の公式リリース
The current official release is 3.05.01. 現在の公式リリースは[3.05.01]です(https://github.com/tesseract-ocr/tesseract/releases/tag/3.05.01)。
最終更新:2019年06月12日 20:24