frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/17 付)
# Tesseract OCR #Tesseract OCR
Build Status ビルドステータス
Build status
ビルドステータス /)
Coverity Scan Build Status Coverityスキャンビルドステータス
Code Quality: Cpp [コード品質:Cpp](https://lgtm.com / projects / g / tesseract-ocr / tesseract / context:cpp)
Total Alerts
[合計アラート](https://lgtm.com/projects/g / tesseract-ocr / tesseract / alerts)

GitHub license GitHubライセンス
Downloads ダウンロード
## About ## 約
This package contains an OCR engine - libtesseract and a command line program - tesseract. このパッケージはOCRエンジン - libtesseractコマンドラインプログラム - tesseractを含みます。
Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused Tesseract 4は新しいニューラルネット(LSTM)ベースのOCRエンジンを追加します。
on line recognition, but also still supports the legacy Tesseract OCR engine of オンライン認識だけでなく、従来のTesseract OCRエンジンもサポートしています。
Tesseract 3 which works by recognizing character patterns. Compatibility with Tesseract 3これは文字パターンを認識することによって機能します。との互換性
Tesseract 3 is enabled by using the Legacy OCR Engine mode (--oem 0). Tesseract 3は、レガシーOCRエンジンモード(--oem 0)を使用して有効になります。
It also needs traineddata files which support the legacy engine, for example それはまたレガシーエンジンをサポートする訓練されたデータファイルを必要とします、例えば
those from the tessdata repository. tessdataリポジトリからのもの。
The lead developer is Ray Smith. The maintainer is Zdenko Podobny. 主な開発者はRay Smithです。メンテナはZdenko Podobnyです。
For a list of contributors see AUTHORS 貢献者のリストはAUTHORSを参照してください。
and GitHub's log of contributors. そしてGitHubの[contributors]のログ(https://github.com/tesseract-ocr/tesseract/graphs/contributors)。
Tesseract has unicode (UTF-8) support, and can recognize more than 100 languages "out of the box". Tesseractはユニコード(UTF-8)サポートを持ち、100以上の言語を「そのまま」使えることができます。
Tesseract supports various output formats: plain-text, hocr(html), pdf, tsv, invisible-text-only pdf. Tesseractは様々な出力フォーマットをサポートします:プレーンテキスト、hocr(html)、pdf、tsv、見えないテキストのみのpdf。
You should note that in many cases, in order to get better OCR results, you'll need to improve the quality of the image you are giving Tesseract. あなたは多くの場合、より良いOCR結果を得るために、あなたは品質を向上させるする必要があるでしょう。あなたはTesseractを与えています。
This project does not include a GUI application. If you need one, please see the 3rdParty wiki page. このプロジェクトはGUIアプリケーションを含みません**。必要な場合は、3rdPartyWikiページを参照してください。
Tesseract can be trained to recognize other languages. See Tesseract Training for more information. Tesseract は他の言語を認識するように訓練することができます。詳細はTesseractのトレーニングを参照してください。
## Brief history ##簡単な歴史
Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and Tesseractはもともとヒューレットパッカード研究所ブリストルで開発された
at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some 1985年から1994年の間にコロラド州グリーリーのHewlett-Packard Coで、
more changes made in 1996 to port to Windows, and some C++izing in 1998. Windowsへの移植のために1996年に行われたその他の変更、および1998年のC ++化。
In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google. 2005年、TesseractはHPによってオープンソース化されました。 2006年以来、それはGoogleによって開発されました。
The latest (LSTM based) stable version is 4.0.0, released on October 29, 2018. Latest source code for 4.0 is available from master branch on GitHub. Open issues can be found in issue tracker, and Planning wiki. 最新の(LSTMベース)安定版は4.0.0、2018年10月29日にリリースされました。最新4.0のソースコードはGitHubのマスターブランチから入手できます。未解決の問題はissue tracker、およびPlanning wikiにあります。計画しています#400)。
The latest 3.5 version is 3.05.02, released on June 19, 2018. Latest source code for 3.05 is available from 3.05 branch on GitHub. There is no development for this version, but it can be used for special cases (e.g. see Regression of features from 3.0x). 最新の3.5バージョンは 3.05.02、2018年6月19日にリリースされました。3.05の最新のソースコードGitHubの3.05ブランチから入手できます。このバージョンの開発はありませんが、特別な場合に使用することができます(例:3.0xからの機能の回帰。機能から30倍))。
See Release Notes and Change Log for more details of the releases. リリースノートおよび 変更履歴を参照してください。リリースの詳細についてはblob / master / ChangeLog)
## Installing Tesseract ## Tesseractをインストールする
You can either Install Tesseract via pre-built binary package or build it from source. ビルド済みのバイナリパッケージを使ってTesseractをインストールするまたはソースからビルドするのいずれかを実行できます。 tesseract / wiki /コンパイル)
Supported Compilers are: サポートされているコンパイラは次のとおりです。
* GCC 4.8 and above * GCC 4.8以上
* Clang 3.4 and above *クラン3.4以上
* MSVC 2015, 2017 * MSVC 2015、2017
Other compilers might work, but are not officially supported. 他のコンパイラでも動作するかもしれませんが、正式にはサポートされていません。
## Running Tesseract ## Tesseractを実行する
Basic command line usage: 基本 コマンドライン使用法:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]     tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles ...]
For more information about the various command line options use tesseract --help or man tesseract. さまざまなコマンドラインオプションの詳細については、 tesseract --helpまたはman tesseractを使用してください。
## For developers ##開発者向け
Developers can use libtesseract C or C++ API to build their own application. If you need bindings to libtesseract for other programming languages, please see the wrapper section on AddOns wiki page. 開発者は libtesseract CまたはC ++を使用できます。 -ocr / tesseract / blob / master / src / api / baseapi.h)独自のアプリケーションを構築するためのAPI。他のプログラミング言語のために libtesseractへのバインディングが必要な場合は、AddOns wikiページのwrapperセクションをご覧ください。
Documentation of Tesseract generated from source code by doxygen can be found on tesseract-ocr.github.io. doxygenによってソースコードから生成されたTesseractのドキュメンテーションはtesseract-ocr.github.ioにあります。
## Support ## サポート
Before you submit an issue, please review the guidelines for this repository. 問題を送信する前に、 このリポジトリのガイドラインを確認してください。
For support, first read the Wiki, particularly the FAQ to see if your problem is addressed there. If not, search the Tesseract user forum, the Tesseract developer forum and past issues, and if you still can't find what you need, ask for support in the mailing-lists. サポートについては、まずWiki、特にFAQをお読みください。あなたの問題がそこに対処されているかどうかを確認する)そうでない場合は、TesseractユーザーフォーラムTesseract開発者フォーラムを検索してください。 / tesseract-dev)と過去の問題を参照してください。それでも必要なものが見つからない場合は、メーリングリストでサポートを依頼してください。
Mailing-lists: メーリングリスト:
* tesseract-ocr - For tesseract users. * tesseract-ocr - tesseractユーザー用。
* tesseract-dev - For tesseract developers. * tesseract-dev - tesseract開発者向け。
Please report an issue only for a bug, not for asking questions. 質問をするためではなく、バグについてのみ問題を報告してください。
## License ##ライセンス
The code in this repository is licensed under the Apache License, Version 2.0 (the "License"); このリポジトリのコードは、Apache License、Version 2.0(以下「ライセンス」)に基づいて使用許諾されています。
you may not use this file except in compliance with the License. ライセンスに準拠している場合を除き、このファイルを使用することはできません。
You may obtain a copy of the License at あなたは、ライセンスのコピーを以下から入手することができます。
http://www.apache.org/licenses/LICENSE-2.0 http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software 適用法により要求されない限り、または書面で合意された場合を除き、ソフトウェア
distributed under the License is distributed on an "AS IS" BASIS, ライセンスに基づいて配布されるものは、「現状のまま」で配布されます。
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 明示または黙示を問わず、いかなる種類の保証または条件もありません。
See the License for the specific language governing permissions and 許可を管理する特定の言語については、ライセンスを参照してください。
limitations under the License. ライセンスに基づく制限
NOTE: This software depends on other packages that may be licensed under different open source licenses. NOTE:このソフトウェアは異なるオープンソースライセンスの下でライセンスされているかもしれない他のパッケージに依存します。
Tesseract uses Leptonica library which essentially Tesseractは基本的にLeptonica libraryを使います。
uses a BSD 2-clause license. BSD 2条項ライセンスを使用しています。
## Latest Version of README ## READMEの最新バージョン
For the latest online version of the README.md see: README.mdの最新オンライン版については、以下を参照してください。
https://github.com/tesseract-ocr/tesseract/blob/master/README.md https://github.com/tesseract-ocr/tesseract/blob/master/README.md
最終更新:2019年06月12日 20:22