frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/22 付)
[source,asciidoc] [ソース、asciidoc]
ifdef::env-github[] ifdef :: env-github []
:tip-caption: :bulb: :tip-caption::bulb:
:note-caption: :information_source: :note-caption::information_source:
:important-caption: :heavy_exclamation_mark: :important-caption :::heavy_exclamation_mark:
:caution-caption: :fire: :注意キャプション::火:
:warning-caption: :warning: :warning-caption::warning:
:sectlinks: :セクトリンク:
endif::[] endif :: []
= Frequently Asked Questions (Tesseract 4) =よくある質問と回答(Tesseract 4)
:toc: macro :toc:マクロ
:toc-title: List of Questions :toc-title:質問のリスト
:toclevels: 3 :toclevels:3
NOTE: This is a collection of frequently asked questions and the answers, or pointers 注:これはよく寄せられる質問とその答え、またはポインタの集まりです。
to them for Tesseract 4. Tesseract 4 のために彼らに。
https://github.com/tesseract-ocr/tesseract/wiki/4.0x-Common-Errors-and-Resolutions[Common https://github.com/tesseract-ocr/tesseract/wiki/4.0x-Common-Errors-and-Resolutions[Common
errors and information for their resolution] is given on a エラーとその解決方法についての情報は、
https://github.com/tesseract-ocr/tesseract/wiki/4.0x-Common-Errors-and-Resolutions[separate https://github.com/tesseract-ocr/tesseract/wiki/4.0x-Common-Errors-and-Resolutions [セパレート]
wiki page]. Wikiページ]。
TIP: For the older version of the FAQ pertaining to Tesseract 2.0x, 3.0x and ヒント:Tesseract 2.0x、3.0xおよび3.0に関するFAQの古いバージョンの場合
4.00.00alpha, please see link:FAQ-Old[FAQ Old]. 4.00.00alpha、リンクを参照してください:FAQ-Old [FAQ Old]。
IMPORTANT: If you have a question which is not answered by the FAQ, Wiki pages and 重要:よくある質問、Wikiページ、および質問に答えられない質問がある場合は、
Issues, please search in the 問題は、で検索してください
https://groups.google.com/d/forum/tesseract-ocr[users https://groups.google.com/d/forum/tesseract-ocr[users
mailing-list/forum] before posting it there. 投稿する前に、[メーリングリスト/フォーラム]にアクセスしてください。
CAUTION: If you think you found a bug in Tesseract, please search existing 注意:Tesseractでバグを見つけたと思われる場合は、既存のものを検索してください。
https://github.com/tesseract-ocr/tesseract/issues[issues]. If you find https://github.com/tesseract-ocr/tesseract/issues[issues]。もしあなたが見つけたら
an existing similar issue, please add to it, otherwise create a 同様の問題がある場合は追加してください。それ以外の場合は
https://github.com/tesseract-ocr/tesseract/issues/new[new issue]. https://github.com/tesseract-ocr/tesseract/issues/new [新着号]
WARNING: Read the 警告:
https://github.com/tesseract-ocr/tesseract/blob/master/CONTRIBUTING.md[CONTRIBUTING] https://github.com/tesseract-ocr/tesseract/blob/master/CONTRIBUTING.md [CONTRIBUTING]
guide before you report an issue in GitHub or ask a question in the GitHubで問題を報告したり、GitHubで問題を質問する前に
forum. フォーラム。
toc::[] toc :: []
= Tesseract 4.0.0 = Tesseract 4.0.0
== How do I get Tesseract? == Tesseractはどのようにして入手できますか?
See https://github.com/tesseract-ocr/tesseract/wiki[Tesseract Wiki Home] https://github.com/tesseract-ocr/tesseract/wiki[Tesseract Wiki Home]を参照してください。
page for details. 詳細ページ
== Which language models are available for Tesseract? == Tesseractにはどの言語モデルがありますか?
See Tesseract man page for the list of リストについてはTesseractのmanページを参照してください。
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages[languages] https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages[languages]
and そして
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#scripts[scripts] https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#scripts[scripts]
supported by Tesseract4.0.0. Tesseract4.0.0でサポートされています。
See the を参照してください
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#updated-data-files-for-version-400-september-15-2017[Tesseract https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#updated-data-files-for-version-400-september-15-2017 [Tesseract]
Wiki Data Files] page for information regarding the three different 3つの異なる点に関する情報はWiki Data Files]ページ
types of language models available for Tesseract 4.0.0. Tesseract 4.0.0で使用可能な言語モデルのタイプ
User contributed language models are linked from ユーザー提供の言語モデルはからリンクされています。
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files-Contributions[Data https://github.com/tesseract-ocr/tesseract/wiki/Data-Files-Contributions[Data
Files Contributions]. ファイルの貢献]。
== Where are the language models (traineddata files) for Tesseract installed? == Tesseract用の言語モデル(訓練データファイル)はどこにインストールされていますか?
The files should be installed in /usr/share/tesseract-ocr/4.00/tessdata ファイルは/usr/share/tesseract-ocr/4.00/tessdataにインストールする必要があります。
(on Ubuntu). (Ubuntuの上で)。
If you get an error message saying eng.traineddata not found, try eng.traineddataが見つからないというエラーメッセージが表示された場合は、試してください。
setting TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata and all TESSDATA_PREFIX = / usr / share / tesseract-ocr / 4.00 / tessdataとallの設定
will be good. 良いだろう。
== What output formats can Tesseract produce? == Tesseractはどのような出力フォーマットを生成できますか?
* txt * txt
* pdf * pdf
* hocr * hocr
* tsv * tsv
* pdf with text layer only *テキストレイヤーのみのpdf
Tesseract's standard output is a plain txt file (utf-8 encoded, with '' Tesseractの標準出力はプレーンテキストファイル(utf-8エンコード、 ''付き)です。
as http://en.wikipedia.org/wiki/Newline[end-of-line marker]) and 'FF' as http://en.wikipedia.org/wiki/Newline[end-of-line marker])として、および 'FF'として
a form feed character after each page. 各ページの後の用紙送り文字。
With the configfile option set to 'pdf', tesseract will produce searchable PDF configfileオプションを 'pdf'に設定すると、tesseractは検索可能なPDFを生成します。
pages containing images with a hidden, searchable text layer. 隠された検索可能なテキストレイヤを持つ画像を含むページ。
With the configfile option set to 'hocr', tesseract will produce XHTML output compliant configfileオプションを 'hocr'に設定すると、tesseractはXHTMLに準拠した出力を生成します。
with the とともに
https://docs.google.com/document/preview?id=1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0&pli=1[hOCR https://docs.google.com/document/preview?id=1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0&pli=1[hOCR
specification] (the input image name must be ASCII if the operating 動作仕様の場合、入力画像名はASCIIでなければなりません。
system use something other than utf-8 encoding for filenames - see システムはファイル名にutf-8エンコーディング以外のものを使う - 参照
https://web.archive.org/web/*/http://code.google.com/p/tesseract-ocr/issues/detail?id=809[issue https://web.archive.org/web/*/http://code.google.com/p/tesseract-ocr/issues/detail?id=809[issue
809] for some details). 809])
With the configfile option set to 'tsv', tesseract will produce configfileオプションを 'tsv'に設定すると、tesseractは以下を生成します。
https://en.wikipedia.org/wiki/Tab-separated_values[tab-separated values] https://en.wikipedia.org/wiki/Tab-separated_values[tab-separated values]
file. ファイル。
tesseract -c textonly_pdf=1 will produce a text-only PDF which can be tesseract -c textonly_pdf = 1はテキストのみのPDFを生成します。
merged with an images-only PDF. See 画像のみのPDFと統合されました。見る
https://github.com/tesseract-ocr/tesseract/issues/660#issuecomment-385669193[issue https://github.com/tesseract-ocr/tesseract/issues/660#issuecomment-385669193[issue
660] for related discussion and utility for merging the PDFs. 660]関連の議論とPDFをマージするための有用性。
== What page separators are used in txt output by Tesseract 4.0.0? == Tesseract 4.0.0が出力するtxtにはどのようなページ区切り文字が使われますか?
Each page will be terminated by the FF character by default for text 各ページはテキストのデフォルトではFF文字で終了します
output. 出力。
Setting page_separator to the LF character would restore the old page_separatorをLF文字に設定すると、元の文字に戻ります。
behaviour of adding an empty line at the end of each page. 各ページの最後に空行を追加する動作。
Setting page_separator to an empty string would omit page separators. page_separatorを空の文字列に設定すると、ページ区切り文字が省略されます。
In newer Tesseract (after September 2017) the include_page_breaks config variable has been removed. The default is now to separate pages with the form feed control character. Use -c page_separator="[PAGE SEPARATOR]" to use a different separator, and -c page_separator='' to disable page breaks entirely. 新しいTesseract(2017年9月以降)では、 include_page_breaks設定変数は削除されました。デフォルトでは、改ページ制御文字でページを区切るようになりました。別のセパレータを使用するには -c page_separator =" [PAGE SEPARATOR] "を、改ページを完全に無効にするには -c page_separator = ''を使用してください。
= Running Tesseract =実行中のTesseract
== How do I run Tesseract 4.0.0 from the command line? == Tesseract 4.0.0をコマンドラインから実行するにはどうすればいいですか?
See 見る
https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage[Tesseract https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage[Tesseract
Wiki Command Line Usage] page for information on how to run Tesseract Tesseractの実行方法については、Wikiコマンドラインの使用法]ページを参照してください。
from the command line. コマンドラインから。
tesseract --help will provide the most recent help information for the tesseract --helpは、最新のヘルプ情報を提供します。
installed version. インストールされているバージョン
== How to process multiple images in a single run? ==一度に複数の画像を処理するにはどうすればいいですか?
Prepare a text file that has the path to each image: 各画像へのパスを含むテキストファイルを準備します。
.... ……
path/to/1.png パス/ to / 1.png
path/to/2.png パス/ to / 2.png
path/to/3.tiff パス/ to / 3.tiff
.... ……
Save it, and then give its name as input file to Tesseract. 保存してから、その名前を入力ファイルとしてTesseractに渡します。
tesseract savedlist output savedlistの出力をテストする
== How to OCR single page of a multi-page tiff? ==マルチページTIFFのシングルページをOCRするにはどうすればいいですか?
Use the tessedit_page_number config variable as part of command eg. tesseract myscan.png out -c tessedit_page_number=0 コマンドの一部として tessedit_page_number設定変数を使用してください。 tesseract myscan.png out -c tessedit_page_number = 0
== How to OCR streaming images to pdf using Tesseract? == Tesseractを使って画像をpdfにOCRストリーミングするにはどうすればいいですか?
Let's say you have an amazing but slow multipage scanning device. It あなたは素晴らしいが遅いマルチページスキャンデバイスを持っているとしましょう。それ
would be nice to OCR during scanning. In this example, the scanning スキャン中にOCRにいいでしょう。この例では、スキャン
program is sending image filenames to Tesseract as they are produced. プログラムはTesseractに生成された画像ファイル名を送信しています。
Tesseract streams a searchable PDF to stdout. Tesseractは検索可能なPDFを標準出力にストリーミングします。
.... ……
scanimage --batch --batch-print tesseract -c stream_filelist=true - - pdf > output.pdf scanimage - バッチ - バッチ印刷 tesseract -c stream_filelist = true - - pdf> output.pdf
.... ……
== How can I make the error messages go to tesseract.log instead of stderr? ==エラーメッセージを標準エラー出力の代わりにtesseract.logに出力するにはどうすればいいですか?
To restore the old behaviour of writing to tesseract.log instead of 代わりにtesseract.logに書き込むという古い動作を復元する
writing to the console window, you need a text file that contains this: コンソールウィンドウに書き込むには、これを含むテキストファイルが必要です。
debug_file tesseract.log debug_file tesseract.log
call the file 'logfile' and put it in tessdata/configs/ Then add logfile ファイル 'logfile'を呼び出して、それをtessdata / configs /に置きます。その後、logfileを追加します。
to the end of your command line. コマンドラインの最後に
== How can I suppress tesseract info line? == tesseract情報行を非表示にするにはどうすればいいですか?
See 見る
https://web.archive.org/web/*/http://code.google.com/p/tesseract-ocr/issues/detail?id=579[issue https://web.archive.org/web/*/http://code.google.com/p/tesseract-ocr/issues/detail?id=579[issue
579]. On linux you can redirect stderr and stdout output to /dev/null. 579]。 Linuxでは、stderrとstdoutの出力を/ dev / nullにリダイレクトできます。
E.g.: 例えば。:
.... ……
tesseract phototest.tif phototest 1>/dev/null 2>&1 tesseract phototest.tif phototest 1> / dev / null 2>&1
.... ……
With tesseract 3.02 you can use config "quiet". E.g.: tesseract 3.02ではconfig "quiet"を使うことができます。例えば。:
.... ……
tesseract phototest.tif phototest quiet tesseract phototest.tifフォトテスト静か
.... ……
Warning: Both options will cause you to not see the error message if 警告: 両方のオプションを選択すると、エラーメッセージが表示されなくなります。
there is one. ここに一つ。
== How do I use Tesseract 4.0.0 using the API? == APIを使用してTesseract 4.0.0をどのように使用できますか?
See https://github.com/tesseract-ocr/tesseract/wiki/APIExample[Tesseract https://github.com/tesseract-ocr/tesseract/wiki/APIExample[Tesseract
Wiki API examples] page for sample programs for using the API. Wiki APIの例] APIを使用するためのサンプルプログラムのページ。
== There are inconsistent results from tesseract when the same TessBaseAPI object is used for decoding multiple images. ==同じTessBaseAPIオブジェクトが複数の画像のデコードに使用されている場合、tesseractからの結果は矛盾しています。
Try to turn off the adaptive classifier by setting the config variable config変数を設定して適応分類器をオフにしてみてください
classify_enable_learning to 0, or to clear the adaptive data with classify_enable_learning0にするか、次のようにして適応データを消去します。
the method ClearAdaptiveClassifier(). メソッド ClearAdaptiveClassifier()
See also the discussion on the についての議論も参照してください。
https://groups.google.com/d/topic/tesseract-ocr/ByGJhocI9qQ[tesseract https://groups.google.com/d/topic/tesseract-ocr/ByGJhocI9qQ[tesseract
forum] フォーラム]
== How do I improve OCR results? == OCRの結果を改善するにはどうすればよいですか。
You should note that in many cases, in order to get better OCR results, 多くの場合、より良いOCR結果を得るために、
you'll need to あなたがする必要があります
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality[improve https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality[improve
the quality] of the input image you are giving Tesseract. あなたがTesseractを与えている入力画像の品質]。
== Can I increase speed of OCR? == OCRのスピードを上げることはできますか?
If you are running Tesseract 4, you can use the "fast" integer models. Tesseract 4を実行している場合は、「高速」整数モデルを使用できます。
Tesseract 4 also uses up to four CPU threads while processing a page, so Tesseract 4はページの処理中に最大4つのCPUスレッドも使用します。
it will be faster than Tesseract 3 for a single page. 1ページでTesseract 3より速いでしょう。
If your computer has only two CPU cores, then running four threads will お使いのコンピュータにCPUコアが2つしかない場合は、4つのスレッドを実行すると
slow down things significantly and it would be better to use a single 物事を大幅に遅くし、単一のを使用することをお勧めします
thread or maybe a maximum of two threads! Using a single thread スレッドまたは最大2つのスレッドかもしれません。シングルスレッドを使用する
eliminates the computation overhead of multithreading and is also the マルチスレッドによる計算のオーバーヘッドを排除します。
best solution for processing lots of images by running one Tesseract 1つのTesseractを実行して大量の画像を処理するための最良の方法
process per CPU core. CPUコアごとのプロセス。
Set the maximum number of threads using the environment variable 環境変数を使用して最大スレッド数を設定する
OMP_THREAD_LIMIT. OMP_THREAD_LIMIT
To disable multithreading, use OMP_THREAD_LIMIT=1. マルチスレッドを無効にするには、 OMP_THREAD_LIMIT = 1を使います。
== How can I try the next version? ==次のバージョンを試すにはどうすればいいですか?
Periodically stable versions go to the downloads page. Between releases, 定期的に安定したバージョンはダウンロードページに行きます。リリース間
and in particular, just before a new release, the latest code is 特に、新しいリリースの直前に、最新のコードは
available from git. You can find the source here: gitから入手できます。あなたはここでソースを見つけることができます:
https://github.com/tesseract-ocr/tesseract.git where you can check it https://github.com/tesseract-ocr/tesseract.gitここで確認できます
out either by command line, or by following the link to the howto on コマンドラインから、またはハウツーへのリンクをたどることによって
using various client programs and plugins. さまざまなクライアントプログラムとプラグインを使用します。
== How do I compare different versions of Tesseract == Tesseractの異なるバージョンを比較するにはどうすればいいですか?
If you want to have several versions of tesseract (e.g. you want to tesseractをいくつかのバージョンにしたい場合(例えば、
compare OCR result) I would suggest you to compile them from source OCRの結果を比較します)私はあなたがソースからそれらをコンパイルすることをお勧めします
(e.g. in /usr/src) and not install them. If you want to test particular (例えば/ usr / srcに)それらをインストールしないでください。特定のテストをしたい場合
version you can run it this way: あなたはこの方法でそれを実行することができますバージョン:
.... ……
/usr/src/tesseract-3.03/api/tesseract eurotext.tif eurotext /usr/src/tesseract-3.03/api/tesseract eurotext.tif eurotext
/usr/src/tesseract-ocr.3.02/api/tesseract eurotext.tif eurotext /usr/src/tesseract-ocr.3.02/api/tesseract eurotext.tif eurotext
.... ……
/usr/src/tesseract-3.03/api/tesseract is shell wrapper script, and it /usr/src/tesseract-3.03/api/tesseractはシェルラッパースクリプトです。
will take care that correct shared library is used (without 正しい共有ライブラリが使用されるように注意します
installation...). インストール...)。
= Training =トレーニング
== How do I train Tesseract 4.0.0 LSTM Engine? == Tesseract 4.0.0 LSTMエンジンをトレーニングするにはどうすればいいですか?
Tesseract can be trained to recognize other languages or finetune Tesseractは他の言語または微調整を認識するように訓練することができます
existing language models. See 既存の言語モデル見る
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00[Tesseract https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00 [Tesseract]
Wiki Training Tesseract 4.00] page for information on training the LSTM LSTMのトレーニングについては、Wiki Training Tesseract 4.00]ページを参照してください。
engine. エンジン。
Please note that currently LSTM training is only supported using 現在のLSTMトレーニングは、以下を使用してのみサポートされています。
synthetic images created using a UTF-8 training text and unicode fonts UTF-8トレーニングテキストとUnicodeフォントを使用して作成された合成画像
to render the text. テキストをレンダリングします。
= pdf = pdf
== How do I produce searchable PDF output? ==検索可能なPDF出力を作成するにはどうすればいいですか?
Searchable PDF output is a standard feature as of Tesseract version Tesseractバージョンの時点では、検索可能なPDF出力は標準機能です。
3.03. Use the pdf config file like this: 3.03。このように pdf設定ファイルを使ってください:
.... ……
tesseract phototest.tif phototest pdf tesseract phototest.tifフォトテストpdf
.... ……
== The searchable PDF seems to contain only spaces or spaces between the letters of words. ==検索可能なPDFには、スペースまたは単語文字の間にスペースしか含まれていないようです。
There may be nothing wrong with the PDF itself, but its hidden, PDF自体に問題はないかもしれませんが、隠されています、
searchable text layer may be not understood by your PDF reader. For 検索可能なテキストレイヤーがPDFリーダーに理解されていない可能性があります。にとって
example, Preview.app in Mac OS X is well known for having problems like たとえば、Mac OS XのPreview.appは、次のような問題があることで有名です。
this, and might "see" only spaces and no text. Try using Adobe Acrobat これはスペースだけを見て、テキストは見られないかもしれません。 Adobe Acrobatを使ってみる
Reader instead. 代わりに読者。
== How do I integrate original image file and detected text into PDF? ==元の画像ファイルと検出されたテキストをPDFに統合する方法
   
Use the config variable -c textonly_pdf=1 and Merge your image-only and text-only PDF. 設定変数 -c textonly_pdf = 1を使って、画像のみのPDFとテキストのみのPDFを結合してください。
See https://github.com/tesseract-ocr/tesseract/issues/660#issuecomment-274213632 for details. 詳細については、https://github.com/tesseract-ocr/tesseract/issues/660#issuecomment-274213632を参照してください
= Miscellaneous =その他
== Can I use Tesseract for handwriting recognition? ==手書き文字認識にTesseractを使用できますか?
You can, but it won't work very well, as Tesseract is designed for できますが、Tesseractは次の目的のために設計されているため、あまりうまくいきません。
printed text. Look for projects focussed on handwriting recognition. 印刷されたテキスト手書き文字認識に焦点を当てたプロジェクトを探してください。
== Can I use tesseract for barcode recognition? == tesseractをバーコード認識に使えますか?
No. Tesseract is for text recognition. いいえ。Tesseractはテキスト認識用です。
== Where is the documentation? ==ドキュメントはどこにありますか?
You're looking at it. If things aren't clear, search on the あなたはそれを見ています。状況が明確でない場合は、
http://groups.google.com/group/tesseract-ocr/[Tesseract Google Group] or http://groups.google.com/group/tesseract-ocr/ [Google Groupをテスト]または
ask us there. If you want to help us write more, please do, and post it そこでお願いします。あなたが私たちがもっと書くのを手助けしたいならば、してください、そしてそれを投稿
to the group! グループへ!
== My question isn't in here! ==私の質問はここにはありません!
Try searching the forum: http://groups.google.com/group/tesseract-ocr as フォーラムを検索してみてください。http://groups.google.com/group/tesseract-ocr as
well as open and closed issues on GitHub: GitHubでの未解決および未解決の問題
https://github.com/tesseract-ocr/tesseract/issues, as your question may 質問に応じてhttps://github.com/tesseract-ocr/tesseract/issues
have come up before even if it is not listed here. ここに載っていなくても前に出ています。
最終更新:2019年08月19日 20:47