frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/19 付)
## Tesseract 'main' page ## Tesseractの 'メイン'ページ
See the main page for command line syntax and other details. コマンドラインの構文およびその他の詳細については、mainページを参照してください。
-------------------------------------------- --------------------------------------------
## Basic Command Line Usage ##基本的なコマンドラインの使い方
See Running Tesseract for basic command line usage. 基本的なコマンドラインの使い方についてはRunning Tesseractをご覧ください。
## FAQ ## よくある質問
See FAQ for more examples and tips. その他の例やヒントについてはFAQを参照してください。
-------------------------------------------- --------------------------------------------
## Available OCR Engines in Tesseract 4 ## Tesseract 4で利用可能なOCRエンジン
Use --oem 1 for LSTM, --oem 0 for Legacy Tesseract. Please note that Legacy Tesseract models are only included in traineddata files from tessdata repo. LSTMには --oem 1を、Legacy Tesseractには--oem 0を使用してください。 Legacy Tesseractモデルはtessdataリポジトリの訓練済みデータファイルにのみ含まれています。
tesseract input.tiff output --oem 1 -l eng tesseract input.tiff output --oem 1 -l eng
--------------------------------------------- ---------------------------------------------
## Simplest Invocation to OCR an image ##画像をOCRするための最も簡単な呼び出し
tesseract imagename outputbase tesseract imagename outputbase
This uses English as the default language and 3 as the Page Segmentation Mode. The default output format is text. これはEnglishをデフォルトの言語として、3をPage Segmentation Modeとして使います。デフォルトの出力フォーマットはtextです。
osd.traineddata, for Orientation and Segmentation and eng.traineddata and other language data files for English should be in the "tessdata" directory. TESSDATA_PREFIX environment variable should be set to the parent directory of "tessdata" directory. Orientation and Segmentation用のosd.traineddataおよび英語用のeng.traineddataおよびその他の言語データファイルは、 "tessdata"ディレクトリになければなりません。 TESSDATA_PREFIX環境変数は、 "tessdata"ディレクトリの親ディレクトリに設定する必要があります。
The following command would give the same result as above, if eng.traineddata and osd.traineddata files are in /usr/share/tessdata directory. 次のコマンドは、eng.traineddataファイルとosd.traineddataファイルが/ usr / share / tessdataディレクトリにある場合、上記と同じ結果になります。
tesseract --tessdata-dir /usr/share imagename outputbase -l eng --psm 3 tesseract --tessdata-dir / usr / shareイメージ名outputbase -l eng --psm 3
____ ____
Following examples use this image which has text in multiple languages. 次の例では、複数の言語のテキストを含むこの画像を使用しています。
eurotext.png eurotext.png
## Using One Language ##一つの言語を使う
Add '-l LANG' to the command where LANG is three character language code from the list of supported languages. If this is not given then English language is assumed by default. サポートされている言語のリストから、LANGが3文字の言語コードであるコマンドに「-l LANG」を追加します。これが与えられていない場合、英語がデフォルトで想定されます。
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng
Output 出力
The (quick) [brown] {fox} jumps! (素早い)[茶] {キツネ}は飛びます!
Over the $43,456.78 #90 dog 43,456.78ドル以上#90犬
& duck/goose, as 12.5% of E-mail &ダック/ガチョウ、電子メールの12.5%
from aspammer@website.com is spam. aspammer@website.comからのスパムです。
Der ,,schnelle” braune Fuchs springt Der ,, schnelle” braune Fuchs springt
fiber den faulen Hund. Le renard brun フンの巣窟。ルルナールブラン
«rapide» saute par-dessus le chien ≪ラピド≫ラ・パル=デス=ル=ソン
paresseux. La volpe marrone rapida パレス。ラ・ボルペ・マローン・ラピタ
salta sopra i] cane pigro. El zorro サルタ・ソプラ・ケーン・ピグロ。エルゾロ
marrén répido salta sobre el perro MarénrépidoSalta sobre el perro
perezoso. A raposa marrom répida ペレゾソ。ラポサ・マロム・レピダ
salta sobre 0 C50 preguieoso. サルタソーブル0 C50 preguieoso。
## Using Multiple Languages ##多言語を使う
Add '-l LANG[+LANG]' to the command line to use multiple languages together for recognition 認識に複数の言語を一緒に使用するには、コマンドラインに '-l LANG [+ LANG]'を追加します。
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-engdeu -l eng+deu tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-engdeu -l eng + deu
Output 出力
The (quick) [brown] {fox} jumps! (素早い)[茶] {キツネ}は飛びます!
Over the $43,456.78 #90 dog 43,456.78ドル以上#90犬
& duck/goose, as 12.5% of E-mail &ダック/ガチョウ、電子メールの12.5%
from aspammer@website.com is spam. aspammer@website.comからのスパムです。
Der „schnelle” braune Fuchs springt Der schnelleブラウヌFuchs springt
über den faulen Hund. Le renard brun フーデンルルナールブラン
«rapide» saute par-dessus le chien ≪ラピド≫ラ・パル=デス=ル=ソン
paresseux. La volpe marrone rapida パレス。ラ・ボルペ・マローン・ラピタ
salta sopra il cane pigro. El zorro サルタソプライルケインピグロ。エルゾロ
marrön räpido salta sobre el perro MarrénräpidoSalta sobre el perro
perezoso. A raposa marrom räpida ペレゾソ。ラポサ・マロム・レピダ
salta sobre o cäo preguieoso. あなたのレビューを書く
## Order of multiple languages ##多言語の順番
The output can be different based on the order of languages, so -l eng+hin can give different result than -l hin+eng. 出力は言語の順序によって異なる可能性があるため、-l eng + hinは-l hin + engとは異なる結果になります。
Following examples use a greyscale version of this image which has text in multiple languages - Hindi and English. 次の例では、このイメージのグレースケールバージョンを使用しています。このイメージには、複数の言語(ヒンディー語と英語)のテキストがあります。
bilingual.jpg bilingual.jpg
Using English as primary language and then Hindi 第一言語として英語を使い、次にヒンディー語を使う
tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-enghin -l eng+hin tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-enghin -l eng + hin
Output 出力
हिदीसेअंठौजी हिदीसेअंठौजी
HINDI To ヒンディー語
ENGLISH 英語
-
Using Hindi as primary language and then English ヒンディー語を第一言語として使い、その後英語を使う
tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-hineng -l hin+eng tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-hineng -l hin + eng
Output 出力
हिंदी से अंग्रेजी この商品を追加しました
H I N D I T o 私はいない
E N G L I S H E N G L I S H
-
## Searchable pdf output ##検索可能なpdf出力
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng pdf tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng pdf
This creates a pdf with the image and a separate searchable text layer with the recognized text. これにより、画像と認識されたテキストを含む個別の検索可能なテキストレイヤーを含むPDFが作成されます。
tesseract c:\temp\test_ara.jpg -l ara -psm 3 c:\temp\test_ara pdf tesseract c:\ temp \ test_ara.jpg -l ara -psm 3 c:\ temp \ test_ara pdf
Files are attached (source JPG and output PDF) ファイルが添付されている(ソースJPGおよび出力PDF)
test_ara.jpg test_ara.jpg
test_ara.pdf test_ara.pdf
## HOCR output ## HOCR出力
Use 'hocr' config file by adding hocr at the end of the command to get the HOCR output. HOCR出力を取得するには、コマンドの最後にhocrを追加して、 'hocr'設定ファイルを使用します。
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng hocr tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng hocr
Partial Output 部分出力
<?xml version="1.0" encoding="UTF-8"?> <?xml version = "1.0" encoding = "UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" <!DOCTYPE html PUBLIC " - // W3C // DTD XHTML 1.0トランジショナル// EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<ヘッド>
<meta http-equiv = "コンテンツタイプ"コンテンツ= "テキスト/ html;文字セット= utf-8" />

The (quick) [brown] {fox} jumps! <span class = 'ocrx_word' id = 'word_1_1' title = bbox 105 66 178 97; x_wconf 90 '> <spanクラス=' ocrx_word 'id =' word_1_2 'title =' bbox 205 67 347 106; x_wconf 87 '> (クイック) [茶色] {fox} ジャンプ!

## TSV output (Currently available in 3.05-dev in master branch on github) ## TSVの出力(現在githubのmasterブランチの3.05-devで利用可能)
Use 'tsv' config file by adding tsv at the end of the command to get the TSV output. TSV出力を取得するには、コマンドの末尾にtsvを追加して「tsv」構成ファイルを使用します。
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng tsv tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng tsv
Partial Output 部分出力
level page_num
1 1
2 1
3 1
4 1
5 1
5 1
5 1
5 1
5 1
4 1
5 1
5 1
5 1
5 1
5 1
5 1
## Using different Page Segmentation Modes ##さまざまなページセグメンテーションモードの使用
The following examples are using this image with text in Devanagari script and Sanskrit language. 次の例では、この画像をDevanagariスクリプトとSanskrit言語のテキストで使用しています。
san002.png san002.png
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6 tesseract --tessdata-dir / usr / shareテスト/ san002.png testing / san002-psm6 -l san -psm 6
Output 出力
विर्व्य 16 विर्व्य 16
ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191 ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191
दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213 दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213
द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238 द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238
द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263 द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263
ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300 ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300
पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329 पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329
द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355 द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355
द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360 द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360
र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363 र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363
अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365 अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365
अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394 अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394
क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397- क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397-
कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432 कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432
गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति457 | गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति 457
गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488 गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488
गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491 गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491
यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493 यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493
'शिवगङ्गासद्दृस्रनत्माव'ळि 517 'शिवगङ्गासद्दृस्रनत्माव'ळि 517
गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531 गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm3 -l san -psm 3 tesseract --tessdata-dir / usr / shareテスト/ san002.png testing / san002-psm3 -l san -psm 3
Output 出力
ज्यंग्लत्रुखीसह्स्रनामलोत्रम्- नामावळिट्. 他の人に知られています
दुर्गासहस्रनामस्तीत्रम्- १ नामाक्ळि सुर्गासहस्रनामस्तीत्रम् - १नामाक्ळि
दुर्गासहस्रनत्मस्तीत्र्दुं'म्- २ नामावळिऽ सुर्गासहस्रनत्मस्तीत्र्दुं'म्-२ नामावळिऽ
द्बुगसिद्द्स्रनत्मरत्तोत्रम्दकारादि (३) नामावळि あなたが好きなもの(३)お気に入りに追加する
पार्वतीं ह्यो) सहम्रनम्परतोत्रम्- नामावळिऽ’ ニュースレター)を追加しました
फुलकुर्व्यसहस्रनत्मक्तोत्रम्-क्ताचम्-नत्माचळिऽ ुकुरर
गम्यत्रीसह्स्रनत्मक्तोत्रम्-नग्मग्वळिऽ(१) 無料の写真(1)無料(2)
191 191
,213 、213
238 238
300 300
329 329
355 355
360 360
363 363。
365 365
394 394
397- 397-
432 432
457 457
488 488
491 491
493 493
517 517
531 531