frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/22 付)
- - - - - -
Please do not change the title of any wiki page without a permission from Tesseract developers. Tesseract開発者の許可なしに、いかなるWikiページのタイトルも変更しないでください。
- - - - - -
# Introduction # 前書き
Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages. Tesseractはオープンソースのテキスト認識(OCR)エンジンです。[Apache 2.0ライセンス]の下で利用可能です(http://www.apache.org/licenses)。 /LICENSE-2.0)直接使用することも、(プログラマーの場合は)APIを使用して抽出することもできます。画像から印刷されたテキスト。さまざまな言語をサポートしています。
Tesseract doesn't have a built-in GUI, but there are several available from the 3rdParty page. TesseractにはGUIが組み込まれていませんが、[3rdParty]から入手できるものがいくつかあります(https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2%80%93-3rdParty )ページ。
# Installation #インストール
There are two parts to install, the engine itself, and the training data for a language. インストールする部分は2つあります。エンジン自体と、言語のトレーニングデータです。
## Linux ## Linux
Tesseract is available directly from many Linux distributions. The package is generally called 'tesseract' or 'tesseract-ocr' - search your distribution's repositories to find it. Tesseractは、多くのLinuxディストリビューションから直接入手できます。パッケージは一般的に 'tesseract' または 'tesseract-ocr' と呼ばれます - それを見つけるためにあなたのディストリビューションのリポジトリを検索してください。
Thus you can install Tesseract 4.x and it's developer tools on Ubuntu 18.x bionic by simply running: したがって、あなたはTesseract 4.xをインストールすることができます、そして、それを単に実行することによってUbuntu 18.x bionicにそれの開発者用ツール:
` | `
sudo apt install tesseract-ocr sudo aptインストールtesseract-ocr
sudo apt install libtesseract-dev sudo aptインストールlibtesseract-dev
` | `
Note for Ubuntu users: In case apt is unable to find the package try adding universe entry to the sources.list file as shown below. | Ubuntuユーザへの注意事項: `apt```がパッケージを見つけられない場合は、以下に示すように` source.list```ファイルに `` universe```エントリを追加してみてください。
` | `
sudo vi /etc/apt/sources.list sudo vi /etc/apt/sources.list
Copy the first line "deb http://archive.ubuntu.com/ubuntu bionic main" and paste it as shown below on the next line. 最初の行「deb http://archive.ubuntu.com/ubuntu bionic main」をコピーして、次の行に貼り付けます。
If you are using a different release of ubuntu, then replace bionic with the respective release name. あなたが違うバージョンのubuntuを使っているのなら、bionicをそれぞれのリリース名に置き換えてください。
deb http://archive.ubuntu.com/ubuntu bionic universe deb http://archive.ubuntu.com/ubuntuバイオニック宇宙
` | `
Packages for over 130 languages and over 35 scripts are also available directly from the Linux distributions. The language packages are called 'tesseract-ocr-langcode' and 'tesseract-ocr-script-scriptcode', where langcode is three letter language code and scriptcode is four letter script code. 130以上の言語と35以上のスクリプト用のパッケージもLinuxディストリビューションから直接入手できます。言語パッケージは 'tesseract-ocr-langcode' および 'tesseract-ocr-script-scriptcode' と呼ばれます。langcodeは3文字の言語コードで、scriptcodeは4文字のスクリプトコードです。
Examples: tesseract-ocr-eng (English), tesseract-ocr-ara (Arabic), tesseract-ocr-chi-sim (Simplified Chinese), tesseract-ocr-script-latn (Latin Script), tesseract-ocr-script-deva (Devanagari script), etc. 例: tesseract-ocr-eng(英語)、tesseract-ocr-ara(アラビア語)、tesseract-ocr-chi-sim(簡体字中国語)、tesseract- ocr-script-latn(ラテン語スクリプト)、tesseract-ocr-script-deva(Devanagariスクリプト)など
For distributions that are supported by snapd you may also run the following command to install the tesseract built binaries(Don't have snapd installed?): snapdでサポートされているディストリビューションの場合は、次のコマンドを実行して tesseractビルドバイナリをインストールすることもできます(snapdをインストールしていませんか)。
sudo snap install --channel=edge tesseract     sudoスナップインストール--channel = edge tesseract
The traineddata is currently not shipped with the snap package and must be placed manually to ~/snap/tesseract/current. 訓練されたデータは現在snapパッケージに同梱されていないので手動で 〜/ snap / tesseract / currentに配置しなければなりません。
### Tesseract 4 packages with LSTM engine and related traineddata. ### LSTMエンジンと関連する訓練データを持つ4つのパッケージをTesseract。
#### Debian #### Debian
* Debian Jessie (notesalexp.org) * Debian Jessie(notesalexp.org)
* Debian Stretch (backports) * Debian Stretch(バックポート)
* Debian Buster (testing) * Debian Buster(テスト)
* Debian Sid (unstable) * Debian Sid(不安定版)
#### Ubuntu #### Ubuntu
* Ubuntu Bionic 18.04 * Ubuntu Bionic 18.04
* Ubuntu Cosmic 18.10 * Ubuntu Cosmic 18.10
#### Ubuntu - PPA / packages from notesalexp.org #### Ubuntu - notesalexp.orgからのPPA /パッケージ
* Ubuntu Bionic 18.04 - PPA * Ubuntu Bionic 18.04 - PPA
* Ubuntu Artful 17.10 - PPA * Ubuntu Artful 17.10 - PPA
* Ubuntu Zesty 17.04 - notesalexp.org * Ubuntu Zesty 17.04 - notesalexp.org
* Ubuntu Xenial 16.04 - PPA * Ubuntu Xenial 16.04 - PPA
* Ubuntu Trusty 14.04 - PPA * Ubuntu Trusty 14.04 - PPA
#### Raspbian ####ラズプビアン
* Raspbian Stretch(notesalexp.org) * Raspbian Stretch(notesalexp.org)
* Raspbian Buster (testing) * Raspbian Buster(testing)
#### CentOS, Fedora, ScientificLinux, OpenSuse, RHEL packages #### CentOS、Fedora、ScientificLinux、OpenSuse、RHELパッケージ
* rpm package with tesseract-ocr * [tesseract-ocrのrpmパッケージ](https://build.opensuse.org/project/show / home:Alexander_Pozdnyakov)
For example to install Tesseract with German language traineddata: たとえばドイツ語のtraineddataを使用してTesseractをインストールするには
For RHEL 7 run the following as root: RHEL 7の場合は、rootとして次のコマンドを実行します。
` | `
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/RHEL_7/ yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/RHEL_7/
yum update ヤムアップデート
yum install tesseract yumインストールtesseract
yum install tesseract-langpack-deu yumインストールtesseract-langpack-deu
` | `
For CentOS 7 run the following as root: CentOS 7の場合は、rootとして次のコマンドを実行します。
` | `
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/ yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update ヤムアップデート
yum install tesseract yumインストールtesseract
yum install tesseract-langpack-deu yumインストールtesseract-langpack-deu
` | `
For Scientific Linux 7 run the following as root: Scientific Linux 7の場合は、rootとして次のコマンドを実行します。
` | `
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/ScientificLinux_7/ yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/ScientificLinux_7/
yum update ヤムアップデート
yum install tesseract yumインストールtesseract
yum install tesseract-langpack-deu yumインストールtesseract-langpack-deu
` | `
For Fedora 27 run the following as root: Fedora 27の場合、以下をrootとして実行します。
` | `
dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_27/home:Alexander_Pozdnyakov.repo dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_27/home:Alexander_Pozdnyakov.repo
dnf install tesseract dnf install tesseract
dnf install tesseract-langpack-deu dnfインストールtesseract-langpack-deu
` | `
For Fedora 26 run the following as root: Fedora 26の場合、以下をrootとして実行します。
` | `
dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_26/home:Alexander_Pozdnyakov.repo dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_26/home:Alexander_Pozdnyakov.repo
dnf install tesseract dnf install tesseract
dnf install tesseract-langpack-deu dnfインストールtesseract-langpack-deu
` | `
For Fedora 25 run the following as root: Fedora 25の場合、rootとして以下を実行してください。
` | `
dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_25/home:Alexander_Pozdnyakov.repo dnf config-manager --add-repo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/Fedora_25/home:Alexander_Pozdnyakov.repo
dnf install tesseract dnf install tesseract
dnf install tesseract-langpack-deu dnfインストールtesseract-langpack-deu
` | `
For openSUSE Tumbleweed run the following as root: openSUSE Tumbleweedの場合、rootとして次のコマンドを実行してください。
` | `
zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/openSUSE_Tumbleweed/home:Alexander_Pozdnyakov.repo zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/openSUSE_Tumbleweed/home:Alexander_Pozdnyakov.repo
zypper refresh ジッパーリフレッシュ
zypper install tesseract-ocr zypper install tesseract-ocr
zypper install tesseract-ocr-traineddata-german zesperインストールtesseract-ocr-traineddata-german
` | `
For openSUSE Leap 42.3 run the following as root: openSUSE Leap 42.3の場合は、rootとして次のコマンドを実行します。
` | `
zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/openSUSE_Leap_42.3/home:Alexander_Pozdnyakov.repo zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/openSUSE_Leap_42.3/home:Alexander_Pozdnyakov.repo
zypper refresh ジッパーリフレッシュ
zypper install tesseract-ocr zypper install tesseract-ocr
zypper install tesseract-ocr-traineddata-german zesperインストールtesseract-ocr-traineddata-german
` | `
For openSUSE Leap 15.0 run the following as root: openSUSE Leap 15.0の場合は、rootとして次のコマンドを実行してください。
` | `
zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov/openSUSE_Leap_15.0/home:Alexander_Pozdnyakov.repo zypper addrepo https://download.opensuse.org/repositories/home:Alexander_Pozdnyakov / openSUSE_Leap_15.0 / home:Alexander_Pozdnyakov.repo
zypper refresh ジッパーリフレッシュ
zypper install tesseract-ocr zypper install tesseract-ocr
zypper install tesseract-ocr-traineddata-german zesperインストールtesseract-ocr-traineddata-german
` | `
### FOR EXPERTS ONLY. ###経験のみのために。
If you are experimenting with OCR Engine modes, you will need to manually install language training data beyond what is available in your Linux distribution. OCRエンジンモードを試している場合は、Linuxディストリビューションで利用可能なものを超えて言語トレーニングデータを手動でインストールする必要があります。
Various types of training data can be found on GitHub. Unpack and copy the .traineddata file into a 'tessdata' directory. The exact directory will depend both on the type of training data, and your Linux distribtion. Possibilities are /usr/share/tesseract-ocr/tessdata or /usr/share/tessdata or /usr/share/tesseract-ocr/4.00/tessdata. GitHubにはさまざまな種類のトレーニングデータがあります。解凍して.traineddataファイルを 'tessdata'ディレクトリにコピーします。正確なディレクトリは、トレーニングデータの種類とLinuxディストリビューションの両方によって異なります。可能性は / usr / share / tesseract-ocr / tessdataまたは/ usr / share / tessdataまたは / usr / share / tesseract-ocr / 4.00 / tessdataです。
Training data for obsolete Tesseract versions =< 3.02 reside in another location. 廃止されたTesseractバージョン[= = 3.02 of tesseract-ocr are part of Cygwin tesseract-ocrのリリース版> = 3.02 [の一部です](https://mirrors.kernel.org/sourceware/cygwin / x86_64 / release / tesseract -ocr /)[Cygwin](https://www.cygwin。 com /)
The latest version available is 4.00. Please see announcement. 利用可能な最新バージョンは4.00です。 announcementをご覧ください。
### MSYS2 ### MSYS2
Install tesseract-OCR: tesseract-OCRをインストールします。
` | `
pacman -S mingw-w64-{i686,x86_64}-tesseract-ocr pacman -S mingw-w64- {i686、x86_64} -tesseract-ocr
` | `
and the data files: そしてデータファイル:
` | `
pacman -S mingw-w64-{i686,x86_64}-tesseract-data-eng pacman -S mingw-w64- {i686、x86_64} -tesseract-data-eng
` | `
In the above command, "eng" may be replaced with the ISO 639 3-letter language code for supported languages. For a list of available language packages use: 上記のコマンドで、サポートされている言語の場合、 "eng"はISO 639 3文字の言語コードに置き換えられます。利用可能な言語パッケージのリストを見るには:
` | `
pacman -Ss tesseract-data パックマン-Sテッセラットデータ
` | `
## Other Platforms ##その他のプラットフォーム
Tesseract may work on more exotic platforms too. You can either try compiling it yourself, or take a look at the list of other projects using Tesseract. Tesseractはもっとエキゾチックなプラットフォームでも動作するかもしれません。 自分でコンパイルするするか、[Tesseractを使用している他のプロジェクト]のリストを見てください(https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2)。 %80%93-3rdParty)
# Running Tesseract #実行中のTesseract
Tesseract is a command-line program, so first open a terminal or command prompt. The command is used like this: Tesseractはコマンドラインプログラムなので、まず端末またはコマンドプロンプトを開きます。コマンドは次のように使用されます。
` | `
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile ...]
` | `
So basic usage to do OCR on an image called 'myscan.png' and save the result to 'out.txt' would be: そのため、 'myscan.png'という画像に対してOCRを実行し、その結果を 'out.txt'に保存するための基本的な使い方は次のようになります。
` | `
tesseract myscan.png out tesseract myscan.png out
` | `
Or to do the same with German: ドイツ語でも同じことができます。
` | `
tesseract myscan.png out -l deu tesseract myscan.png -l deu
` | `
It can even be used with multiple languages traineddata at a time eg. English and German: それは一度に複数の言語で訓練されたデータと一緒に使うことさえできます。英語とドイツ語
` | `
tesseract myscan.png out -l eng+deu tesseract myscan.png -l eng + deu
` | `
Tesseract also includes a hOCR mode, which produces a special HTML file with the coordinates of each word. This can be used to create a searchable pdf, using a tool such as Hocr2PDF. To use it, use the 'hocr' config option, like this: TesseractにはhOCRモードも含まれています。これは各単語の座標を持つ特別なHTMLファイルを作成します。これはHocr2PDFのようなツールを使用して検索可能なpdfを作成するのに使用することができます。これを使用するには、次のように 'hocr'設定オプションを使用してください。
` | `
tesseract myscan.png out hocr tesseract myscan.png hocrを
` | `
You can also create a searchable pdf directly from tesseract ( versions >=3.03): tesseractから直接検索可能なpdfを作成することもできます(バージョン> = 3.03)。
` | `
tesseract myscan.png out pdf tesseract myscan.png out pdf
` | `
More information about the various options is available in the Tesseract manpage. さまざまなオプションについての詳細はTesseractのマンページにあります。
# Other Languages # 他の言語
Tesseract has been trained for many languages, check for your language in the Tessdata repository. Tesseractは多くの言語のトレーニングを受けています。[Tessdataリポジトリ]であなたの言語をチェックしてください( https://github.com/tesseract-ocr/tessdata)
It can also be trained to support other languages and scripts; for more details see TrainingTesseract. 他の言語やスクリプトをサポートするように訓練することもできます。詳しくはTrainingTesseractをご覧ください。
# Development #開発
Tesseract can also be used in your own project, under the terms of the Apache License 2.0. It has a fully featured API, and can be compiled for a variety of targets including Android and the iPhone. See the 3rdParty page for a sample of what has been done with it. Note that as yet there are very few 3rdParty Tesseract OCR projects being developed for Mac (with the only one being Tesseract macOS), although there are several online OCR services that can be used on Mac that may use Tesseract as their OCR engine. TesseractはApache License 2.0の条項の下であなた自身のプロジェクトでも使用することができます。 AndroidやiPhoneを含むさまざまなターゲット。何が行われたかの例については3rdPartyページをご覧ください。なお、3rdParty Tesseract OCRプロジェクト(Mac用に開発中)(https://machow2.com/ocr-for-mac-best-software/#Tesseract_Freesoftware/)はまだほとんどありません(1つだけ[Tesseract macOS])。 ](https://github.com/scott0123/Tesseract-macOS))ただし、Macで使用できるオンラインのOCRサービスはいくつかありますが、OCRエンジンとしてTesseractを使用することができます
Also, it's free software, so if you want to pitch in and help, please do! また、それはフリーソフトウェアです、それであなたが参加して助けを望むならば、してください!
If you find a bug and fix it yourself, the best thing to do is to attach the patch to your bug report in the Issues List あなたがバグを見つけて自分でそれを修正するならば、するべき最善のことは問題リストのあなたのバグ報告にパッチを添付することです。
# Support # サポート
First read the Wiki, particularly the FAQ to see if your problem is addressed there. If not, search the Tesseract user forum or the Tesseract developer forum, and if you still can't find what you need, please ask us there. 最初にWiki、特にFAQを読み、問題が解決したかどうかを確認してください。そうでない場合は、TesseractユーザーフォーラムまたはTesseract開発者フォーラムを検索してください。 )それでもまだ必要なものが見つからない場合は、そこでお問い合わせください。

&counter()

comment

最終更新:2019年06月12日 20:25