「入門者の Tesseract」の編集履歴(バックアップ)一覧はこちら
「入門者の Tesseract」(2019/09/07 (土) 21:38:27) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
**Tesseract とは
----
Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様な OS 上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。
1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。主な作者は [[レイ・スミス(Ray Smith)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。
Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。
公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ)
https://github.com/tesseract-ocr/tesseract
Tesseract wiki
https://github.com/tesseract-ocr/tesseract/wiki
- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)
Unicode([[UTF-8>https://ja.wikipedia.org/wiki/UTF-8]])をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。
(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)
***OCR とは
----
[[Optical character recognition(光学文字認識>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。
Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。
> ## 手書き文字認識にTesseractを使用できますか?
> Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。
***LSTM とは
[[Long short-term memory(長・短期記憶)>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]の略。[[深層学習(ディープラーニング)>https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0]]の分野において用いられる[[人工回帰型ニューラルネットワーク(RNN)>https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%9E%8B%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]]アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。
一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。
***Google 翻訳とは
2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。
(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)
- [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]]
*** 対訳 Tesseract wiki
----
|original (2019/05/14 付) | Google 翻訳 (2019/06/04 付)|
|---------- | ------------|
|[x] Home | [[ホーム>https://www33.atwiki.jp/asterisk99/pages/540.html]]|
|[x] 4.0 Accuracy and Performance | [[4.0精度と性能>https://www33.atwiki.jp/asterisk99/pages/552.html]]|
|[x] 4.0 Docker Containers | [[4.0 Dockerコンテナ>https://www33.atwiki.jp/asterisk99/pages/547.html]]|
|[x] 4.0 with LSTM | [[LSTMによる4.0>https://www33.atwiki.jp/asterisk99/pages/539.html]]|
|[x] 4.0x Changelog | 4.0x変更履歴|
|[x] 4.0x Common Errors and Resolutions | [[4.0xの一般的なエラーと解決策>https://www33.atwiki.jp/asterisk99/pages/548.html]]|
|[x] AddOns | [[アドオン>https://www33.atwiki.jp/asterisk99/pages/544.html]]|
|[x] APIExample | [[APIExample>https://www33.atwiki.jp/asterisk99/pages/570.html]]|
|[x] Command Line Usage | [[コマンドラインの使い方>https://www33.atwiki.jp/asterisk99/pages/565.html]]|
|[x] Compiling | [[コンパイル>https://www33.atwiki.jp/asterisk99/pages/575.html]]|
|[x] Compiling – GitInstallation | [[コンパイル - GitInstallation>https://www33.atwiki.jp/asterisk99/pages/566.html]]|
|[x] ControlParams | [[コントロールパラメータ>https://www33.atwiki.jp/asterisk99/pages/560.html]]|
|[x] Data Files | [[データファイル>https://www33.atwiki.jp/asterisk99/pages/576.html]]|
|[x] Data Files Contributions | [[データファイル貢献>https://www33.atwiki.jp/asterisk99/pages/549.html]]|
|[x] Data Files in different versions | [[異なるバージョンのデータファイル>https://www33.atwiki.jp/asterisk99/pages/559.html]]|
|[x] Data Files in tessdata_fast | [[tessdata_fastのデータファイル>https://www33.atwiki.jp/asterisk99/pages/577.html]]|
|[x] Documentation | [[ドキュメンテーション>https://www33.atwiki.jp/asterisk99/pages/543.html]]|
|[x] Downloads | [[ダウンロード>https://www33.atwiki.jp/asterisk99/pages/553.html]]|
|[x] FAQ | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/573.html]]|
|[x] FAQ Old | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/572.html]]|
|[x] Fix footer | フッターを修正|
|[x] Fonts | [[フォント>https://www33.atwiki.jp/asterisk99/pages/561.html]]|
|[x] ImproveQuality | [[品質を向上させる>https://www33.atwiki.jp/asterisk99/pages/574.html]]|
|[x] Make Box Files | [[ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/562.html]]|
|[x] Making Box Files 4.0 | [[Box Files 4.0を作る>https://www33.atwiki.jp/asterisk99/pages/550.html]]|
|[x] NeuralNetsInTesseract4.00 | [[NeuralNetsInTesseract4.00>https://www33.atwiki.jp/asterisk99/pages/546.html]]|
|[x] Planning | [[計画中>https://www33.atwiki.jp/asterisk99/pages/563.html]]|
|[x] ReadMe | [[お読みください>https://www33.atwiki.jp/asterisk99/pages/545.html]]|
|[x] ReleaseNotes | [[リリースノート>https://www33.atwiki.jp/asterisk99/pages/567.html]]|
|[x] Technical Documentation | [[技術文書>https://www33.atwiki.jp/asterisk99/pages/551.html]]|
|[x] TesseractOpenCL | [[TesseractOpenCL>https://www33.atwiki.jp/asterisk99/pages/564.html]]|
|[x] TestingTesseract | [[TestingTesseract>https://www33.atwiki.jp/asterisk99/pages/554.html]]|
|[x] The Hallucination Effect | [[幻覚効果>https://www33.atwiki.jp/asterisk99/pages/555.html]]|
|[x] Training Tesseract | [[トレーニングテッセラ>https://www33.atwiki.jp/asterisk99/pages/578.html]]|
|[x] Training Tesseract 3.00–3.02 | [[トレーニングテッセラ3.00〜3.02>https://www33.atwiki.jp/asterisk99/pages/579.html]]|
|[x] Training Tesseract 3.03–3.05 | [[訓練テッセラ3.03–3.05>https://www33.atwiki.jp/asterisk99/pages/580.html]]|
|[x] Training Tesseract – Make Box Files | [[Tesseractのトレーニング - ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/581.html]]|
|[x] Training Tesseract – tesstrain.sh | [[Tesseractのトレーニング - tesstrain.sh>https://w.atwiki.jp/asterisk99/pages/582.html]]|
|[x] TrainingTesseract | [[トレーニングテッセラ>https://w.atwiki.jp/asterisk99/pages/583.html]]|
|[x] TrainingTesseract 4.00 | [[トレーニングテスト4.00>https://w.atwiki.jp/asterisk99/pages/584.html]]|
|[x] TrainingTesseract 4.00 Finetune | [[トレーニングテスト4.00 Finetune>https://www33.atwiki.jp/asterisk99/pages/557.html]]|
|[x] TrainingTesseract2 | [[トレーニングテッセラ2>https://w.atwiki.jp/asterisk99/pages/585.html]]|
|[x] UNLV Testing of Tesseract | [[TesseractのUNLVテスト>https://w.atwiki.jp/asterisk99/pages/586.html]]|
|[x] User App Example | [[ユーザーアプリの例>https://www33.atwiki.jp/asterisk99/pages/558.html]]|
|[x] User Projects – 3rdParty | [[ユーザープロジェクト - 3rdParty>https://www33.atwiki.jp/asterisk99/pages/569.html]]|
|[x] VGSLSpecs | [[VGSLスペック>https://www33.atwiki.jp/asterisk99/pages/568.html]]|
|[x] ViewerDebugging | [[ViewerDebugging>https://www33.atwiki.jp/asterisk99/pages/571.html]]|
2019-06-08:公開
2019-08-27:更新
しだひろし/PoorBook G3'99
カウンタ:&counter()
- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
- [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
- 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28)
- 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41)
- 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41)
- 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02)
#comment
**Tesseract とは
----
Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様な OS 上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。
1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。主な作者は [[レイ・スミス(Ray Smith)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。
Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。
公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ)
https://github.com/tesseract-ocr/tesseract
Tesseract wiki
https://github.com/tesseract-ocr/tesseract/wiki
- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)
Unicode([[UTF-8>https://ja.wikipedia.org/wiki/UTF-8]])をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。
(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)
***OCR とは
----
[[Optical character recognition(光学文字認識>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。
Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。
> ## 手書き文字認識にTesseractを使用できますか?
> Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。
***LSTM とは
[[Long short-term memory(長・短期記憶)>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]の略。[[深層学習(ディープラーニング)>https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0]]の分野において用いられる[[人工回帰型ニューラルネットワーク(RNN)>https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%9E%8B%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]]アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。
一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。
***Google 翻訳とは
2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。
(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)
- [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]]
*** 対訳 Tesseract wiki
----
|original (2019/05/14 付) | Google 翻訳 (2019/06/04 付)|
|---------- | ------------|
|[x] Home | [[ホーム>https://www33.atwiki.jp/asterisk99/pages/540.html]]|
|[x] 4.0 Accuracy and Performance | [[4.0精度と性能>https://www33.atwiki.jp/asterisk99/pages/552.html]]|
|[x] 4.0 Docker Containers | [[4.0 Dockerコンテナ>https://www33.atwiki.jp/asterisk99/pages/547.html]]|
|[x] 4.0 with LSTM | [[LSTMによる4.0>https://www33.atwiki.jp/asterisk99/pages/539.html]]|
|[x] 4.0x Changelog | 4.0x変更履歴|
|[x] 4.0x Common Errors and Resolutions | [[4.0xの一般的なエラーと解決策>https://www33.atwiki.jp/asterisk99/pages/548.html]]|
|[x] AddOns | [[アドオン>https://www33.atwiki.jp/asterisk99/pages/544.html]]|
|[x] APIExample | [[APIExample>https://www33.atwiki.jp/asterisk99/pages/570.html]]|
|[x] Command Line Usage | [[コマンドラインの使い方>https://www33.atwiki.jp/asterisk99/pages/565.html]]|
|[x] Compiling | [[コンパイル>https://www33.atwiki.jp/asterisk99/pages/575.html]]|
|[x] Compiling – GitInstallation | [[コンパイル - GitInstallation>https://www33.atwiki.jp/asterisk99/pages/566.html]]|
|[x] ControlParams | [[コントロールパラメータ>https://www33.atwiki.jp/asterisk99/pages/560.html]]|
|[x] Data Files | [[データファイル>https://www33.atwiki.jp/asterisk99/pages/576.html]]|
|[x] Data Files Contributions | [[データファイル貢献>https://www33.atwiki.jp/asterisk99/pages/549.html]]|
|[x] Data Files in different versions | [[異なるバージョンのデータファイル>https://www33.atwiki.jp/asterisk99/pages/559.html]]|
|[x] Data Files in tessdata_fast | [[tessdata_fastのデータファイル>https://www33.atwiki.jp/asterisk99/pages/577.html]]|
|[x] Documentation | [[ドキュメンテーション>https://www33.atwiki.jp/asterisk99/pages/543.html]]|
|[x] Downloads | [[ダウンロード>https://www33.atwiki.jp/asterisk99/pages/553.html]]|
|[x] FAQ | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/573.html]]|
|[x] FAQ Old | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/572.html]]|
|[x] Fix footer | フッターを修正|
|[x] Fonts | [[フォント>https://www33.atwiki.jp/asterisk99/pages/561.html]]|
|[x] ImproveQuality | [[品質を向上させる>https://www33.atwiki.jp/asterisk99/pages/574.html]]|
|[x] Make Box Files | [[ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/562.html]]|
|[x] Making Box Files 4.0 | [[Box Files 4.0を作る>https://www33.atwiki.jp/asterisk99/pages/550.html]]|
|[x] NeuralNetsInTesseract4.00 | [[NeuralNetsInTesseract4.00>https://www33.atwiki.jp/asterisk99/pages/546.html]]|
|[x] Planning | [[計画中>https://www33.atwiki.jp/asterisk99/pages/563.html]]|
|[x] ReadMe | [[お読みください>https://www33.atwiki.jp/asterisk99/pages/545.html]]|
|[x] ReleaseNotes | [[リリースノート>https://www33.atwiki.jp/asterisk99/pages/567.html]]|
|[x] Technical Documentation | [[技術文書>https://www33.atwiki.jp/asterisk99/pages/551.html]]|
|[x] TesseractOpenCL | [[TesseractOpenCL>https://www33.atwiki.jp/asterisk99/pages/564.html]]|
|[x] TestingTesseract | [[TestingTesseract>https://www33.atwiki.jp/asterisk99/pages/554.html]]|
|[x] The Hallucination Effect | [[幻覚効果>https://www33.atwiki.jp/asterisk99/pages/555.html]]|
|[x] Training Tesseract | [[トレーニングテッセラ>https://www33.atwiki.jp/asterisk99/pages/578.html]]|
|[x] Training Tesseract 3.00–3.02 | [[トレーニングテッセラ3.00〜3.02>https://www33.atwiki.jp/asterisk99/pages/579.html]]|
|[x] Training Tesseract 3.03–3.05 | [[訓練テッセラ3.03–3.05>https://www33.atwiki.jp/asterisk99/pages/580.html]]|
|[x] Training Tesseract – Make Box Files | [[Tesseractのトレーニング - ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/581.html]]|
|[x] Training Tesseract – tesstrain.sh | [[Tesseractのトレーニング - tesstrain.sh>https://w.atwiki.jp/asterisk99/pages/582.html]]|
|[x] TrainingTesseract | [[トレーニングテッセラ>https://w.atwiki.jp/asterisk99/pages/583.html]]|
|[x] TrainingTesseract 4.00 | [[トレーニングテスト4.00>https://w.atwiki.jp/asterisk99/pages/584.html]]|
|[x] TrainingTesseract 4.00 Finetune | [[トレーニングテスト4.00 Finetune>https://www33.atwiki.jp/asterisk99/pages/557.html]]|
|[x] TrainingTesseract2 | [[トレーニングテッセラ2>https://w.atwiki.jp/asterisk99/pages/585.html]]|
|[x] UNLV Testing of Tesseract | [[TesseractのUNLVテスト>https://w.atwiki.jp/asterisk99/pages/586.html]]|
|[x] User App Example | [[ユーザーアプリの例>https://www33.atwiki.jp/asterisk99/pages/558.html]]|
|[x] User Projects – 3rdParty | [[ユーザープロジェクト - 3rdParty>https://www33.atwiki.jp/asterisk99/pages/569.html]]|
|[x] VGSLSpecs | [[VGSLスペック>https://www33.atwiki.jp/asterisk99/pages/568.html]]|
|[x] ViewerDebugging | [[ViewerDebugging>https://www33.atwiki.jp/asterisk99/pages/571.html]]|
2019-06-08:公開
2019-08-27:更新
しだひろし/PoorBook G3'99
カウンタ:&counter()
- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
- [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
- 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28)
- 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41)
- 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41)
- 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02)
- ページ名を「入門者の Tesseract」に変更しました。 -- しだ (2019-09-07 21:38:27)
#comment