frame_decoration

「入門者の Tesseract」の編集履歴(バックアップ)一覧はこちら

入門者の Tesseract」(2019/09/07 (土) 21:38:27) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

**Tesseract とは ---- Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様な OS 上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。主な作者は [[レイ・スミス(Ray Smith)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。 Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。 公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ) https://github.com/tesseract-ocr/tesseract Tesseract wiki https://github.com/tesseract-ocr/tesseract/wiki - [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]] - [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版) Unicode([[UTF-8>https://ja.wikipedia.org/wiki/UTF-8]])をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。 (メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある) ***OCR とは ---- [[Optical character recognition(光学文字認識>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。 Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。 > ## 手書き文字認識にTesseractを使用できますか? > Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。 ***LSTM とは [[Long short-term memory(長・短期記憶)>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]の略。[[深層学習(ディープラーニング)>https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0]]の分野において用いられる[[人工回帰型ニューラルネットワーク(RNN)>https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%9E%8B%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]]アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。 一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。 ***Google 翻訳とは 2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。 (感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用) - [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]] *** 対訳 Tesseract wiki ---- |original (2019/05/14 付) | Google 翻訳 (2019/06/04 付)| |---------- | ------------| |[x] Home | [[ホーム>https://www33.atwiki.jp/asterisk99/pages/540.html]]| |[x] 4.0 Accuracy and Performance | [[4.0精度と性能>https://www33.atwiki.jp/asterisk99/pages/552.html]]| |[x] 4.0 Docker Containers | [[4.0 Dockerコンテナ>https://www33.atwiki.jp/asterisk99/pages/547.html]]| |[x] 4.0 with LSTM | [[LSTMによる4.0>https://www33.atwiki.jp/asterisk99/pages/539.html]]| |[x] 4.0x Changelog | 4.0x変更履歴| |[x] 4.0x Common Errors and Resolutions | [[4.0xの一般的なエラーと解決策>https://www33.atwiki.jp/asterisk99/pages/548.html]]| |[x] AddOns | [[アドオン>https://www33.atwiki.jp/asterisk99/pages/544.html]]| |[x] APIExample | [[APIExample>https://www33.atwiki.jp/asterisk99/pages/570.html]]| |[x] Command Line Usage | [[コマンドラインの使い方>https://www33.atwiki.jp/asterisk99/pages/565.html]]| |[x] Compiling | [[コンパイル>https://www33.atwiki.jp/asterisk99/pages/575.html]]| |[x] Compiling – GitInstallation | [[コンパイル - GitInstallation>https://www33.atwiki.jp/asterisk99/pages/566.html]]| |[x] ControlParams | [[コントロールパラメータ>https://www33.atwiki.jp/asterisk99/pages/560.html]]| |[x] Data Files | [[データファイル>https://www33.atwiki.jp/asterisk99/pages/576.html]]| |[x] Data Files Contributions | [[データファイル貢献>https://www33.atwiki.jp/asterisk99/pages/549.html]]| |[x] Data Files in different versions | [[異なるバージョンのデータファイル>https://www33.atwiki.jp/asterisk99/pages/559.html]]| |[x] Data Files in tessdata_fast | [[tessdata_fastのデータファイル>https://www33.atwiki.jp/asterisk99/pages/577.html]]| |[x] Documentation | [[ドキュメンテーション>https://www33.atwiki.jp/asterisk99/pages/543.html]]| |[x] Downloads | [[ダウンロード>https://www33.atwiki.jp/asterisk99/pages/553.html]]| |[x] FAQ | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/573.html]]| |[x] FAQ Old | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/572.html]]| |[x] Fix footer | フッターを修正| |[x] Fonts | [[フォント>https://www33.atwiki.jp/asterisk99/pages/561.html]]| |[x] ImproveQuality | [[品質を向上させる>https://www33.atwiki.jp/asterisk99/pages/574.html]]| |[x] Make Box Files | [[ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/562.html]]| |[x] Making Box Files 4.0 | [[Box Files 4.0を作る>https://www33.atwiki.jp/asterisk99/pages/550.html]]| |[x] NeuralNetsInTesseract4.00 | [[NeuralNetsInTesseract4.00>https://www33.atwiki.jp/asterisk99/pages/546.html]]| |[x] Planning | [[計画中>https://www33.atwiki.jp/asterisk99/pages/563.html]]| |[x] ReadMe | [[お読みください>https://www33.atwiki.jp/asterisk99/pages/545.html]]| |[x] ReleaseNotes | [[リリースノート>https://www33.atwiki.jp/asterisk99/pages/567.html]]| |[x] Technical Documentation | [[技術文書>https://www33.atwiki.jp/asterisk99/pages/551.html]]| |[x] TesseractOpenCL | [[TesseractOpenCL>https://www33.atwiki.jp/asterisk99/pages/564.html]]| |[x] TestingTesseract | [[TestingTesseract>https://www33.atwiki.jp/asterisk99/pages/554.html]]| |[x] The Hallucination Effect | [[幻覚効果>https://www33.atwiki.jp/asterisk99/pages/555.html]]| |[x] Training Tesseract | [[トレーニングテッセラ>https://www33.atwiki.jp/asterisk99/pages/578.html]]| |[x] Training Tesseract 3.00–3.02 | [[トレーニングテッセラ3.00〜3.02>https://www33.atwiki.jp/asterisk99/pages/579.html]]| |[x] Training Tesseract 3.03–3.05 | [[訓練テッセラ3.03–3.05>https://www33.atwiki.jp/asterisk99/pages/580.html]]| |[x] Training Tesseract – Make Box Files | [[Tesseractのトレーニング - ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/581.html]]| |[x] Training Tesseract – tesstrain.sh | [[Tesseractのトレーニング - tesstrain.sh>https://w.atwiki.jp/asterisk99/pages/582.html]]| |[x] TrainingTesseract | [[トレーニングテッセラ>https://w.atwiki.jp/asterisk99/pages/583.html]]| |[x] TrainingTesseract 4.00 | [[トレーニングテスト4.00>https://w.atwiki.jp/asterisk99/pages/584.html]]| |[x] TrainingTesseract 4.00 Finetune | [[トレーニングテスト4.00 Finetune>https://www33.atwiki.jp/asterisk99/pages/557.html]]| |[x] TrainingTesseract2 | [[トレーニングテッセラ2>https://w.atwiki.jp/asterisk99/pages/585.html]]| |[x] UNLV Testing of Tesseract | [[TesseractのUNLVテスト>https://w.atwiki.jp/asterisk99/pages/586.html]]| |[x] User App Example | [[ユーザーアプリの例>https://www33.atwiki.jp/asterisk99/pages/558.html]]| |[x] User Projects – 3rdParty | [[ユーザープロジェクト - 3rdParty>https://www33.atwiki.jp/asterisk99/pages/569.html]]| |[x] VGSLSpecs | [[VGSLスペック>https://www33.atwiki.jp/asterisk99/pages/568.html]]| |[x] ViewerDebugging | [[ViewerDebugging>https://www33.atwiki.jp/asterisk99/pages/571.html]]| 2019-06-08:公開 2019-08-27:更新 しだひろし/PoorBook G3'99 カウンタ:&counter() - フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44) - markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20) - 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19) - ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19) - ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39) - [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33) - 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28) - 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41) - 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41) - 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02) #comment
**Tesseract とは ---- Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様な OS 上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。主な作者は [[レイ・スミス(Ray Smith)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。 Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。 公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ) https://github.com/tesseract-ocr/tesseract Tesseract wiki https://github.com/tesseract-ocr/tesseract/wiki - [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]] - [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版) Unicode([[UTF-8>https://ja.wikipedia.org/wiki/UTF-8]])をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。 (メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある) ***OCR とは ---- [[Optical character recognition(光学文字認識>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。 Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。 > ## 手書き文字認識にTesseractを使用できますか? > Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。 ***LSTM とは [[Long short-term memory(長・短期記憶)>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]の略。[[深層学習(ディープラーニング)>https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0]]の分野において用いられる[[人工回帰型ニューラルネットワーク(RNN)>https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%9E%8B%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]]アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。 一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。 ***Google 翻訳とは 2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。 (感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用) - [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]] *** 対訳 Tesseract wiki ---- |original (2019/05/14 付) | Google 翻訳 (2019/06/04 付)| |---------- | ------------| |[x] Home | [[ホーム>https://www33.atwiki.jp/asterisk99/pages/540.html]]| |[x] 4.0 Accuracy and Performance | [[4.0精度と性能>https://www33.atwiki.jp/asterisk99/pages/552.html]]| |[x] 4.0 Docker Containers | [[4.0 Dockerコンテナ>https://www33.atwiki.jp/asterisk99/pages/547.html]]| |[x] 4.0 with LSTM | [[LSTMによる4.0>https://www33.atwiki.jp/asterisk99/pages/539.html]]| |[x] 4.0x Changelog | 4.0x変更履歴| |[x] 4.0x Common Errors and Resolutions | [[4.0xの一般的なエラーと解決策>https://www33.atwiki.jp/asterisk99/pages/548.html]]| |[x] AddOns | [[アドオン>https://www33.atwiki.jp/asterisk99/pages/544.html]]| |[x] APIExample | [[APIExample>https://www33.atwiki.jp/asterisk99/pages/570.html]]| |[x] Command Line Usage | [[コマンドラインの使い方>https://www33.atwiki.jp/asterisk99/pages/565.html]]| |[x] Compiling | [[コンパイル>https://www33.atwiki.jp/asterisk99/pages/575.html]]| |[x] Compiling – GitInstallation | [[コンパイル - GitInstallation>https://www33.atwiki.jp/asterisk99/pages/566.html]]| |[x] ControlParams | [[コントロールパラメータ>https://www33.atwiki.jp/asterisk99/pages/560.html]]| |[x] Data Files | [[データファイル>https://www33.atwiki.jp/asterisk99/pages/576.html]]| |[x] Data Files Contributions | [[データファイル貢献>https://www33.atwiki.jp/asterisk99/pages/549.html]]| |[x] Data Files in different versions | [[異なるバージョンのデータファイル>https://www33.atwiki.jp/asterisk99/pages/559.html]]| |[x] Data Files in tessdata_fast | [[tessdata_fastのデータファイル>https://www33.atwiki.jp/asterisk99/pages/577.html]]| |[x] Documentation | [[ドキュメンテーション>https://www33.atwiki.jp/asterisk99/pages/543.html]]| |[x] Downloads | [[ダウンロード>https://www33.atwiki.jp/asterisk99/pages/553.html]]| |[x] FAQ | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/573.html]]| |[x] FAQ Old | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/572.html]]| |[x] Fix footer | フッターを修正| |[x] Fonts | [[フォント>https://www33.atwiki.jp/asterisk99/pages/561.html]]| |[x] ImproveQuality | [[品質を向上させる>https://www33.atwiki.jp/asterisk99/pages/574.html]]| |[x] Make Box Files | [[ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/562.html]]| |[x] Making Box Files 4.0 | [[Box Files 4.0を作る>https://www33.atwiki.jp/asterisk99/pages/550.html]]| |[x] NeuralNetsInTesseract4.00 | [[NeuralNetsInTesseract4.00>https://www33.atwiki.jp/asterisk99/pages/546.html]]| |[x] Planning | [[計画中>https://www33.atwiki.jp/asterisk99/pages/563.html]]| |[x] ReadMe | [[お読みください>https://www33.atwiki.jp/asterisk99/pages/545.html]]| |[x] ReleaseNotes | [[リリースノート>https://www33.atwiki.jp/asterisk99/pages/567.html]]| |[x] Technical Documentation | [[技術文書>https://www33.atwiki.jp/asterisk99/pages/551.html]]| |[x] TesseractOpenCL | [[TesseractOpenCL>https://www33.atwiki.jp/asterisk99/pages/564.html]]| |[x] TestingTesseract | [[TestingTesseract>https://www33.atwiki.jp/asterisk99/pages/554.html]]| |[x] The Hallucination Effect | [[幻覚効果>https://www33.atwiki.jp/asterisk99/pages/555.html]]| |[x] Training Tesseract | [[トレーニングテッセラ>https://www33.atwiki.jp/asterisk99/pages/578.html]]| |[x] Training Tesseract 3.00–3.02 | [[トレーニングテッセラ3.00〜3.02>https://www33.atwiki.jp/asterisk99/pages/579.html]]| |[x] Training Tesseract 3.03–3.05 | [[訓練テッセラ3.03–3.05>https://www33.atwiki.jp/asterisk99/pages/580.html]]| |[x] Training Tesseract – Make Box Files | [[Tesseractのトレーニング - ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/581.html]]| |[x] Training Tesseract – tesstrain.sh | [[Tesseractのトレーニング - tesstrain.sh>https://w.atwiki.jp/asterisk99/pages/582.html]]| |[x] TrainingTesseract | [[トレーニングテッセラ>https://w.atwiki.jp/asterisk99/pages/583.html]]| |[x] TrainingTesseract 4.00 | [[トレーニングテスト4.00>https://w.atwiki.jp/asterisk99/pages/584.html]]| |[x] TrainingTesseract 4.00 Finetune | [[トレーニングテスト4.00 Finetune>https://www33.atwiki.jp/asterisk99/pages/557.html]]| |[x] TrainingTesseract2 | [[トレーニングテッセラ2>https://w.atwiki.jp/asterisk99/pages/585.html]]| |[x] UNLV Testing of Tesseract | [[TesseractのUNLVテスト>https://w.atwiki.jp/asterisk99/pages/586.html]]| |[x] User App Example | [[ユーザーアプリの例>https://www33.atwiki.jp/asterisk99/pages/558.html]]| |[x] User Projects – 3rdParty | [[ユーザープロジェクト - 3rdParty>https://www33.atwiki.jp/asterisk99/pages/569.html]]| |[x] VGSLSpecs | [[VGSLスペック>https://www33.atwiki.jp/asterisk99/pages/568.html]]| |[x] ViewerDebugging | [[ViewerDebugging>https://www33.atwiki.jp/asterisk99/pages/571.html]]| 2019-06-08:公開 2019-08-27:更新 しだひろし/PoorBook G3'99 カウンタ:&counter() - フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44) - markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20) - 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19) - ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19) - ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39) - [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33) - 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28) - 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41) - 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41) - 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02) - ページ名を「入門者の Tesseract」に変更しました。 -- しだ (2019-09-07 21:38:27) #comment

表示オプション

横に並べて表示:
変化行の前後のみ表示: