frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/25 付)
# Release Notes # リリースノート
This page keeps the most up-to-date release notes. このページには最新のリリースノートがあります。
Table of Contents 目次
================= =================
* IN DEVELOPMENT * 開発中
* Oct 29 2018 - V4.0.0 * [2018年10月29日 - V4.0.0](#tesseract-release-notes-oct-29-2018 --- v400)
* June 19 2018 - V3.05.02 * [2018年6月19日 - V3.05.02](#tesseract-release-notes-june-19-2018 --- v30502)
* June 1 2017 - V3.05.01 * [2017年6月1日 - V3.05.01](#tesseract-release-notes-june-1-2017 --- v30501)
* February 16 2017 - V3.05.00 * [2017年2月16日 - V3.05.00](#tesseract-release-notes-feb-16-2017 --- v30500)
* February 16 2016 - V3.04.01 * [2016年2月16日 - V3.04.01](#tesseract-release-notes-feb-16-2016 --- v30401)
* July 11 2015 - V3.04.00 * [2015年7月11日 - V3.04.00](#tesseract-release-notes-july-11-2015 --- v30400)
* February 4 2014 - V3.03(rc1) * [2014年2月4日 - V3.03(rc1)](#tesseract-release-notes-feb-4-2014 --- v303rc1)
* October 23 2012 - V3.02.02 * [2012年10月23日 - V3.02.02](#tesseract-release-notes-oct-23-2012 --- v30202)
* October 21 2011 - V3.01 * [2011年10月21日 - V3.01](#tesseract-release-notes-oct-21-2011 --- v301)
* September 30 2010 - V3.00 * [2010年9月30日 - V3.00](#tesseract-release-notes-sep-30-2010 --- v300)
* June 30 2009 - V2.04 * [2009年6月30日 - V2.04](#tesseract-release-notes-june-30-2009 --- v204)
* April 22 2008 - V2.03 * [2008年4月22日 - V2.03](#tesseract-release-notes-april-22-2008 --- v203)
* April 21 2008 - V2.02 * [2008年4月21日 - V2.02](#tesseract-release-notes-april-21-2008 --- v202)
* August 30 2007 - V2.01 * [2007年8月30日 - V2.01](#tesseract-release-notes-aug-30-2007 --- v201)
* July 18 2007 - V2.00 * [2007年7月18日 - V2.00](#tesseract-release-notes-jul-18-2007 --- v200)
* May 15 2007 - V1.04 * [2007年5月15日 - V1.04](#tesseract-release-notes-may-15-2007 --- v104)
* February 03 2007 - V1.03 * [2007年2月3日 - V1.03](#tesseract-release-notes-february-03-2007 --- v103)
* October 04 2006 - V1.02 * [2006年10月4日 - V1.02](#tesseract-release-notes-october-04-2006 --- v102)
* September 07 2006 - V1.01 * [2006年9月7日 - V1.01](#tesseract-release-notes-september-07-2006 --- v101)
* June 17 2006 - V1.00 * [2006年6月17日 - V1.00](#tesseract-release-notes-june-17-2006 --- v100)
# IN DEVELOPMENT # 開発中
## API/ABI changes review for Tesseract ## Tesseractに対するAPI / ABIの変更点のレビュー
API/ABI changes graph API / ABIのグラフ変更
api_abi_changes.png api_abi_changes.png
* Binary compatibility report for Tesseract: 3.05.02 vs 4.0.0 * Tesseractのバイナリ互換性レポート:3.05.02と4.0.0
## Changes made since last release ##前回のリリース以降に行われた変更
* Added a new output option formatted in the ALTO standard. Command line usage: tessaract imagename outputbase alto. This output is experimental and might be changed a bit before the next release.   * ALTO規格でフォーマットされた新しい出力オプションを追加しました。コマンドラインの使い方: tessaract imagename outputbase alto。この出力は実験的なものであり、次のリリースの前に少し変更されるかもしれません。
# Tesseract release notes Oct 29 2018 - V4.0.0 #Tesseractリリースノート2018年10月29日 - V4.0.0
* New OCR engine   * 新しいOCRエンジン
* Added a new OCR engine that uses neural network system based on LSTMs, with major accuracy gains.     * LSTMに基づいたニューラルネットワークシステムを使用する新しいOCRエンジンを追加しました。精度が大幅に向上しました。
* This includes new training tools for the LSTM OCR engine. A new model can be trained from scratch or by fine tuning an existing model.     *これにはLSTM OCRエンジン用の新しいトレーニングツールが含まれています。新しいモデルは、最初からトレーニングすることも、既存のモデルを微調整することによってトレーニングすることもできます。
* Added trained data that includes LSTM models to 123 languages.     * LSTMモデルを含むトレーニング済みデータを[123の言語]に追加しました(https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#updated-data-files-for-version-400-september-15- 2017)。
* Added optional accelerated code paths for the LSTM recognizer:     * LSTMレコグナイザー用のオプションの高速化コードパスを追加しました。
* Using OpenMP       * OpenMPを使う
* Using SIMD: AVX2 / AVX / SSE4.1       * SIMDを使用する場合:AVX2 / AVX / SSE4.1
* Added a new parameter lstm_choice_mode that allows to include alternative symbol choices in the hOCR output.     * hOCR出力に代替のシンボル選択を含めることを可能にする新しいパラメータ lstm_choice_modeを追加しました。
* Other OCR engines   * その他のOCRエンジン
* The pattern matching OCR engine that was the primary OCR engine in previous versions is still available in this version.     *以前のバージョンでプライマリOCRエンジンだったパターンマッチングOCRエンジンは、このバージョンでも引き続き利用できます。
* Removed the 'Cube' OCR engine from the codebase. It was used for Hindi and for Arabic. The New LSTM engine performs much better, thus the Cube engine was no longer needed.     * 'Cube' OCRエンジンをコードベースから削除しました。それはヒンディー語とアラビア語のために使われました。 New LSTMエンジンははるかに優れたパフォーマンスを発揮するため、Cubeエンジンは不要になりました。
* Updated build system   * ビルドシステムを更新しました
* Tesseract now uses semantic versioning.     * Tesseractは現在セマンティックバージョニングを使用しています。
* Added an option to compile Tesseract without the code of the legacy OCR engine.     *従来のOCRエンジンのコードなしでTesseractをコンパイルするためのオプションを追加しました。
* Updated requirements   * 更新された要件
* For building Tesseract from source code, a compiler with good C++ 11 support is required. See here for a list of officially supported compilers.     *ソースコードからTesseractを構築するには、C ++ 11を正しくサポートしているコンパイラが必要です。公式にサポートされているコンパイラのリストについては、ここを参照してください。
* Tesseract now requires Leptonica 1.74.0 or a higher version.     * TesseractはLeptonica 1.74.0以降のバージョンが必要です。
* Update minimum required autoconf version to 2.63.     *最低限必要なautoconfのバージョンを2.63に更新。
* Training tools dependencies - Update minimum required versions: ICU 52.1, Pango 1.22.0.     *トレーニングツールの依存関係 - 必要最低限​​のバージョンを更新:ICU 52.1、Pango 1.22.0。
* Bug fixes and enhancements   * バグ修正と機能強化
* Fixed many issues that triggered compiler warnings.     *コンパイラの警告を引き起こす多くの問題を修正しました。
* Fixed many issues reported by Coverity Scan or LGTM.     * Coverity ScanまたはLGTMで報告された多くの問題を修正しました。 )
* Fixes to trainingdata rendering. *トレーニングデータのレンダリングが修正されました。
* Fixed damage to binary images when processing PDFs.     * PDFを処理する際のバイナリ画像へのダメージを修正しました。
* Don't trigger a deliberate segmentation fault for fatal errors in release code [(Commit 5338a5a8d)](     *リリースコードの致命的なエラーに対して意図的なセグメンテーションフォルトを引き起こさない[(Commit 5338a5a8d)](
https://github.com/tesseract-ocr/tesseract/commit/5338a5a8d5e4ebad). https://github.com/tesseract-ocr/tesseract/commit/5338a5a8d5e4ebad)
* Fixed some issues in OpenCL code. OpenCL now works for the legacy Tesseract OCR engine, but does not improve the performance. It is not implemented for the LSTM OCR engine.     * OpenCLコードのいくつかの問題を修正しました。 OpenCLは従来のTesseract OCRエンジンで動作するようになりましたが、パフォーマンスは向上しません。 LSTM OCRエンジンには実装されていません。
* Improved multi-page TIFF handling.     *マルチページTIFF処理を改善しました。
* Improvements to PDF rendering.     * PDFレンダリングの改善。
* Added version information and improved help texts to the training tools.     *トレーニングツールにバージョン情報と改善されたヘルプテキストを追加しました。
* Added faster version of log2().     * log2()の高速版を追加しました。
* Documented in tesseract man page the option to use an input text file which contains lists of images.     * tesseractのmanページに、画像のリストを含む入力テキストファイルを使うオプションが記載されています。
* Made 'osd' the default traineddata when psm 0 is requested (currently this feature is only implemented in the command line interface, but not in the API).     * psm 0が要求されたときに、 'osd'をデフォルトの学習データにしました(現在、この機能はコマンドラインインターフェースにのみ実装されていますが、APIには実装されていません)。
* Removed tessedit_pageseg_mode 1     * tessedit_pageseg_mode 1を削除しました
from hocr, pdf, and tsv config files. The user should explicitly use --psm 1 if that is desired (Commit ecfee53ba). hocr、pdf、およびtsv構成ファイルから。必要ならば、ユーザーは明示的に --psm 1を使うべきです(Commit ecfee53ba)
* The list of available languages and scripts is now sorted alphabetically.     *利用可能な言語とスクリプトのリストはアルファベット順にソートされています。
* Parameter unlv_tilde_crunching changed to false, because of default values cause issues (#948, #1449) in cases of unlv output in Tesseract 4.     *デフォルト値のため、Tesseract 4でunlvが出力された場合に問題になるので(#948、#1449)、パラメータ unlv_tilde_crunchingfalseに変更されました。
* Added parameter: min_characters_to_try.     *パラメータを追加しました: min_characters_to_try
* Misc.   * その他
* Reorganized Tesseract's source tree. Most sources are now below the src directory.     * Tesseractのソースツリーを再編成しました。ほとんどのソースは現在 srcディレクトリの下にあります。
* Added unit tests to the main repo. The unit tests require Git submodules and the code for training.     *メインレポにユニットテストを追加しました。単体テストにはGitサブモジュールとトレーニング用のコードが必要です。
* Removed obsolete code.     *廃止されたコードを削除しました。
* Important notes   * 重要事項
* The new LSTM engine still does not support all features from the old legacy engine (see missing features).     *新しいLSTMエンジンは、古いレガシーエンジンのすべての機能をまだサポートしていません(欠けている機能。 -missing-for-lstm))
* Tesseract now requires the so called "C" locale. This has mainly implications when Tesseract is used as a library from programming languages like Java or Python. The locale stands for several settings which depend on a language (or language variant) or country. Some of those setting determine the classification of symbols (for example "Is this character a blank (space) character?") or the way how numbers are printed (for example "3.141" or "3,141"). The current Tesseract code implicitly expects some fixed settings, otherwise it fails. Therefore the code fails right at the beginning with an assertion if it cannot be sure that the settings work. This is not a problem with C or C++ programs which by default get a "C" locale with the right settings. All other use cases must currently make sure that they switch to the "C" locale before running Tesseract code. The Tesseract code will be modified in a next release to work with any locale, so the current restriction will hopefully be removed soon.     * Tesseractはいわゆる "C"ロケールを必要とします。これは主にTesseractがJavaやPythonのようなプログラミング言語からのライブラリとして使用されている場合に影響します。 _locale_は、言語(または言語のバリエーション)または国に依存するいくつかの設定を表します。これらの設定の中には、記号の分類(たとえば、「この文字は空白(スペース)文字ですか?」)や数字の印刷方法(たとえば、「3.141」や「3,141」)を決定するものがあります。現在のTesseractコードは暗黙のうちにいくつかの固定設定を期待していますが、そうでなければ失敗します。そのため、設定が正しく行われているかどうかを確認できない場合、コードは最初の時点でアサーションで失敗します。これは、デフォルトで正しい設定の "C"ロケールを取得するCまたはC ++プログラムでは問題ありません。他のすべてのユースケースは現在、Tesseractコードを実行する前にそれらが "C"ロケールに切り替わることを確認する必要があります。 Tesseractコードは次のリリースで任意のロケールで動作するように変更される予定ですので、現在の制限は近いうちに削除される予定です。
# Tesseract release notes June 19 2018 - V3.05.02 #Tesseractリリースノート2018年6月19日 - V3.05.02
This release fixed a few bugs, backported from 4.0.0. このリリースは4.0.0からバックポートされたいくつかのバグを修正しました。
# Tesseract release notes June 1 2017 - V3.05.01 #Tesseractリリースノート2017年6月1日 - V3.05.01
* Added an option to render only the invisible text layer (without the full *非表示のテキストレイヤーのみを表示するオプションを追加しました。
input image) for PDF output. PDF出力の場合は入力画像)。
* Made some optimizations to GenericVector. * GenericVectorにいくつかの最適化を加えました。
* Fixed --disable-graphics build. * --disable-graphicsビルドを修正しました。
* Fixed --enable-visibility build (including training tools). * --enable-visibilityビルド(トレーニングツールを含む)を修正。
* Fixed reading config files with '\r\n' as line break. *改行として '\ r \ n'を含む設定ファイルの読み込みを修正しました。
* OpenCL - Fixed some issues. Removed a large part of the code. * OpenCL - いくつかの問題を修正しました。コードの大部分を削除しました。
* Removed dead code. *デッドコードを削除しました。
# Tesseract release notes Feb 16 2017 - V3.05.00 #Tesseractリリースノート2017年2月16日 - V3.05.00
* Tesseract now requires Leptonica 1.74.0 or a higher version. * TesseractはLeptonica 1.74.0以降のバージョンが必要です。
* Made some fine tuning to the hOCR output. * hOCR出力を微調整しました。
* Added TSV as another optional output format. *別のオプションの出力フォーマットとしてTSVを追加しました。
* Fixed ABI break introduced in 3.04.00 with the AnalyseLayout() method. AnalyseLayout()メソッドで3.04.00で発生したABIブレークを修正。
* text2image tool - Enable all OpenType ligatures available in a font. This feature requires Pango 1.38 or newer. * text2imageツール - フォントで利用可能なすべてのOpenType合字を有効にします。この機能にはPango 1.38以降が必要です。
* Training tools - Replaced asserts with tprintf() and exit(1). *トレーニングツール - アサートをtprintf()およびexit(1)に置き換えました。
* Fixed Cygwin compatibility. * Cygwinの互換性を修正しました。
* Improved multipage TIFF processing. *マルチページTIFF処理を改善しました。
* Improved embedded PDF font (pdf.ttf). *埋め込みPDFフォント(pdf.ttf)を改善しました。
* Enable selection of OCR engine mode from the command line. *コマンドラインからOCRエンジンモードの選択を有効にします。
* Changed tesseract command line parameter '-psm' to '--psm'. * tesseractコマンドラインパラメータ '-psm'を '--psm'に変更しました。
* Added new C API for orientation and script detection, removed the old one. *オリエンテーションとスクリプト検出のための新しいC APIを追加し、古いものを削除しました。
* Increased minimum autoconf version to 2.59. *最小autoconfバージョンを2.59に増やしました。
* Removed dead code. *デッドコードを削除しました。
* Fixed many compiler warnings. *多くのコンパイラ警告を修正しました。
* Fixed memory and resource leaks. *メモリとリソースのリークを修正しました。
* Fixed some issues with the 'Cube' OCR engine. * 'Cube' OCRエンジンに関するいくつかの問題を修正しました。
* Fixed some OpenCL issues. *いくつかのOpenCLの問題を修正しました。
* Added option to build Tesseract with CMake build system. * CMakeビルドシステムでTesseractをビルドするオプションを追加しました。
* Implemented CPPAN support for easy Windows building. *簡単なWindows構築のためのCPPANサポートを実装しました。
# Tesseract release notes Feb 16 2016 - V3.04.01 #Tesseractリリースノート2016年2月16日 - V3.04.01
* Added OSD renderer for psm 0. Works for single page and multi-page images. * psm 0用のOSDレンダラーを追加しました。単一ページおよび複数ページの画像で動作します。
* Improved tesstrain.sh script. * tesstrain.shスクリプトを改善しました。
* Simplify build and run of ScrollView. * ScrollViewの構築と実行を簡単にします。
* Improved PDF output for OS X Preview utility. * OS XプレビューユーティリティのPDF出力を改善しました。
* INCOMPATIBLE fix to hOCR line height information - commit 134ebc3. *不適切な行の高さ情報の修正 - commit 134ebc3
* Added option to build Tesseract without Cube OCR engine (-DNO_CUBE_BUILD). * Cube OCRエンジンなしでTesseractをビルドするオプションを追加しました(-DNO_CUBE_BUILD)。
* The project uses Travis CI and AppVeyor Continuous Integration services. *プロジェクトはTravis CIとAppVeyor Continuous Integrationサービスを使用しています。
# Tesseract release notes July 11 2015 - V3.04.00 # Tesseract release notes July 11 2015 - V3.04.00
* Tesseract development is now done with Git and hosted at github.com * Tesseract development is now done with Git and hosted at github.com
(Previously we used Subversion as a VCS and code.google.com for hosting). (Previously we used Subversion as a VCS and code.google.com for hosting).
* Tesseract now requires Leptonica 1.71 or a higher version. * Tesseract now requires Leptonica 1.71 or a higher version.
* Removed official support for VS2008. * Removed official support for VS2008.
* Major updates to training system as a result of extensive testing on 100 languages. * Major updates to training system as a result of extensive testing on 100 languages.
* New training data for over 100 languages. Added support for 39 additional scripts/languages: amh, asm, aze_cyrl, bod, bos, ceb, cym, dzo, fas, gle, guj, hat, iku, jav, kat, kat_old, kaz, khm, kir, kur, lao, lat, mar, mya, nep, ori, pan, pus, san, sin, srp_latn, syr, tgk, tir, uig, urd, uzb, uzb_cyrl, yid. * New training data for over 100 languages. Added support for 39 additional scripts/languages: amh, asm, aze_cyrl, bod, bos, ceb, cym, dzo, fas, gle, guj, hat, iku, jav, kat, kat_old, kaz, khm, kir, kur, lao, lat, mar, mya, nep, ori, pan, pus, san, sin, srp_latn, syr, tgk, tir, uig, urd, uzb, uzb_cyrl, yid.
* Added a backup adaptive classifier to take over from primary when it fills on a large document. * Added a backup adaptive classifier to take over from primary when it fills on a large document.
* Improved performance with PIC compilation option. * Improved performance with PIC compilation option.
* Significant change to invisible font system in PDF output to improve * Significant change to invisible font system in PDF output to improve
correctness and compatibility with external programs, particularly ghostscript. correctness and compatibility with external programs, particularly ghostscript.
* Improved font identification. * Improved font identification.
* Major change to improve layout analysis for heavily diacritic languages: * Major change to improve layout analysis for heavily diacritic languages:
Thai, Vietnamese, Kannada, Telugu etc. Thai, Vietnamese, Kannada, Telugu etc.
* Fixed problems with shifted baselines so recognition can recover from * Fixed problems with shifted baselines so recognition can recover from
layout analysis errors. layout analysis errors.
* Major refactor to improve speed on difficult images, especially when * Major refactor to improve speed on difficult images, especially when
running a heap checker. running a heap checker.
* Moved params from global in page layout to tesseractclass. * Moved params from global in page layout to tesseractclass.
* Improved single column layout analysis. * Improved single column layout analysis.
* Allow OCR output to multiple formats using tesseract command line executable. * Allow OCR output to multiple formats using tesseract command line executable.
* Fixed issues with mixed eng+ara scripts. * Fixed issues with mixed eng+ara scripts.
* Improved script consistency in numbers. * Improved script consistency in numbers.
* Major refactor of control.cpp to enable line recognition. * Major refactor of control.cpp to enable line recognition.
* Added tesstrain.sh - a master training script. * Added tesstrain.sh - a master training script.
* Added ability to text2image training tool to just list available fonts. * Added ability to text2image training tool to just list available fonts.
* Added ability to text2image to underline words. * Added ability to text2image to underline words.
* Improved efficiency of image processing for PDF output. * Improved efficiency of image processing for PDF output.
* Added parameter description for each parameter listed with 'print-parameters' * Added parameter description for each parameter listed with 'print-parameters'
command line option. command line option.
* Added font info to hOCR output. * Added font info to hOCR output.
* Enabled streaming input and output of multi-page documents. * Enabled streaming input and output of multi-page documents.
* Many bug fixes. * Many bug fixes.
# Tesseract release notes Feb 4 2014 - V3.03(rc1) #Tesseractリリースノート2014年2月4日 - V3.03(rc1)
* Tesseract now requires Leptonica 1.70 or a higher version. * TesseractはLeptonica 1.70以上のバージョンが必要です。
* Added OpenCL support (experimental). * OpenCLサポートを追加しました(実験的)。
* Added new training tool text2image to generate box/tif file pairs from text and truetype fonts. *テキストとTrueTypeフォントからボックス/ TIFファイルのペアを生成するための新しいトレーニングツールtext2imageを追加しました。
* Added support for PDF output with searchable text. *検索可能なテキストを含むPDF出力のサポートを追加しました。
* Removed entire IMAGE class and all code in image directory. * IMAGEクラス全体とimageディレクトリ内のすべてのコードを削除しました。
* Tesseract executable: support for output to stdout; limited support for one page images from stdin (especially on Windows) *実行可能ファイルをTesseract:標準出力への出力をサポート。 stdinからの1ページ画像に対する限定的なサポート(特にWindows上)
* Added Renderer to API to allow document-level processing and output of document formats, like hOCR, PDF. * hOCR、PDFなどのドキュメントレベルのドキュメントレベルの処理および出力を可能にするために、APIにレンダラが追加されました。
* Major refactor of word-level recognition, beam search, eliminating dead code. *単語レベルの認識、ビーム検索、デッドコードの排除の主要なリファクタリング。
* Refactored classifier to make it easier to add new ones. *新しいものを簡単に追加できるように分類子をリファクタリングしました。
* Generalized feature extractor to allow feature extraction from greyscale. グレースケールからの特徴抽出を可能にするための一般化された特徴抽出
* Improved sub/superscript treatment. *下付き文字/上付き文字の扱いを改善しました。
* Improved baseline fit. *ベースラインフィットが改善されました。
* Added set_unicharset_properties to training tools. *トレーニングツールにset \ _unicharset \ _propertiesを追加しました。
* Many bug fixes. *多くのバグ修正。
* More training source data included. *より多くのトレーニングソースデータが含まれています。
# Tesseract release notes Oct 23 2012 - V3.02.02 #Tesseractリリースノート2012年10月23日 - V3.02.02
* Tesseract now requires Leptonica 1.69 or a higher version. * TesseractはLeptonica 1.69以上のバージョンが必要です。
* Moved ResultIterator/PageIterator to ccmain. * ResultIterator / PageIteratorをccmainに移動しました。
* Added Right-to-left/Bidi capability in the output iterators for Hebrew/Arabic. *ヘブライ語/アラビア語の出力反復子にRight-to-left / Bidi機能が追加されました。
* Added paragraph detection in layout analysis/post OCR. *レイアウト解析/ポストOCRに段落検出を追加しました。
* Fixed inconsistent xheight during training and over-chopping. *トレーニング中およびオーバーチョッピング中の矛盾したxheightを修正しました。
* Added simultaneous multi-language capability. *同時多言語機能を追加しました。
* Refactored top-level word recognition module. トップレベルの単語認識モジュールをリファクタリング。
* Added experimental equation detector. 実験式検出器を追加しました。
* Improved handling of resolution from input images. *入力画像からの解像度の扱いが改善されました。
* Blamer module added for error analysis. *エラー解析用にBlamerモジュールが追加されました。
* Cleaned up externally used namespace by removing includes from baseapi.h. * baseapi.hからインクルードを削除することによって、外部で使用される名前空間をクリーンアップしました。
* Removed dead memory management code. *デッドメモリ管理コードを削除しました。
* Tidied up constraints on control parameters. *制御パラメータの制約を片付けました。
* Added support for ShapeTable in classifier and training. *分類器と訓練におけるShapeTableのサポートを追加しました。
* Refactored class pruner. *リファクタリングされたクラスの整理
* Fixed training leaks and randomness. *トレーニングリークとランダム性を修正しました。
* Major improvements to layout analysis for better image detection, diacritic detection, better textline finding, better tabstop finding. *画像検出、発音区別符号の検出、テキスト行の検出、タブストップの検出を改善するためのレイアウト分析の大幅な改善。
* Improved line detection and removal. *線の検出と削除を改善しました。
* Added fixed pitch chopper for CJK. * CJKに固定ピッチチョッパーを追加しました。
* Added UNICHARSET to WERD_CHOICE to make mult-language handling easier. *多言語処理を容易にするために、WERD \ _CHOICEにUNICHARSETを追加しました。
* Fixed problems with internally scaled images. *内部的に拡大縮小された画像に関する問題を修正しました。
* Added page and bbox to string in tr files to identify source of training data better. *トレーニングデータのソースをよりよく識別するためにtrファイルの文字列にpageとbboxを追加しました。
* Fixes to Hindi Shiroreka splitter. *ヒンディー語のShirorekaスプリッタを修正しました。
* Added word bigram correction. *単語バイグラム訂正を追加しました。
* Reduced stack memory consumption and eliminated some ugly typedefs. *スタックメモリの消費量を減らし、見苦しいtypedefをいくつか取り除きました。
* Added new uniform classifier API.   *新しいユニフォームクラシファイアAPIを追加しました。
* Added new training error counter.   *新しいトレーニングエラーカウンターを追加しました。
* Fixed endian bug in dawg reader.   * dawgリーダーのエンディアンバグを修正しました。
* C API (thanks to Tobias Müller)   * C API(TobiasMüllerに感謝します)
* New solution for VS 2008 (thanks to Tom Powers)   * VS 2008用の新しいソリューション(Tom Powersに感謝)
* Fixed the way in which the chopper finds chops and messes with the outline while it does so.   *チョッパーがチョップを見つけてアウトラインと混同する方法を修正しました。
* Many other fixes.   *他にもたくさんの修正。
# Tesseract release notes Oct 21 2011 - V3.01 #Tesseractリリースノート2011年10月21日 - V3.01
* Thread-safety! Moved all critical globals and statics to members of the appropriate class. Tesseract is now thread-safe (multiple instances can be used in parallel in multiple threads.) with the minor exception that some control parameters are still global and affect all threads.   *スレッドセーフ!すべての重要なグローバルと統計を適切なクラスのメンバーに移動しました。 Tesseractはスレッドセーフになりました(複数のインスタンスで複数のインスタンスを並列に使用できます)。ただし、制御パラメータの中にはグローバルなものがあり、すべてのスレッドに影響を与えるものがあります。
* Added Cube, a new experimental recognizer for Arabic and Hindi. Cube can also be used in combination with normal Tesseract for a few other languages with an small improvement in accuracy at the cost of much lower speed. There is no training module for Cube.   *アラビア語とヒンディー語用の新しい実験的な認識機能である Cubeを追加しました。 Cubeは、他のいくつかの言語では通常のTesseractと組み合わせて使用​​することもできますが、速度は大幅に低下しますが、精度は少し向上します。 Cube用のトレーニングモジュールはありません。
* OcrEngineMode in Init replaces AccuracyVSpeed to control cube.   * InitOcrEngineModeはキューブを制御するために AccuracyVSpeedを置き換えます。
* Greatly improved segmentation search with consequent accuracy and speed improvements, especially for Chinese.   *特に中国語において、セグメンテーション検索が大幅に改善され、その結果、精度と速度が向上しました。
Added PageIterator and ResultIterator as cleaner ways to get the full results out of Tesseract, that are not currently provided by any of the `TessBaseAPI::Getmethods. All other methods, such as theETEXT_STRUCT` in particular are deprecated and will be deleted in the future.    Tesseractから完全な結果を得るためのよりきれいな方法として PageIteratorResultIteratorを追加しました。これらは現在 `TessBaseAPI :: Get メソッドのいずれでも提供されていません。特にETEXT_STRUCT`のような他のすべてのメソッドは非推奨であり、将来削除されるでしょう。
* ApplyBoxes totally rewritten to make training easier. It can now cope with touching/overlapping training characters, and a new boxfile format allows word boxes instead of character boxes, BUT to use that you have to have already boostrapped the language with character boxes. "Cyclic dependency" on traineddata.   * ApplyBoxesは、トレーニングを容易にするために完全に書き直されました。それは今触れる/重なり合うトレーニング文字に対処することができます、そして、新しいboxfileフォーマットは文字ボックスの代わりに単語ボックスを可能にします、しかしあなたはすでに文字ボックスで言語を強化しなければならないことを使います。訓練データに対する「周期的依存性」
* Auto orientation and script detection added to page layout analysis.   自動レイアウトとスクリプト検出がページレイアウト分析に追加されました。
* Deleted lots of dead code.   *たくさんのデッドコードを削除しました。
* Fixxht module replaced with scalable data-driven module.   * fixxhtモジュールは、スケーラブルなデータ駆動型モジュールに置き換えられました。
* Output font characteristics accuracy improved.   *出力フォント特性の精度が向上しました。
* Removed the double conversion at each classification.   *各分類でダブルコンバージョンを削除しました。
* Upgraded oldest structs to be classes and deprecated PBLOB.   *最も古い構造体をクラスにし、PBLOBを非推奨にした。
* Removed non-deterministic baseline fit.   *非決定的ベースラインフィットを削除しました。
* Added fixed length dawgs for Chinese.   *中国語用の固定長dawgsを追加しました。
* Handling of vertical text improved.   *縦書きの扱いを改善しました。
* Handling of leader dots improved.   *リーダードットの取り扱いが改善されました。
* Table detection greatly improved.   *テーブル検出が大幅に改善されました。
* Fixed a couple of memory leaks.   *いくつかのメモリリークを修正しました。
* Fixed font labels on output text. (Not perfect, but a lot better than before.)   *出力テキストのフォントラベルを修正しました。 (完璧ではありませんが、以前よりずっと良くなりました。)
* Cleanup and more bug fixes   *クリーンアップとその他のバグ修正
* Special treatments for Hindi.   *ヒンディー語のための特別な治療。
* Support for build in VS2010 with Microsoft Windows SDK for Windows 7 (thanks to Michael Lutz)   * Windows 7用Microsoft Windows SDKによるVS2010でのビルドのサポート(Michael Lutzに感謝)
# Tesseract release notes Sep 30 2010 - V3.00 #Tesseractリリースノート2010年9月30日 - V3.00
* Preparations for thread safety: *スレッドセーフのための準備
* Changed TessBaseAPI methods to be non-static * TessBaseAPIメソッドを非静的に変更
* Created a class hierarchy for the directories to hold instance data, and began moving code into the classes. *インスタンスデータを保持するディレクトリのクラス階層を作成し、コードをクラスに移動し始めました。
* Moved thresholding code to a separate class. *しきい値処理コードを別のクラスに移動しました。
* Added major new page layout analysis module. *主要な新しいページレイアウト解析モジュールを追加しました。
* Added hOCR output. * hOCR出力を追加しました。
* Added Leptonica as main image I/O and handling. Currently optional, but in future releases linking with Leptonica will be mandatory. *メイン画像のI / Oと処理としてLeptonicaを追加しました。現在はオプションですが、将来のリリースではLeptonicaとのリンクは必須になるでしょう。
* Ambiguity table rewritten to allow definite replacements in place of fix_quotes. *あいまいさの表はfix \ _quotesの代わりに確実に置き換えられるように書き直されました。
* Added TessdataManager to combine data files into a single file. *データファイルを単一のファイルに結合するためのTessdataManagerを追加しました。
* Some dead code deleted. *いくつかのデッドコードが削除されました。
* VC++6 no longer supported. It can't cope with the use of templates. * VC ++ 6はサポートされなくなりました。テンプレートの使用には対応できません。
* Many more languages added. *さらに多くの言語が追加されました。
* Doxygenation of most of the function header comments. *ほとんどの関数ヘッダーコメントのDoxygenation。
# Tesseract release notes June 30 2009 - V2.04 #Tesseractリリースノート2009年6月30日 - V2.04
* Integrated patches for portability and to remove some of the "access" macros. *移植性と「アクセス」マクロの一部を削除するための統合パッチ。
* Removed dependence on lua from the viewer making it a lot faster. Also the viewer now compiles and works (on Linux.) Also works on windows via a pre-built ScrollView.jar. *ビューアからluaへの依存を取り除き、ずっと速くなりました。また、ビューアはコンパイルされ動作するようになりました(Linux上)。また、事前に構築されたScrollView.jarを介してWindows上で動作します。
* Fixed the following issues: 1, 63, 67, 71, 76, 79, 81, 82, 84, 106, 108, 111, 112, 128, 129, 130, 133, 135, 142, 143, 145, 146, 147, 153, 154, 160, 165, 169, 170, 175, 177, 187, 192, 195, 199, 201, 205, 209. *以下の問題を修正しました:1、63、67、71、76、79、81、82、84、106、108、111、112、128、129、130、133、135、142、143、145、146、 147、153、154、160、165、169、170、175、177、187、192、195、199、201、205、209。
* This is the last version to support VC++6! *これはVC ++ 6をサポートする最後のバージョンです。
* This may also be the last version to compile without Leptonica! *これはLeptonicaなしでコンパイルする最後のバージョンかもしれません!
* Windows version now outputs to stderr by default, fixing a lot of the problems with lack of visible meaningful error messages. * Windows版はデフォルトで標準エラー出力に出力されるようになり、目に見える意味のあるエラーメッセージが表示されないという多くの問題を修正しました。
# Tesseract release notes April 22 2008 - V2.03 #Tesseractリリースノート2008年4月22日 - V2.03
2.02 was unrunnable, due to a last-minute "simple" change. 土壇場での "単純な"変更により、2.02は実行不可能となった。
2.03 fixes the problem. 2.03でこの問題は解決しました。
It also adds an include check for leptonica それはまたleptonicaのための包含チェックを追加します
to make it more usable. それをより使いやすくするために。
# Tesseract release notes April 21 2008 - V2.02 #Tesseractリリースノート2008年4月21日 - V2.02
* Improvements to clustering, training and classifier. *クラスタリング、トレーニング、分類器の改善。
* Major internationalization improvements for large-character-set languages, eg Kannada. カンナダ語など、大きな文字セットの言語の国際化が大幅に改善されました。
* Removed some compiler warnings. *いくつかのコンパイラ警告を削除しました。
* Added multipage tiff support for training and running. *トレーニングとランニングのためのマルチページTIFFサポートを追加しました。
* Updated graphics output to talk to new java-based viewer. *新しいJavaベースのビューアと対話するようにグラフィック出力を更新しました。
* Added ability to save n-best lists. * nベストリストを保存する機能を追加しました。
* Added Leptonica support for more file types. *より多くのファイルタイプのためのLeptonicaサポートを追加しました。
* Improved Init/End to make them safe. 安全にするためにInit / Endを改善しました。
* Reduced memory use of dictionaries. *辞書のメモリ使用量を減らしました。
* Added some new APIs to TessBaseAPI. * TessBaseAPIに新しいAPIをいくつか追加しました。
* Fixed namespace collisions with jpeg library (INT32). * jpegライブラリとの名前空間の衝突を修正しました(INT32)。
* Portability fixes for Windows for new code. *新しいコードのためのWindows用の移植性修正。
* Updates to autoconf system for new code. *新しいコードのためのautoconfシステムへのアップデート。
# Tesseract release notes Aug 30, 2007 - V2.01 #Tesseractリリースノート2007年8月30日 - V2.01
(See also release notes for 2.00 below for usage information) (使用方法については、下記の2.00のリリースノートも参照してください)
No major functionality change. Just a bunch of bug fixes. 大きな機能変更はありません。たくさんのバグ修正。
* Fixed UTF8 input problems with box file reader. *ボックスファイルリーダーに関するUTF8入力の問題を修正しました。
* Fixed various infinite loops and crashes in dawg code. *さまざまな無限ループを修正し、dawgコードでクラッシュしました。
* Removed include of config_auto.h from host.h. * host.hからconfig \ _auto.hのインクルードを削除。
* Added automatic wctype encoding to unicharset_extractor. * unicharset \ _extractorに自動wctypeエンコーディングを追加しました。
* Fixed dawg table too full error. * dawg table too fullエラーを修正しました。
* Removed svn files from tarball. * tarballからsvnファイルを削除しました。
* Added new functions to tessdll. * tessdllに新しい機能を追加しました。
* Increased maximum utf8 string in a classification result to 8. *分類結果の最大UTF-8文字列を8に増やしました。
* Added new functionality to TessBaseAPI for Ocropus. * TessBaseAPI for Ocropusに新しい機能を追加しました。
No new data files for the original 6 languages. Use the files from v2.00. 元の6言語用の新しいデータファイルはありません。 v2.00からファイルを使用してください。
There are new data files for German Fraktur (deu-f) and Brazillian Portuguese (por). German Fraktur(deu-f)およびBrazillian Portuguese(por)の新しいデータファイルがあります。
STOP PRESS There is a minor bug in unicharset_extractor. Since this is only applicable to training, the main tarball is fine unless you need to run training, in which case, overwrite your unicharset_extractor.cpp and unicharset_extractor.exe with the ones in tesseract-2.01.patch1.tar.gz. STOPプレス unicharset \ _extractorにマイナーなバグがあります。これはトレーニングにしか適用できないため、トレーニングを実行する必要がない限りメインのtarballは問題ありません。その場合は、unicharset \ _extractor.cppとunicharset \ _extractor.exeをtesseract-2.01.patch1.tar.gzのファイルで上書きします。 。
# Tesseract release notes Jul 18, 2007 - V2.00 #Tesseractリリースノート2007年7月18日 - V2.00
(See also release notes for 1.04 below for additional usage information) (追加の使用法については、下記の1.04のリリースノートも参照してください)
First release of the International version. 国際版の最初のリリース。
This version recognizes the following languages: このバージョンは以下の言語を認識します。
* English - eng *英語 - 英語
* French - fra *フランス語 - fra
* Italian - ita *イタリア語 - ita
* German - deu *ドイツ語 - deu
* Spanish - spa *スペイン語 - スパ
* Dutch - nld *オランダ語 - nld
The language codes follow ISO 639-2. The default language is English. 言語コードはISO 639-2に準拠しています。デフォルトの言語は英語です。
To recognize another language: 他の言語を認識するには:
` | `
tesseract inputimage outputbase -l langcode tesseract inputimage outputbase -l言語コード
` | `
To train on a new language, see TrainingTesseract2. 新しい言語を習得するには、TrainingTesseract2を参照してください。
More languages will be appearing over time. より多くの言語が徐々に登場するでしょう。
List of changes in this release: このリリースでの変更点の一覧:
* Converted internal character handling to UTF8.   *内部文​​字処理をUTF8に変換しました。
* Trained with 6 languages.   * 6つの言語で訓練されています。
* Added unicharset_extractor, wordlist2dawg.   * unicharset \ _extractor、wordlist2dawgを追加しました。
* Added boxfile creation mode.   *ボックスファイル作成モードを追加しました。
* Added UNLV regression test capability.   * UNLV回帰テスト機能を追加しました。
* Fixed problems with copyright and registered symbols.   *著作権と登録記号に関する問題を修正しました。
* Fixed extern "C" declarations problem.   * extern "C"宣言の問題を修正しました。
* Made some improvements to consistency of accuracy across platforms.   *プラットフォーム間での精度の一貫性が改善されました。
* Added VC++ express support.   * VC ++ Expressサポートを追加しました。
Warning: Tesseract 2.00 has undergone more compatibility testing than any previous version. There have even been fixes to make the accuracy more consistent across platforms. Having said that, there have been many changes to the code, and portability may have been broken, so 64 bit and Mac platforms may not work or even build as well as before. 警告: Tesseract 2.00は以前のどのバージョンよりも多くの互換性テストを受けています。プラットフォーム間で精度の一貫性を高めるための修正も行われています。そうは言っても、コードには多くの変更があり、移植性が壊れている可能性があるため、64ビットおよびMacプラットフォームは以前と同じように機能しないか、ビルドさえできない可能性があります。
# Tesseract release notes May 15, 2007 - V1.04 #Tesseractリリースノート2007年5月15日 - V1.04
Tesseract development is now done with Subversion and hosted at code.google.com (Previously we used CVS as a VCS and sourceforge.net for hosting). Tesseractの開発はSubversionで行われ、code.google.comでホストされています(以前は、VCSとしてCVSを使用し、ホスティングにはsourceforge.netを使用していました)。
Windows users only Windowsユーザーのみ
Added a dll interface for windows. Thanks to Glen at Jetsoft for contributing Windows用のdllインターフェースを追加しました。貢献してくれたJetsoftのGlenに感謝
this. To use the dll, include tessdll.h, import tessdll.lib and put tessdll.dll この。 dllを使用するには、tessdll.hをインクルードし、tessdll.libをインポートし、tessdll.dllを入れます。
somewhere where the system can find it. There is also a small dlltest program システムが見つけられる場所。小さなdlltestプログラムもあります
to test the dll. Run with: DLLをテストする。で実行します。
` | `
dlltest phototest.tif phototest.txt dlltest phototest.tif phototest.txt
` | `
It will output the text from phototest.tif with bounding box information. それは、バウンディングボックス情報とともに、phototest.tifからのテキストを出力します。
New for Windows Windows用の新項目
The distribution now includes tesseract.exe and tessdll.dll 配布にはtesseract.exeとtessdll.dllが含まれています
which might work out of the box! There are no guarantees as you need これは、箱から出してすぐに使える可能性があります。あなたが必要とする保証はありません
VC++6 versions of MFC and CRT (at least) for it to work. (Batteries not それが動作するためのMFCとCRTのVC ++ 6バージョン(少なくとも)。 (電池はありません
included, and certainly no installshield.) 含まれていて、そして確かにインストールシールドはありません。)
**Important note for anyone building with make: i.e. anyone except devstudio **makeでビルドしている人のための重要な注意事項:すなわちdevstudio以外の人
users** ユーザー**
This release includes new standardization for the data directory. To enable このリリースには、データディレクトリの新しい標準化が含まれています。有効にする
Tesseract to find its data files, you must either: データファイルを検索するには、次のいずれかを実行する必要があります。
` | `
./configure ./configure
make 作る
make install インストールする
` | `
to move the data files to the standard place, or: データファイルを標準の場所に移動する。
` | `
export TESSDATA_PREFIX="directory in which your tessdata resides/" export TESSDATA_PREFIX = "あなたのtessdataが存在するディレクトリ/"
` | `
(or equivalent) in your .profile or whatever or setenv to set the environment あなたの.profile、または環境を設定するためのなんでもまたはsetenv
variable. Note that the directory must end in a / 変数。ディレクトリは/で終わる必要があることに注意してください。
HAVING tesseract and tessdata IN THE SAME DIRECTORY DOES NOT WORK ANY MORE. 同じディレクトリにtesseractとtessdataがあると、それ以上動作しません。
All users 全てのユーザー
Fixed a bunch of name collisions - mostly with STL. 主にSTLとの名前の衝突の束を修正しました。
Made some preliminary changes for unicode compatibility. Includes a new data Unicodeの互換性のためにいくつかの予備的な変更を加えました。新しいデータを含みます
file (unicharset) and renaming of the other data files to eng. to support file(unicharset)と他のデータファイルの名前をengに変更します。サポートする
different languages. 異なる言語
There are also several other minor bug fixes and portability improvements 他にもいくつかのマイナーなバグ修正と移植性の改善があります
for 64 bit, the latest visual studio compiler etc. 64ビット用、最新のビジュアルスタジオコンパイラなど
Thanks to all who have contributed these fixes. これらの修正を提供してくれたすべての人に感謝します
NOTE: This is likely to be the last English-only release! 注:これは英語のみの最後のリリースになるでしょう。
Apologies in advance to non-windows users for bloating the distribution with Windows以外のユーザーに配布を膨張させてしまったことに対する謝罪
windows executables. This will probably get fixed in the next release with Windowsの実行可能ファイルこれはおそらく次のリリースで修正されるでしょう。
the multi-language capability, since that will also bloat the distribution. 多言語機能は、それがディストリビューションを肥大化させるので。
# Tesseract release notes February 03, 2007 - V1.03 #Tesseractリリースノート2007年2月3日 - V1.03
* Added mftraining and cntraining.   * mftrainingとcntrainingを追加しました。
* Added baseapi with adaptive thresholding for grey and color.   *グレーと色のための適応的なしきい値処理でbaseapiを追加しました。
* Fixed many memory leaks.   *多くのメモリリークを修正しました。
* Fixed several bugs including lack of use of adaptive classifier.   *適応分類器の使用の欠如を含むいくつかのバグを修正しました。
* Added ifdefs to eliminate graphics code and add embedded platform support.   *グラフィックコードを削除し、組み込みプラットフォームのサポートを追加するためにifdefを追加しました。
* Incorporated several patches, including 64-bit builds, Mac builds.   * 64ビットビルド、Macビルドを含むいくつかのパッチを組み込みました。
* Minor accuracy improvements.   *精度が少し向上しました。
# Tesseract release notes October 04, 2006 - V1.02 #Tesseractリリースノート2006年10月4日 - V1.02
* Removed dependency on Aspirin.   *アスピリンへの依存を取り除きました。
* Fixed a few missing Apache license headers.   * Apacheライセンスヘッダがいくつか欠けていたのを修正。
* Removed $log.   * $ logを削除しました。
# Tesseract release notes September 07, 2006 - V1.01 #Tesseractリリースノート2006年9月7日 - V1.01
* Added mfcpch.cpp and getopt.cpp for VC++.   * VC ++用にmfcpch.cppとgetopt.cppを追加しました。
* Fixed problem with greyscale images and no libtiff.   *グレースケール画像とlibtiffがない問題を修正しました。
* Stopped debug window from being used for the usage output.   *使用法の出力にデバッグウィンドウが使用されないようにしました。
* Fixed load of inttemp for big-endian architectures.   *ビッグエンディアンアーキテクチャ用のinttempの負荷を修正しました。
* Fixed some Mac compilation issues.   * Macのコンパイルに関する問題を修正しました。
# Tesseract release notes June 17, 2006 - V1.00 #Tesseractリリースノート2006年6月17日 - V1.00
First open source version of Tesseract! Tesseractの最初のオープンソースバージョン!
Hosted at sourceforge.net. sourceforge.netでホストされています。
CVS is used for version control. CVSはバージョン管理に使用されます。
最終更新:2019年08月18日 20:38