InftyReader

■InftyReaderとは

主な特徴

・数式を含む文書用の認識ソフト
・数式を含む文書のPDFスキャン画像を OCR を用いてLaTeXWord文書MathMLEPUB3Accessible PDF (PDF with TeX) など多様なデータ形式に変換できます。
クリップボードにコピーした画像を認識して直接Wordの文書に貼り付け可能
・1行中に英文と日本語が混在している文章の認識にも有効!
・業務用・開発用に用いることが出来るエンタープライズ版もあります

InftyReader は数式、文字、画像が混在する文書をスキャンした画像を認識します。
テキスト領域の文字認識には株式会社東芝製の認識エンジンと株式会社メディアドライブ製の認識エンジンを併用し、高精度の認識を実現しています。数式部の認識は InftyProject で開発した認識エンジンを用いています。

数式を含むPDF文書をアクセシブルな形式に変換する目的にも使うことが出来ます。

InftyReader で認識した結果は直接 LaTeX 形式やXHTML(数式部はMathML)形式で出力することも出来ますし、数学用文書エディタ InftyEditor で原画像と照合しながら修正・編集した後に LaTeX, XHTML(MathML), PDF, Word 文書などの形式に変換することもできます。
認識結果を数学用文書エディタ InftyEditor で開くと、編集中の文字や数式と対応する位置の原画像がカーソル移動に合わせて連動して表示されます。 InftyEditor については こちら をご覧下さい。

■ダウンロード

InftyReader Ver.3.3.1.1 (2022年8月14日))

InftyReader 日本語版 InftyReaderJ3311.zip (約205MB) ---- 2022/8/14 new

AboutInftyReaderJ.txt ---- InftyReaderに関する概要説明ファイル

センタリングの出力のON/OFF、ページヘッダ出力のON/OFF等は必要に応じてユーザー設定で指定して下さい(パッケージ内のReadme.txtを参照)。

InftyReader には英語版もあります(→こちら)。
Enterprise版は→こちら

ライセンスのアップデート: InftyReader Ver. 3.1, Ver. 3.2 シリーズをご利用の方は Ver.3.3 シリーズを無償でご利用頂けます(InftyReader Ver.3.1, Ver.3.2 のライセンスキーはそのまま Ver.3.3 でも有効です)。

■出力形式

認識結果は以下の7種類の形式で出力することが出来ます。

  1. IML: 数学用の文書編集ソフト"InftyEditor"や"ChattyInfty"で編集できるファイル形式。
  2. LaTeX: 理工系の論文や書籍を書くために専門家の間で広く使われている、数学文書記述言語(テキストファイル)。
  3. XHTML: 数学も記述できるWEBドキュメント。数式はMathMLで記述されます。
  4. HR-TeX: 視覚障害者のために 数式を読みやすく単純化したLaTeX形式で記述したテキストファイル。
  5. Word XML: マイクロソフト社のワードで直接開いて編集できるXMLファイル。数式はワードの数式オブジェクトとして読み込まれます。
  6. EPUB3: アクセシブルなデジタル図書の国際規格。数式はMathMLで記述されます。
  7. AccessiblePDF (PDF with TeX) : フロント画面は元の画像(或いはPDF)と同じ表示で、背景にテキストや数式が埋め込まれた、アクセシブルなPDFです。通常のPDFはテキストが読み順と異なる順序に埋め込まれていて視覚障害者にとってはアクセシブルでないことがよく知られています。数式も見た目にはきれいに表示されますが、スクリーンリーダーなのでは読めないデータで格納されているため、理系文書のPDFはアクセシブルではありません。InftyReaderで認識処理をして、PDF with TeX 形式で出力すると、テキストの順序も読み順に並べ替えられ、数式はHR-TeX(上述)で書き込まれるため、視覚障害者も読むことが出来るPDFになります。 その際、PCにGhostscriptがインストールされていれば、フロント画面はGhostscriptで 生成された高品質なベクター画像になります。Ghostscriptは下記のサイトからダウン ロードしてインストールして下さい。
    https://www.ghostscript.com/

試用について

InftyReader を試用モード(Trial Mode)で起動するためには、起動画面で「試用またはキャンセル」ボタンを押して下さい。InftyReader が Trial Mode で起動します。
Trial Mode では認識できるパージ数は1回に1頁、最大10回までに制限されますので、ご注意下さい。

■動作環境

InftyReader は Windows10, 11(Pro/ Home, 32bit/64bit)上でご利用いただけます。

■価格とライセンスの購入方法

いずれも1ライセンスで、1台のパソコンにのみインストール出来ます。

使用期限以外の機能は1年版も正規版と同じです。

上記のライセンスは個人使用の場合に適用されます。(但し、少人数の共用パソコンでの運用も可能な場合があります。詳しくは下記のライセンスの項をお読み下さい。)

ユーザーはTrial Mode で本ソフトウェアを利用し、動作を十分確認した上で本ソフトウェアの購入手続きを行ってください。如何なる理由があっても、一旦受け取ったライセンスキーの返品は受け付けられませんのでご注意下さい。

生徒への無償提供

【!】InftyReaderは小学校・中学校・高等学校の児童生徒のパソコンにインストールする場合は、無償で利用することができます。詳しくはこちらの利用申し込み書(PDF, Word)をご覧下さい。(保護者と共用する家庭のパソコンの場合も適用されます。学校や施設の場合、児童・生徒専用のパソコンの場合にのみ適用されます。職員との共用のパソコンの場合は適用されません。)

エンタープライズ版について

業務用のパッケージや開発者用のSDKについてはライセンス形態が異なります。詳しくはこちらをご覧下さい。

■注意事項

InftyReader は鮮明に印刷されたページ画像の白黒2値による600DPI(又はカラー或いはGrayの400DPI)によるスキャン画像を認識対象とします。(*)

スキャニングした画像は TIFF か GIF または PNG の形式で保存する必要があります。また、PDF ファイルを読み取り、InftyEditor のデータ形式や LaTeX や MathMLなど、編集可能な形式に変換することも出来ます。

InftyReader は前処理で或る程度のノイズ除去を実行し、ページ画像を図領域、表領域、テキスト領域(数式を含む)に自動的に分割します。 その上でテキスト領域を認識し、数式は構造解析を行います。そして、表の中はセル毎に認識します。
但し,ノイズが多い場合や,図と文字領域が近い場合などには領域切り分けに失敗する場合もあります.そういう場合は事前に手作業等で画像を補整してから認識にかけるようにしてください.

InftyEditor のバージョンが 2.5.0 以後のものであれば、認識した表の編集も出来ます。

(*) 注意 認識対象とするスキャン画像の品質の目安として、スキャンした画像中の接触文字や切れ文字などの数が、1頁中の総 文字数の1%以内になるようにスキャナの2値化レベルを調節して下さい。 印刷と紙の質に問題がなければ、通常はこの水準のスキャン画像が得られると思います。(勿論、それでも誤認識は発生します。)

■使い方の例

  1. InftyReader を起動した画面で、画像ファイル又はフォルダを選びます。
  2.出力ファイルのタイプ (IML, LaTeX, XHTML など)を選択し、入力画像の言語等などの設定を選んでチェックをいれます。
  3. 出力ファイル名を入力します。
  4. 認識開始ボタンを押します。

すると、ファイルを選んだ場合はそのファイルの認識結果が、フォルダを選んだ 場合はそのフォルダ内の全ての画像ファイルの認識結果が指定した出力ファイル名 のファイルにまとめて書き込まれます。
フォルダを選んだ場合で、「オプション」で「選択したフォルダ以下のサブフォルダ も認識対象にする」にチェックを入れた場合、各サブフォルダ内の画像の認識結果が サブフォルダ名に tex, iml, xhtml の拡張子を付けたファイルに出力されます。
例えば、下記のようなフォルダ構造をもつフォルダ "folodertop" を入力画像フォルダ名として選んだ場合、

foldertop
    |-- subfolder1
    |       |-- a.tif
    |       |-- b.tif
    |
    |-- subfolder2
            |-- c.tif
            |-- d.tif

出力ファイルのタイプが "IML" であれば "subfolder1.iml" と "subfolder2.iml" が "foldertop" フォルダ内にできます。そして、画像ファイル a.tif と b.tif の認識結果が subfolder1.iml に、c.tif と d.tif の認識結果がsubfolder2.iml に書き込まれます。

■ライセンス

このライセンスは個人の利用目的のために使用する場合を対象とします。所属機関等によって特定個人の利用の為に購入された場合もそれに含めます。また、少人数のグループで共同利用する場合や、小さな福祉団体等が少人数の 利用者のためにサービスする場合などは、原則として個人利用と同等と見なします。 個人利用を原則とするため、初期設定では、1つのライセンスで1ヶ月間に 認識処理できる頁数は最大10000頁に制限されています。
会社・団体等の組織が多数の利用者のためにサービスする場合や、業務上大量のデータを電子化する場合は、Enterprise版をご利用下さい。詳しくは、下記の連絡先(特定非営利活動法人サイエンス・アクセシビリティ・ネット)にご相談下さい。

本ソフトウェアのリバースエンジニアリングや、 本ソフトウェアに含まれている、株式会社東芝製のライブラリーや、株式会社 メディアドライブ製のライブラリーを本ソフトウェアと切り離して利用したり、 本ソフトウエアまたはその生成物を上記著作権者の許可なく複製して販売すること を禁止します。また、上記著作権者の許可なく本ソフトウエアーを改変して 配布することを禁じます。

無償での複製の配布は圧縮された元のパッケージの形で行う場合に限り許可します。

InftyReaderの著作権はInftyProjectとScience Accessibility Netが保持しています。

株式会社東芝、株式会社メディアドライブ及び上記著作権者は、本ソフトウエア の誤りの修正、その他いかなる保守についても義務を負わず、また、本ソフト ウエアの使用、複製ならびに頒布により生じた損害または第三者からの請求に ついては、法律上の根拠を問わず一切責任を負いません。

■問い合わせ先:

・本プログラムの技術的な内容に関するお問い合わせは下記までお願いします。
  e-mail:support"at"sciaccess.net ("at"を@で置き換えて下さい。)

・その他の内容に関するお問い合わせは下記までお願いします。
  e-mail:office"at"sciaccess.net ("at"を@で置き換えて下さい。)

特定非営利活動法人
サイエンス・アクセシビリティ・ネット(登録略称:サクセスネット)
URL: http://www.sciaccess.net/
-----------------------------------------------------------------------

サクセスネット(NPO法人サイエンス・アクセシビリティ・ネット)のサイトへ