画像になっている表組みを、表組みのままテキスト抽出する方法(WordのOCR機能)

最近のOCR機能(テキストを読み取ってデジタルデータに変換する)は精度もよくなり、なにより手軽に取り込めるものも増えてきました。MicrosoftのWordや、Google ドキュメントにもこの機能が搭載されています。

単なる文章のスキャンであれば簡単なのですが、今回は印刷された表組み(テキストを選択できないもの)のデータ化をご紹介します。

目次

今回使う原稿

元原稿は、A4サイズの印刷物です。まずはデジタルデータにするのに、PCやスマホに画像として取り込まなければいけません。最近では、Office LensEvernote Scannableと言ったスキャンアプリが人気です。傾きも自動で補正してくれますし、色味も整えてきれいなモノにしてくれます。しかしながら、文字をスキャンする際、ゆがみや汚れは誤認識の元になるため、今回はフラットヘッドスキャナで画像取り込みを行いました。原稿の大きさや状態がよければ、スマホで取り込んでも問題ないと思います。

スキャン後の画像形式は、pdfにする

スキャナで取り込む画像の形式は、pdfにします。取り込んだデータは、のちのちWordで開くのですが、その際ファイル形式がjpgやpngだとうまくいきません。pdfに変換するか、あらかじめpdf形式で保存を行います。

OneDriveに登録する

https://onedrive.live.com/about/ja-jp/

OneDriveは、Microsoftが提供しているクラウドストレージサービスです。無料版では5GBまで利用することができます。サービス内容は、Google Driveとほぼ同様のサービスです。OneDriveに登録すると、データの保存領域だけでなく、無料のOfficeも利用することができます。

※ちなみに、このリンクから登録をすると、紹介者特典でお互いに500MBの領域がプラスされます。ぜひご活用ください。
https://onedrive.live.com?invref=e442876877d2268c&invscr=90

OneDriveに登録すると、無料でOffice Onlineが利用できる

「Word」「Excel」「Outlook」「PowerPoint」「OneNote」といった、ビジネスに利用するソフトがなんと無料で利用することができます。製品版よりも一部機能が制限されているものの、個人ユースや、ちょっとした編集などでは、インストール型にも引けを取らないほどです。

「Word」「Excel」「PowerPoint」の御三家は、購入するとなるとそれなりに高価です。これだけでも利用価値は十分です。Microsoftアカウントはぜひ登録しましょう。

次は表組みをテキストデータに変換する方法です。

OneDriveにデータを入れる

あらかじめ準備したpdf形式の原稿を、OneDriveにコピーします。

単にファイルとして保存されますので、シングルクリックでファイルを選ぶとすぐに起動します。(Google Driveはシングルクリックで選択、ダブルクリックでオープンなので、挙動に違いがあります)

そうすると、webブラウザ上で単にpdfファイルをプレビューした状態になります。

画面左上の「開く」から「Word Online で開く」を選択します。

以下がWordで開いた状態です。この状態では、画面に見えるテキストがすでに選択できる状態となっており、ここからコピーすることも可能です。Wordに通すことにより、すでにOCRの機能が働いています。

画面上部にある「Word で編集」ボタンを押して、pdfファイルをWord形式変換することができます。

Word上で、画像が表組みデータに変換されました。表のデザインや内容によっては意図通りの表示とならないこともあるため、ここからは手動での調整や目視による変換ミスがないかどうかチェックをする必要があります。

以下が元のデータです。背景がついた「F」「C」などは、その形から普通のテキストとしては扱ってくれないようでした。また、丸付きの数字も別な文字に変換されたりもしていました。このあたりは、原稿によっては完璧な再現は難しいかもしれません。

おまけ Googleドキュメントに通すとどうなる?

同様のデータを、Google DriveのGoogleドキュメントを通した場合以下のような結果となりました。表の形を保持していないので、表組みのデータとして活用するには再構成の手間が増えてしまいます。

まとめ

元データの形式はpdfとし、OneDrive経由でWordに送ることでテキストデータとして認識させることができます。これ以外にも、Wordから直接開いたり、スマートフォンを活用してOCR機能を利用するなどいくつか手法があるかと思いますので、1つの方法としてご参考にしてください。

Google DriveのOCR機能もなかなか優秀ですので、内容がうまくマッチすればこちらを利用するのもアリです。

  • データ形式はpdfで
  • スキャン(または撮影)の段階で、原稿がきれいな状態であれば、読み取り精度も向上
  • 表組みのデータ化は、Office OnlineのWordを活用する
  • 最後は目視や照らし合わせで誤認識がないかチェックを行う

この記事が気に入ったら
いいね または フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

式会社マジカルリミックス 代表取締役CEO
専門学校デジタルアーツ仙台 非常勤講師、仙台商工会議所窓口専門家、エキスパート・バンク登録専門家、みやぎ産業産業振興機構 登録専門家

好きなものはMac、クレジットカード。研究対象は時短、効率化。

コメント

コメント一覧 (3件)

目次