画像から文字を抜き出す方法(OCR)|紙・スクショ・PDF対応
【ご注意】 本記事は2026年5月時点の一般的な情報をまとめたものです。OCRの認識結果は元画像の画質や書体に大きく左右され、すべての書類で同じ精度が得られるわけではありません。重要な書類は原本を必ず保管し、抽出したテキストは元画像と照合してから利用してください。
① OCRとは何か|画像から文字を取り出す技術
OCR(Optical Character Recognition/光学文字認識)は、画像の中に写っている文字を読み取り、編集・検索・コピー可能なテキストデータに変換する技術です。スキャナーで取り込んだPDF、スマートフォンで撮影した書類の写真、Webサイトのスクリーンショット、紙のメモなど、文字が画像として存在しているものを、もう一度「テキスト」として扱えるようにします。
OCRが活躍する典型的なシーンは次のようなものです。
- 名刺をデータ化して連絡先リストに取り込む
- 紙の領収書から金額・店名を抜き出して経費精算する
- FAX・郵送書類をスキャンして検索可能なPDFにする
- 本のページや手書きメモを撮影してテキスト化する
- スクリーンショットに含まれる文章を引用・翻訳に使う
「紙の情報をもう一度キーボードで打ち直す手間」を省く手段、と捉えると分かりやすいでしょう。
② OCRの認識精度を左右する要素
OCRは万能ではなく、元画像の条件によって精度が大きく変わります。重要書類で使うときほど、次の点を意識すると失敗が減ります。
画質と解像度
画像が粗い、ピントがぼけている、暗い・影が落ちている、文字が小さすぎる ── これらはOCRが苦手とする条件です。スキャナーで取り込むなら300dpi程度を目安に、スマートフォンで撮影するなら明るい場所で書類を平らに置き、影が入らない角度から撮るだけで精度が大きく改善します。
書体・言語
印刷された明朝体・ゴシック体の日本語・英数字は、現在のOCRエンジンなら実用的な精度で読めます。一方、手書き文字・崩した書体・装飾フォント・極端に細い書体は誤認識が増えます。複数言語が混在する書類では、言語設定を明示できるツールの方が安定します。
レイアウトと表構造
段組み・縦書き・表組み・図と文字が混在するレイアウトは、文字を抽出できても「読み取り順」や「セル構造」が崩れがちです。表をExcelで再利用したい場合は、表専用の変換ツール(後述のPDF→Excel変換など)の方が結果がきれいになることもあります。
撮影時の傾き・歪み
斜めから撮影した書類は、文字が台形に歪んで認識精度が落ちます。撮影時に書類を真上から平行に撮るか、撮影後に画像編集アプリで台形補正をかけてからOCRにかけると改善します。
③ OCRツールを選ぶときの注意点
OCRツールには無料・有料のさまざまな選択肢があります。費用以前に、扱う書類の機密度に応じてタイプを選ぶことが大切です。
機密情報を含む書類はアップロード型を避ける
多くのオンラインOCRサービスは、画像を事業者のサーバーへアップロードして処理します。契約書・見積書・個人情報を含む書類・社外秘の写真などをアップロード型に通すと、ファイルが一時的に外部保存されるため、情報漏洩のリスクが残ります。無料サービスの中には、アップロードファイルの保存期間や扱いが明確でないものもあります。
「ブラウザ完結型」OCRを選ぶ
機密書類でも安心して使いたい場合は、ファイルをサーバーに送らず、ブラウザ上だけで処理が完結するタイプのOCRを選びましょう。この方式なら画像が手元の端末から外に出ないため、契約書や顧客リストなどでも比較的安全に利用できます。ツールを使う前に、「ファイルはアップロードされません」「ブラウザ内で処理します」といった記載があるかを確認するのがおすすめです。
抽出結果は必ず校正する
OCRの結果には誤認識が含まれる可能性があります。金額・名前・住所・契約書の数字など、間違いが許されない項目は、必ず元画像と照合してから利用してください。OCRはあくまで「再入力の手間を減らす道具」であり、自動で完璧な書類を作る仕組みではありません。
④ 当サイトのツールでOCRする手順
Toolbox Portalの「OCRツール(OCR Extractor)」は、画像を外部サーバーに送らず、ブラウザ上だけで日本語を含むテキストを抽出します。名刺や領収書、紙の書類のスキャンなど、機密性のある書類でも比較的安心して使えます。
- ツールのページを開き、OCRしたい画像またはPDFを選択(ドラッグ&ドロップ対応)
- 処理はブラウザ内で実行されます。ファイルが外部に送信されることはありません
- 抽出されたテキストが表示されたら、必要な箇所をコピーまたはダウンロード
- 抽出結果と元画像を照合し、誤認識があれば修正
- 金額・名前・住所など重要項目は必ず原本と再確認
受け取った領収書を整理して経費入力するとき、印刷物から本文を引用したいとき、複合機でスキャンしたPDFを検索可能にしたいときなど、紙からテキストへの変換が必要なあらゆる場面で利用できます。
関連する作業として、PDFの表をExcel・Wordで再利用したい場合はPDFをExcel・Wordに変換する方法のほうが結果がきれいになることがあります。スキャンPDFが重い場合はPDF圧縮ガイドと組み合わせると、メール添付や保存にも適したサイズになります。
よくある質問(FAQ)
Q. OCRとは何ですか?
OCR(Optical Character Recognition/光学文字認識)は、画像の中に写っている文字を読み取り、編集可能なテキストデータに変換する技術です。紙の書類をスキャンしたPDF、スクリーンショット、写真などから文字部分を抽出し、コピー・検索・編集できる状態に変えられます。
Q. OCRの認識精度はどのくらいですか?
元画像の画質・文字の大きさ・書体・言語によって変わります。印刷された日本語の活字なら近年は実用レベルの精度ですが、手書き文字・崩れた書体・薄い印字・斜めに撮影した写真では精度が落ちます。重要書類では必ず元画像と照合して校正することが前提です。
Q. 機密情報を含む書類をOCRにかけても大丈夫ですか?
ツールの仕組みによります。ファイルを事業者のサーバーへ送信して処理するタイプは、契約書・見積書・個人情報を含む書類では情報漏洩のリスクをともないます。ブラウザ内だけで処理が完結するタイプのツールを選ぶと、ファイルが外部に出ないため機密書類でも比較的安心して利用できます。
Q. 表や手書き文字もOCRで読めますか?
表については、文字部分は抽出できますが「セルの構造」は崩れることが多いです。Excel・Wordで再利用したい場合は、表構造の保持に特化した変換ツールの利用も検討してください。手書き文字は精度がさらに不安定で、文字の特徴によっては読み取れないこともあります。重要なものは原本を残し、参考データとして使うのが安全です。
