PythonのpdfminerでPDFからテキスト情報抽出が簡単だった

2019年1月10日 2019年11月13日

siny

目次

1 pdfminerとは？
2 PDF→Excel変換のフロー
3 まとめ

こんにちは。sinyです。

「テキスト形式で保存されたPDFから文字情報を自動で抽出したい！」ということで、色々調べた結果、pdfminerというPythonライブラリーが使えそうだったので実際に試してみました。

　2019/11/8更新　pdfminerを使ったより実務的なDjangoアプリ開発の教材をTechpitよりリリースしました。

気になった方はぜひチェックいただけたら幸いです。

教材の紹介動画です。

pdfminerとは？

pdfminerとはPDFデータ解析をするためのPytnonのライブラリーでだれでも無料で利用できます。
色々調べたところ、Pyhonのバージョンによって以下のようにモジュール名称が微妙に違うようです。

pdfminerの種類

pdfminer　　　／　python2.xx系
pdfminer3k　　／　python3.xx系
pdfminer.six 　／　python2/3系共通

現状だと、Python３がメジャーなので「pdfminer3k or pdfminer.six」のどちらかでしょうかね。
ただ、現在でもアップデートされているのが「pdfminer.six」のようなので今回はpdfminer.sixを使ってみました。

pdfminer.sixのGITサイト

https://github.com/pdfminer/pdfminer.six

機械学習で画像分類をしてみよう【python】

おすすめの記事機械学習で画像分類をしてみよう【python】

こんにちは。sinyです。昨今、ディープラーニングが流行っていますが、今回はAverage Hashという基礎的な理論を使った類似画像検索プログラムをPythonで書いて検証してみました。プログラム自体は至って簡単ですので、興味のある方はぜひ試してみてください。 Average Hashとは？...

PDF→Excel変換のフロー

まず、今回お試しで開発したPDF→Excel変換アプリの全体フローです。

非常にシンプルですが、以下のような流れでPDFをExcel化します。

全体フロー

①WordやExcel等からPDFとして保存された請求書データを取り込む。
②pythonのpdfminer.sixを使ってPDFデータからテキスト情報を抽出
③pythonのopenpyxlを使って抽出したテキストデータをExcelへ書き込む。

Djangoを使って実際に上記処理フローをWEBアプリ化してみましたが、割と簡単にできました。
実際に作ったアプリのデモ動画はこちら。

変換前の請求書PDFデータはこんな感じ。（架空の請求書です）

そして、Excel変換した後のデータがこんな感じ。
※請求No,会社名、請求金額、名称、口座情報がばっちり抽出できました。

まとめ

まとめ

pdfminerを使えばテキストベースのPDFデータは簡単にExcelデータ化できることが分かった。
WordやExcel等を元にPDF変換して作成したPDFデータであれば、精度よくPDF→Excel変換を自動化できる。
　→業務要件次第で有効活用できるケースはありそう。
今回作ったアプリはあくまでテキストベースのPDFデータしか対応していないので実用性があるかは微妙。
　→請求書データは大抵スキャンデータとしてPDF化されているケースが多いとおもう。
スキャンデータ（画像）からテキスト情報を抽出してExcelデータ化する（いわゆるOCR機能）ほうが実用的と思われるのでこちらの実現方法についても今後探っていこうと思う。

この記事が良かったと思う方はTwitterフォロー(shiny)とリツイート頂けると嬉しいです 😛

【Django】PDFからEXCELへ文字起しする業務改善アプリを作ってみよう！

【Django】PDFからEXCELへ文字起しする業務改善アプリを作ってみよう！

https://www.techpit.jp/p/django-pdf-excel

Djangoで複数のPDF請求書ファイルから取得したい情報だけを自動でExcelファイルに変換できるWEBアプリを開発します。

Django入門おすすめノート

note（ノート）

Django WEBアプリ開発コース｜siny｜note

https://note.mu/shinya_hd/m/m7c72d8925919

以下のコースをまとめた割引プランです。・Djangoで毎月の出費を分析できる家計簿アプリをつくろう！【基礎編】￥980・Djangoで毎月の出費を分析できる家計簿アプリをつくろう！【応用編】￥500￥1,500相当のチュートリアルを、セット割で￥1,000で販売します。Djangoの環境構築からCRUD WEBアプリ開発+α Djangoの応用事例を学習したい人にお勧めです。ボリュームは約13万字ありますので、200～300ページ程度の技術書と同等のボリュームがあると思います。初心者用に図解を多く（約90枚）取り入れて、説明も多く掲載しています。

Post Views: 265

この記事を書いた人

本職ではITエンジニアを１５年ほど。ここ数年は生成AIにはまり、社内でもAI推進担当として活躍中。

最近書いた記事

Claude Opus 5 に効くプロンプト徹底解説｜「検証して」は削る・公式スニペット全文つき

Claude Opus 5 に効くプロンプト徹底解説｜「検証して」は削る・公式スニペット全文つき

Claude Opus 5 徹底解説｜Fable 5級の性能を半額で・ベンチ/料金/API変更を事実ベースで全整理

Claude Opus 5 徹底解説｜Fable 5級の性能を半額で・ベンチ/料金/API変更を事実ベースで全整理

Claude Fable 5 を使う条件まとめ｜プラン別（Free/Pro/Max/Team/Enterprise）を一枚で

Claude Fable 5 を使う条件まとめ｜プラン別（Free/Pro/Max/Team/Enterprise）を一枚で

Claude ボイスモードが Opus/Sonnet 対応に｜接続ツール・日本語まで全部わかる最新アップデート解説

Claude ボイスモードが Opus/Sonnet 対応に｜接続ツール・日本語まで全部わかる最新アップデート解説

おすすめの記事