サーバレス練習帳

着眼大局着手小局

PDFMinerを使いこなしてみる?

(この方式では、CID変換が上手くいかないな・・・)

      • -

いろいろ、参考資料はある。
qiita.com

PDFMinerとPDFMiner.sixの関係
self-development.info

PDFMinerは、現在は開発がストップしています。
ちなみに、開発者は日本人のようです。
pdfminer.sixは、PDFMinerからフォーク(派生)したモノです。
よって、現在pdfminerと言えばpdfminer.sixのことになります。


さて、まずは実験用の環境を構築しましょう。

C:\python>mkdir pdf
C:\python>cd pdf
C:\python\pdf>python -m venv env
C:\python\pdf>env\Scripts\activate
(env) C:\python\pdf>
(env) C:\python\pdf>python -m pip install --upgrade pip
(env) C:\python\pdf>mkdir src
(env) C:\python\pdf>cd src
(env) C:\python\pdf\src>python --version
Python 3.7.7
(env) C:\python\pdf\src>pip install --upgrade pip
Collecting pip

次に、gitからファイルをダウンロードします。
github.com

pdfminerというフォルダ名にして、
C:\python\pdf\env\Lib\site-packagesに格納する。

(env) C:\python\pdf\src>cd C:\python\pdf\env\Lib\site-packages\pdfminer

python pdfminer.six-master\tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 env\Lib\site-packages\pdfminer\cmap Adobe-Japan1 pdfminer.six-master\cmaprsrc\cid2code_Adobe_Japan1.txt


python pdfminer.six-master\tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt

python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt

python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt