(この方式では、CID変換が上手くいかないな・・・)
-
-
- -
-
いろいろ、参考資料はある。
qiita.com
PDFMinerとPDFMiner.sixの関係
self-development.info
PDFMinerは、現在は開発がストップしています。
ちなみに、開発者は日本人のようです。
pdfminer.sixは、PDFMinerからフォーク(派生)したモノです。
よって、現在pdfminerと言えばpdfminer.sixのことになります。
さて、まずは実験用の環境を構築しましょう。
C:\python>mkdir pdf C:\python>cd pdf C:\python\pdf>python -m venv env C:\python\pdf>env\Scripts\activate (env) C:\python\pdf> (env) C:\python\pdf>python -m pip install --upgrade pip (env) C:\python\pdf>mkdir src (env) C:\python\pdf>cd src (env) C:\python\pdf\src>python --version Python 3.7.7 (env) C:\python\pdf\src>pip install --upgrade pip Collecting pip
次に、gitからファイルをダウンロードします。
github.com
pdfminerというフォルダ名にして、
C:\python\pdf\env\Lib\site-packagesに格納する。
(env) C:\python\pdf\src>cd C:\python\pdf\env\Lib\site-packages\pdfminer
python pdfminer.six-master\tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 env\Lib\site-packages\pdfminer\cmap Adobe-Japan1 pdfminer.six-master\cmaprsrc\cid2code_Adobe_Japan1.txt
python pdfminer.six-master\tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt