Comment convertir les pages d'un document pdf en images avec python ?

Comment convertir les pages d'un document pdf en images avec python ?

Daidalos 01 octobre 2019


Exemples de comment convertir les pages d'un document pdf en images avec python

1. Avec le module python pdf2image

Pour installer le module voir pdf2image. Note: le module requière aussi le module poppler. Exemple d'installation avec conda:

conda install -c conda-forge poppler
pip install pdf2image

On peut alors utiliser le module pdf2image comme ceci:

>>> from pdf2image import convert_from_path

>>> pages = convert_from_path('document.pdf', dpi=200)

1.1 Convertir toutes les pages du document pdf en images:

Pour convertir toutes les pages du document pdf en image on peut utiliser une boucle

>>> for idx,page in enumerate(pages):
...     page.save('page'+str(idx)+'.jpg', 'JPEG')

1.2 Convertir une page donnée du document pdf en image:

Pour convertir une une page donnée

>>> page = pages[0]
>>> page.save('image.jpg', 'JPEG')

2. Avec imagemagick

Autre solution avec imagemagick](http://www.imagemagick.org/script/index.php). Pour créer un aperçu de la première page d'un document pdf il suffit alors de taper la commande :

convert MonDocument.pdf[0] image.jpg

[0] correspond ici à l'indice de la première page du document MonDocument.pdf. Pour transformer la page 4 en image il suffit de taper MonDocument.pdf[3]. Il est possible aussi de modifier la qualité de l'image et la taille:

convert -density 144 image.pdf[0] -resize 50% image.jpg

Note: pour transformer un pdf en images il existe aussi des convertisseurs disponible en ligne gratuitement comme: freepdfconvert.

Références

Liens Site
Extract a page from a pdf as a jpeg stackoverflow
pdf2image github
imagemagick imagemagick
converting 1 page of a pdf to jpg imagemagick
Converting a PDF to a series of images with Python stackoverflow
Image preview with Reportlab? stackoverflow
How to Convert PDF to Image Files wikihow

Comments


Bonjour,

Pour utiliser pdf2image, je n'arrive pas à installer le module poppler. est-il possible d'avoir la démarche à suivre svp?
Merci

CedricO July 2, 2020, 2:42 p.m.
you need to be logged in to post a comment
you need to be logged in to post a comment

Bonjour Cedric,

J'utilise la distribution python anaconda disponible gratuitement ici. Ensuite on peut installer les modules pdf2image et poppler pour pouvoir travailler avec des documents PDFs, en utilisant les commandes :

conda install -c conda-forge pdf2image

et

conda install -c conda-forge poppler

Ensuite il suffit de lancer python et de faire par exemple:

>>> from pdf2image import convert_from_path
>>> pages = convert_from_path('document.pdf', dpi=200)
>>> page = pages[0]
>>> page.save('image.jpg', 'JPEG')

pour transformer la première page du document pdf en image 'jpg'.

J'ai testé sur mon MAC aujourd'hui et cela marche parfaitement, je ne sais pas par contre sur WINDOWS, Ubuntu, etc

-Ben

Daidalos July 3, 2020, 2:26 a.m.
  
you need to be logged in to post a comment