Dans le cadre de mon deuxième boulot, qui consiste en la fabrication de livres au format ePub, j'ai un petit problème.
En effet, j'avais le projet de tout faire sous Linux, ce qui n'est pas évident.
En effet, au niveau de l'OCR (logiciel de reconnaissance de caractères), sous Linux et Manjaro en particulier, j'utilise Tesseract qui s'est pas mal amélioré.
J'utilise aussi Scantailor, excellent logiciel de découpe et de mise en forme d'images qui proviennent de scans.
Mais pour pouvoir utiliser ce dernier, je dois absolument faire la conversion des PDF au format images. C'est-à-dire découper chaque page d'un PDF et le convertir en images de préférence au format tiff ou png.
Si vous connaissiez des logiciels que vous avez employés sous Manjaro afin de faire ces découpes et conversions, voulez-vous bien m'aider en m'en signalant le(s) meilleur(s) que vous avez employé(s) ?
Merci beaucoup.
Système : Manjaro XFCE LTS CPU : 6 x Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz Carte graphique : NVIDIA Corporation GP107 [GeForce GTX 1050] (rev a1) Cartes son : Audio device: Intel Corporation Cannon Lake PCH cAVS (rev 10)
Audio device: NVIDIA Corporation GP107GL High Definition Audio Controller (rev a1)
aur/cups-ocr 0.1.2-4 (1) (0,00)
Print directly to a tiff file which feeds an OCR engine which will output
a text file. Modelled after cups-pdf.
On devrait pouvoir "imprimer dans un fichier", mais pas sur que ce soit pratique.
Sinon, perso j'utilise tout simplement xfce4-screenshooter en mode sélection de zone (3), et j'enregistre au format jpeg. Il suffit de sélectionner via un cadre ce que tu veux utiliser.
J'ai traduit un mode d'emploi d'un auto-cuiseur écrit en langage exotique comme ça.
Noyau récent MANJARO x86_64 bits: 64 Xfce 4.16
ASUSTeK model: PRIME B350M-A v: Rev X.0x
6-Core: AMD Ryzen 5 2600X
AMD Baffin [Radeon RX 460/560D / Pro
driver: amdgpu v: kernel
Display: x11 server: X.Org driver: amdgpu,ati unloaded: modesetting
OpenGL: renderer: Radeon RX 560 Series
Arch en Dual. Aucun lien publicitaire ne saurait être toléré dans la signature!
Je ne comprends pas trop pourquoi tu pars d'un format pdf alors que tu peux scanner directement au format tiff.
Inkscape permet d'éditer des documents pdf.
Je n'ai que l'expérience de création d'epub à partir de textes ou de modification d'epubs existants.
Les éditeurs d'ebooks comme Calibre ou Sigil acceptent le format html, si ton pdf était un document fini, une conversion pdf vers html suffirait.
Le jour où j'ai découvert le Libre, j'ai su que je ne reviendrai jamais en arrière.
Ryzen 7 5700G Vega8-KDE-ASUS ROG STRIX B550-F GAMING-16 Go G.Skill Trident Z RGB-Samsung SSD 970 Evo
Ryzen 7 2700X - Garuda KDE-ASUS ROG STRIX B450-F GAMING-32 Go G.Skill Trident Z RGB- Samsung SSD 970 EVO-Gigabyte RX 5500 XT Corsair RM650i/H100i Platinum piloté par LiquidCtl
Je ne comprends pas trop pourquoi tu pars d'un format pdf alors que tu peux scanner directement au format tiff.
Inkscape permet d'éditer des documents pdf.
Je n'ai que l'expérience de création d'epub à partir de textes ou de modification d'epubs existants.
Les éditeurs d'ebooks comme Calibre ou Sigil acceptent le format html, si ton pdf était un document fini, une conversion pdf vers html suffirait.
Car parfois, je ne suis pas obligé de scanner moi-même.
Soit ce sont des scans récupérés chez Gallica, soit ce sont d'autres membres de chez Ebooks libres et gratuits qui me fournissent les scans qui sont déjà en format pdf
Gimagereader a ,malheureusement, sur de gros projets, la fâcheuse habitude de planter (même avec 16 Go de Ram).
L'autre, je ne connais pas, c'est à tester
Système : Manjaro XFCE LTS CPU : 6 x Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz Carte graphique : NVIDIA Corporation GP107 [GeForce GTX 1050] (rev a1) Cartes son : Audio device: Intel Corporation Cannon Lake PCH cAVS (rev 10)
Audio device: NVIDIA Corporation GP107GL High Definition Audio Controller (rev a1)