Как конвертировать PDF в документ с помощью Python?

7 лучших библиотек Python для науки о данных и машинного обучения Программное обеспечение

Чтобы конвертировать PDF-файлы в формат Doc, вы можете использовать модуль Python, и он упростит вам преобразование PDF в doc. В этой статье мы рассмотрим преобразование PDF-документа в файл Doc с помощью Python. При этом мы используем модуль pdf2docx, поскольку он содержит встроенные функции, которые упрощают процесс преобразования и не требуют использования онлайн-конвертера.

Требуемые модули

Прежде чем углубляться в код, убедитесь, что вы установили эти необходимые модули в свою среду Python.

pip install pdf2docx

Преобразование PDF в документ с помощью Python

Модуль pdf2docx использует PyMuPDF для извлечения информации из PDF-файлов, включая текст, изображения и иллюстрации. Он может создавать новые макеты, регулируя поля, разделы и столбцы. Он предлагает такие функции, как ориентация текста, направление и атрибуты шрифта. Файлы документов, такие как Microsoft Word, PDF, RTF, ODT и TXT, необходимы для различных секторов, таких как академические круги, торговля, исследования и публикации. PDF-файлы являются гибкими, совместимыми с различными платформами и могут быть просмотрены в нескольких операционных системах.

Конвертируйте PDF в документ с помощью библиотеки pdf2docx.

Фрагмент кода преобразует файл PDF в файл DOCX с помощью библиотеки «pdf2docx», инициализируя процесс преобразования с помощью функции «Конвертер». Метод «convert()» вызывается для объекта «cv», а метод «close()» вызывается для завершения преобразования.

Python3

# Import the required modules
from pdf2docx import Converter
# Keeping the PDF's location in a separate variable
pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf"
# Maintaining the Document's path in a separate variable
docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx"
# Using the built-in function, convert the PDF file to a document file by saving it in a variable.
cv = Converter(pdf_file)
# Storing the Document in the variable's initialised path
cv.convert(docx_file)
# Conversion closure through the function close()
cv.close()

Выход:

рагмент кода преобразует файл PDF в файл DOC

Вывод в терминале

утри папки (СТАЖИРО

Внутри папки (СТАЖИРОВКА)

Импорт Parse с использованием пути к файлу

Код использует функцию извлечения из библиотеки pdf2docx для преобразования файлов PDF в файлы DOCX, преобразования их в нужный формат и сохранения в указанном месте.

Python3

from pdf2docx import parse
pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf"
docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx"
# convert pdf to docx
parse(pdf_file, docx_file)

Выход :

кно выв

Окно вывода

утри папки(СТАЖИР

Внутри папки(СТАЖИРОВКА)

Читайте также:  Как оптимизировать модели данных с помощью наследования Pydantic?
Оцените статью
bestprogrammer.ru
Добавить комментарий