PURA TEKSTI PDF-TIEDOSTOSTA PYTHONILLA

Sinun kaikkien on tiedettävä, mitä PDF-tiedostot ovat. Itse asiassa ne ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista medioista. PDF tarkoittaa Kannettava asiakirjamuoto . Se käyttää .pdf laajennus. Sitä käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta.

Poimimme tekstiä pdf-tiedostoista käyttämällä kahta Python-kirjastoa, pypdf ja PyMuPDF , tässä artikkelissa.

Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.

Python-paketti pypdf voidaan käyttää saavuttamaan haluamamme (tekstin purkaminen), vaikka se voi tehdä enemmän kuin mitä tarvitsemme. Tätä pakettia voidaan käyttää myös PDF-tiedostojen luomiseen, salauksen purkamiseen ja yhdistämiseen. Huomautus: Lisätietoja on kohdassa Työskentely PDF-tiedostojen kanssa Pythonissa

Asennus

Asenna tämä paketti kirjoittamalla alla oleva komento terminaaliin.

pip install pypdf>

Esimerkki: Syötä PDF: Pura-pdf-teksti-python

Python 3

stlc

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

Panda-sarjan ominaisuuksia

Lähtö:

Pura-pdf-python

Yritetään ymmärtää yllä oleva koodi paloina:

reader = PdfReader('example.pdf')>

Loimme kohteen PdfReader luokasta alkaen pypdf moduuli.
The PdfReader luokka ottaa vaaditun sijaintiargumentin pdf-tiedoston polusta.

print(len(reader.pages))>

sivuja omaisuus antaa luettelon Sivuobjektit . Joten tässä voimme käyttää sisäänrakennettua vain() python-funktiolla saadaksesi pdf-tiedoston sivumäärän.

page = reader.pages[0]>

Nyt, kuten lukija.sivut on luettelo Sivuobjektit , voimme saada tietyn Sivu pdf-tiedostosta napauttamalla sivun hakemistoa. Python-listassa indeksointi alkaa nollasta, joten reader.pages[0] antaa meille pdf-tiedoston ensimmäisen sivun.

text = page.extract_text() print(text)>

Sivuobjektilla on toiminto Pura_teksti() poimia tekstiä pdf-sivulta.

Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.

PyMuPDF on Python-kirjasto, joka tukee tiedostomuotoja, kuten XPS, PDF, CBR ja CBZ. Mutta toistaiseksi tässä artikkelissa aiomme keskittyä PDF-tiedostoihin (Portable Document Format).

Asennus

pip install pymupdf pip install fitz>

Poimiaksemme tekstin pdf-tiedostosta meidän on noudatettava seuraavia vaiheita:

Kirjaston tuonti
Asiakirjan avaaminen
Tekstin purkaminen

Huomautus: Käytämme sample.pdf-tiedostoa tässä; saadaksesi pdf-tiedoston, käytä alla olevaa linkkiä.

sample.pdf – Linkki

1. Kirjaston tuonti

Python 3

import> fitz>

2. Asiakirjan avaaminen

Python 3

mysql ainutlaatuinen avain

doc>=> fitz.>open>(>'sample.pdf'>)>

Täällä loimme objektin nimeltä doc , ja tiedostonimen tulee olla Python-merkkijono.

3. Tekstin purkaminen

Python 3

mikä on f5 näppäimistössä

for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

Täällä iteroimme sivuja pdf-muodossa ja käytimme get_text() tapa purkaa jokainen sivu tiedostosta.

Kaikki koodi tekstin purkamiseksi

Python 3

hajautus tietorakenteessa

import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

Lähtö:

Johtopäätös

Olemme nähneet kaksi Python-kirjastoa, pypdf ja PyMuPDF , joka voi poimia tekstiä PDF-tiedostosta. Kommentoi haluamaasi kirjastoa yllä olevista kahdesta kirjastosta.

TechCodeview

Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.

Asennus

Python 3

Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.

Asennus

Python 3

Python 3

Python 3

Python 3

Johtopäätös