logo

Pura teksti PDF-tiedostosta Pythonilla

Sinun kaikkien on tiedettävä, mitä PDF-tiedostot ovat. Itse asiassa ne ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista medioista. PDF tarkoittaa Kannettava asiakirjamuoto . Se käyttää .pdf laajennus. Sitä käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta.

Poimimme tekstiä pdf-tiedostoista käyttämällä kahta Python-kirjastoa, pypdf ja PyMuPDF , tässä artikkelissa.



Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.

Python-paketti pypdf voidaan käyttää saavuttamaan haluamamme (tekstin purkaminen), vaikka se voi tehdä enemmän kuin mitä tarvitsemme. Tätä pakettia voidaan käyttää myös PDF-tiedostojen luomiseen, salauksen purkamiseen ja yhdistämiseen. Huomautus: Lisätietoja on kohdassa Työskentely PDF-tiedostojen kanssa Pythonissa

Asennus

Asenna tämä paketti kirjoittamalla alla oleva komento terminaaliin.

pip install pypdf>

Esimerkki: Syötä PDF: Pura-pdf-teksti-python



Python 3






stlc

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Panda-sarjan ominaisuuksia

Lähtö:

Pura-pdf-python

Yritetään ymmärtää yllä oleva koodi paloina:

reader = PdfReader('example.pdf')>
  • Loimme kohteen PdfReader luokasta alkaen pypdf moduuli.
  • The PdfReader luokka ottaa vaaditun sijaintiargumentin pdf-tiedoston polusta.
print(len(reader.pages))>
  • sivuja omaisuus antaa luettelon Sivuobjektit . Joten tässä voimme käyttää sisäänrakennettua vain() python-funktiolla saadaksesi pdf-tiedoston sivumäärän.
page = reader.pages[0]>
  • Nyt, kuten lukija.sivut on luettelo Sivuobjektit , voimme saada tietyn Sivu pdf-tiedostosta napauttamalla sivun hakemistoa. Python-listassa indeksointi alkaa nollasta, joten reader.pages[0] antaa meille pdf-tiedoston ensimmäisen sivun.
text = page.extract_text() print(text)>
  • Sivuobjektilla on toiminto Pura_teksti() poimia tekstiä pdf-sivulta.

Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.

PyMuPDF on Python-kirjasto, joka tukee tiedostomuotoja, kuten XPS, PDF, CBR ja CBZ. Mutta toistaiseksi tässä artikkelissa aiomme keskittyä PDF-tiedostoihin (Portable Document Format).

Asennus

pip install pymupdf pip install fitz>

Poimiaksemme tekstin pdf-tiedostosta meidän on noudatettava seuraavia vaiheita:

  1. Kirjaston tuonti
  2. Asiakirjan avaaminen
  3. Tekstin purkaminen

Huomautus: Käytämme sample.pdf-tiedostoa tässä; saadaksesi pdf-tiedoston, käytä alla olevaa linkkiä.

sample.pdf – Linkki

1. Kirjaston tuonti

Python 3




import> fitz>

>

>

2. Asiakirjan avaaminen

Python 3


mysql ainutlaatuinen avain



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Täällä loimme objektin nimeltä doc , ja tiedostonimen tulee olla Python-merkkijono.

3. Tekstin purkaminen

Python 3

mikä on f5 näppäimistössä




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

Täällä iteroimme sivuja pdf-muodossa ja käytimme get_text() tapa purkaa jokainen sivu tiedostosta.

Kaikki koodi tekstin purkamiseksi

Python 3


hajautus tietorakenteessa



import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Lähtö:

Johtopäätös

Olemme nähneet kaksi Python-kirjastoa, pypdf ja PyMuPDF , joka voi poimia tekstiä PDF-tiedostosta. Kommentoi haluamaasi kirjastoa yllä olevista kahdesta kirjastosta.