Sinun kaikkien on tiedettävä, mitä PDF-tiedostot ovat. Itse asiassa ne ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista medioista. PDF tarkoittaa Kannettava asiakirjamuoto . Se käyttää .pdf laajennus. Sitä käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta.
Poimimme tekstiä pdf-tiedostoista käyttämällä kahta Python-kirjastoa, pypdf ja PyMuPDF , tässä artikkelissa.
Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.
Python-paketti pypdf voidaan käyttää saavuttamaan haluamamme (tekstin purkaminen), vaikka se voi tehdä enemmän kuin mitä tarvitsemme. Tätä pakettia voidaan käyttää myös PDF-tiedostojen luomiseen, salauksen purkamiseen ja yhdistämiseen. Huomautus: Lisätietoja on kohdassa Työskentely PDF-tiedostojen kanssa Pythonissa
Asennus
Asenna tämä paketti kirjoittamalla alla oleva komento terminaaliin.
pip install pypdf>
Esimerkki: Syötä PDF: 
Python 3
stlc
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Panda-sarjan ominaisuuksia
Lähtö:
Yritetään ymmärtää yllä oleva koodi paloina:
reader = PdfReader('example.pdf')> - Loimme kohteen PdfReader luokasta alkaen pypdf moduuli.
- The PdfReader luokka ottaa vaaditun sijaintiargumentin pdf-tiedoston polusta.
print(len(reader.pages))>
- sivuja omaisuus antaa luettelon Sivuobjektit . Joten tässä voimme käyttää sisäänrakennettua vain() python-funktiolla saadaksesi pdf-tiedoston sivumäärän.
page = reader.pages[0]>
- Nyt, kuten lukija.sivut on luettelo Sivuobjektit , voimme saada tietyn Sivu pdf-tiedostosta napauttamalla sivun hakemistoa. Python-listassa indeksointi alkaa nollasta, joten reader.pages[0] antaa meille pdf-tiedoston ensimmäisen sivun.
text = page.extract_text() print(text)>
- Sivuobjektilla on toiminto Pura_teksti() poimia tekstiä pdf-sivulta.
Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.
PyMuPDF on Python-kirjasto, joka tukee tiedostomuotoja, kuten XPS, PDF, CBR ja CBZ. Mutta toistaiseksi tässä artikkelissa aiomme keskittyä PDF-tiedostoihin (Portable Document Format).
Asennus
pip install pymupdf pip install fitz>
Poimiaksemme tekstin pdf-tiedostosta meidän on noudatettava seuraavia vaiheita:
- Kirjaston tuonti
- Asiakirjan avaaminen
- Tekstin purkaminen
Huomautus: Käytämme sample.pdf-tiedostoa tässä; saadaksesi pdf-tiedoston, käytä alla olevaa linkkiä.
sample.pdf – Linkki
1. Kirjaston tuonti
Python 3
import> fitz> |
>
>
2. Asiakirjan avaaminen
Python 3
mysql ainutlaatuinen avain
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Täällä loimme objektin nimeltä doc , ja tiedostonimen tulee olla Python-merkkijono.
3. Tekstin purkaminen
Python 3
mikä on f5 näppäimistössä
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
Täällä iteroimme sivuja pdf-muodossa ja käytimme get_text() tapa purkaa jokainen sivu tiedostosta.
Kaikki koodi tekstin purkamiseksi
Python 3
hajautus tietorakenteessa
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
>
Lähtö:

Johtopäätös
Olemme nähneet kaksi Python-kirjastoa, pypdf ja PyMuPDF , joka voi poimia tekstiä PDF-tiedostosta. Kommentoi haluamaasi kirjastoa yllä olevista kahdesta kirjastosta.