PDF til tekst — OCR i nettleseren din
Hent ut tekst fra skannede eller bildebaserte PDF-er, side for side. Hver side rendres til et bilde og kjøres gjennom OCR i nettleseren din.
- Slipp én eller flere PDF-er, eller klikk bla gjennom.
- Velg DPI. 200 er en god standard; øk til 300 for tette eller smålinjede sider.
- Du kan også begrense sider med et intervall som 1-3, 5, 8-10; samme intervall gjelder hver PDF. La stå tomt for å OCR-behandle hver side i hver fil.
- Klikk Hent ut alt. Første kjøring laster ned omtrent 8 MB med OCR-motor og språkdata fra dette nettstedet (bufret av nettleseren din til neste gang, og gjenbrukt på tvers av hver PDF i bunten).
- Tekst fra første PDF vises i forhåndsvisningen nedenfor (de 3 første sidene). Last ned hver fils fulle tekst fra raden, kopier hver fils utdata til utklippstavlen, eller hent én kombinert .txt.
Hva gjør det?
Hver valgt side rendres til en canvas med valgt DPI, og kjøres deretter gjennom Tesseract — den åpen kildekode OCR-motoren vedlikeholdt av Google — kompilert til WebAssembly. Den gjenkjente teksten for hver side settes sammen til én utdata med et --- Page N --- skille mellom sider slik at du kan spore enhver passasje tilbake til kildesiden.
Eksempel
Inndata — et skannet notat på 2 sider, 200 DPI, alle sider. Utdata-tekstområde:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Vanlige feil og fallgruver
De fleste OCR-skuffelser kommer fra kildedokumentet, ikke motoren. En dårlig skann kan ikke reddes med høyere DPI.
- Forvrengt utdata fra en dårlig skann. Kildebilder under omtrent 150 DPI gir forvrengt tekst uansett hva du setter her. Skann på nytt ved 300 DPI, eller bruk den originale digitale filen hvis du har den.
- Kolonner flettes i utdataen. OCR leser i naturlig skannerekkefølge og kan forvirres av oppsett med flere kolonner. Del PDF-en etter kolonne først med Image Cropper på side-renderinger, og OCR-behandle hver kolonne separat.
- Sider er rotert 90° eller opp ned. Tesseract roterer ikke automatisk. Fiks PDF-orienteringen med PDF Organizer først, og prøv så igjen.
- Fanen fryser på en stor PDF. Over 100 sider på 300 DPI kan tømme minnet. Render et sideintervall først (f.eks. 1-25) for å bekrefte kvalitet, og kjør resten i puljer. Gå ned til 200 DPI hvis enheten din har lite minne.
- Ugyldig intervall. Invalid range: "1 through 5" — bare bindestrek og komma støttes. Bruk formatet 1-5.
- Kryptert PDF. Passordbeskyttede PDF-er klarer ikke å laste. Lås opp med PDF-viseren din via Fil > Lagre som, og prøv på nytt med den ubeskyttede kopien.
Ofte stilte spørsmål
Fungerer dette på skannede PDF-er og PDF-er med kun bilder?
Ja — det er hele poenget. Hver side rendres til et bilde og kjøres gjennom OCR, så det fungerer likt enten PDF-en ble født digital eller ble skannet. For digitalt fødte PDF-er som allerede inneholder markerbar tekst, er et direkte tekstuttrekksverktøy raskere og mer nøyaktig; OCR er riktig valg når teksten er bakt inn i sidebilder.
Hvilken DPI bør jeg velge?
200 DPI er en god standard for OCR-nøyaktighet på typiske skann og skjermbilder. 150 DPI er raskere, men mister liten tekst. 300 DPI hjelper med tette sider, små fonter eller skann av dårlig kvalitet, men dobler rendringstid og minnebruk. Å gå over 300 hjelper sjelden hvis kildeskanningen selv har lavere oppløsning.
Hvorfor er første kjøring treg?
Første kjøring laster ned omtrent 8 MB med OCR-motor og engelske språkdata fra dette nettstedet, og bufrer dem i nettleseren din. Påfølgende kjøringer starter på under ett sekund. Etter det styres hastigheten av å rendre og gjenkjenne hver side — vanligvis 3–10 sekunder per side avhengig av DPI og sidekompleksitet.
Hva med håndskrift og tekst på ikke-engelsk?
Gjenkjenning av håndskrift er svak — Tesseract er trent på trykt tekst og sliter med løkkeskrift eller rotete håndskrift. For ikke-engelsk tekst, velg matchende språk fra velgeren; første OCR-kjøring i det språket laster ned modellen (3–14 MB) og bufrer den etterpå. Sider med flere språk fungerer best når du velger det dominerende språket.
Kan det håndtere passordbeskyttede PDF-er?
Nei. Krypterte PDF-er klarer ikke å laste og gir en feilmelding. Åpne filen i PDF-viseren din, skriv inn passordet, og lagre på nytt via Fil > Lagre som for å produsere en ubeskyttet kopi. Slipp så den kopien her.
Lagrer dere PDF-ene mine eller den uthentede teksten?
Nei. Vi lagrer ikke PDF-en du slipper, de rendrede sidebildene, eller den uthentede teksten. Alt forkastes når du lukker eller oppdaterer fanen — ingen logger, ingen spor hos oss av hva du OCR-behandlet. Du kan verifisere med nettleserens utviklerverktøy.