Question 1

Fungerer dette på skannede PDF-er og PDF-er med kun bilder?

Accepted Answer

Ja — det er hele poenget. Hver side rendres til et bilde og kjøres gjennom OCR, så det fungerer likt enten PDF-en ble født digital eller ble skannet. For digitalt fødte PDF-er som allerede inneholder markerbar tekst, er et direkte tekstuttrekksverktøy raskere og mer nøyaktig; OCR er riktig valg når teksten er bakt inn i sidebilder.

Question 2

Hvilken DPI bør jeg velge?

Accepted Answer

200 DPI er en god standard for OCR-nøyaktighet på typiske skann og skjermbilder. 150 DPI er raskere, men mister liten tekst. 300 DPI hjelper med tette sider, små fonter eller skann av dårlig kvalitet, men dobler rendringstid og minnebruk. Å gå over 300 hjelper sjelden hvis kildeskanningen selv har lavere oppløsning.

Question 3

Hvorfor er første kjøring treg?

Accepted Answer

Første kjøring laster ned omtrent 8 MB med OCR-motor og engelske språkdata fra dette nettstedet, og bufrer dem i nettleseren din. Påfølgende kjøringer starter på under ett sekund. Etter det styres hastigheten av å rendre og gjenkjenne hver side — vanligvis 3–10 sekunder per side avhengig av DPI og sidekompleksitet.

Question 4

Hva med håndskrift og tekst på ikke-engelsk?

Accepted Answer

Gjenkjenning av håndskrift er svak — Tesseract er trent på trykt tekst og sliter med løkkeskrift eller rotete håndskrift. For ikke-engelsk tekst, velg matchende språk fra velgeren; første OCR-kjøring i det språket laster ned modellen (3–14 MB) og bufrer den etterpå. Sider med flere språk fungerer best når du velger det dominerende språket.

Question 5

Kan det håndtere passordbeskyttede PDF-er?

Accepted Answer

Nei. Krypterte PDF-er klarer ikke å laste og gir en feilmelding. Åpne filen i PDF-viseren din, skriv inn passordet, og lagre på nytt via Fil > Lagre som for å produsere en ubeskyttet kopi. Slipp så den kopien her.

Question 6

Lagrer dere PDF-ene mine eller den uthentede teksten?

Accepted Answer

Nei. Vi lagrer ikke PDF-en du slipper, de rendrede sidebildene, eller den uthentede teksten. Alt forkastes når du lukker eller oppdaterer fanen — ingen logger, ingen spor hos oss av hva du OCR-behandlet. Du kan verifisere med nettleserens utviklerverktøy.

PDF til tekst — OCR i nettleseren din

Eksempel

Vanlige feil og fallgruver