Wyodrębnij tekst z plików PDF i plików obrazów


Masz dokument PDF, z którego chcesz wyodrębnić cały tekst? A co z plikami obrazów zeskanowanego dokumentu, który chcesz przekonwertować na tekst edytowalny? Oto niektóre z najczęstszych problemów, które widziałem w miejscu pracy podczas pracy z plikami.

W tym artykule omówię kilka sposobów, w jakie można próbować wyodrębnić tekst z pliku PDF lub z obrazu. Wyniki ekstrakcji będą się różnić w zależności od rodzaju i jakości tekstu w pliku PDF lub obrazie. Ponadto wyniki będą się różnić w zależności od używanego narzędzia, dlatego najlepiej wypróbować jak najwięcej opcji poniżej, aby uzyskać najlepsze wyniki.

Wyodrębnij tekst z obrazu lub PDF

Najprostszym i najszybszym sposobem na rozpoczęcie jest wypróbowanie usługi ekstrakcji tekstu PDF online. Zwykle są one bezpłatne i mogą zapewnić dokładnie to, czego szukasz, bez konieczności instalowania czegokolwiek na komputerze. Oto dwa, których użyłem z bardzo dobrymi do doskonałymi wynikami:

ExtractPDF

extractpdf

ExtractPDF to darmowe narzędzie do przechwytywania obrazów, tekstu i czcionek z pliku PDF. Jedynym ograniczeniem jest to, że maksymalny rozmiar pliku PDF to 10 MB. To trochę małe; więc jeśli masz większy plik, wypróbuj inne metody poniżej. Wybierz plik, a następnie kliknij przycisk Wyślij plik. Rezultaty są zwykle bardzo szybkie i powinieneś zobaczyć podgląd tekstu po kliknięciu na zakładce Tekst.

download text

Jest to również fajne Dodatkową korzyścią jest to, że wydobywa obrazy również z pliku PDF, na wszelki wypadek, gdy tego potrzebujesz! Ogólnie rzecz biorąc, narzędzie online działa świetnie, ale mam do czynienia z kilkoma dokumentami PDF, które dają mi zabawne wyniki. Tekst jest wydobywany w porządku, ale z jakiegoś powodu po każdym słowie będzie miał podział wiersza! Nie jest to duży problem dla krótkiego pliku PDF, ale z pewnością problem dla plików z dużą ilością tekstu. Jeśli tak się stanie, wypróbuj następne narzędzie.

Online OCR

Online OCR zwykle pracowało dla dokumentów, które nie zostały poprawnie przekonwertowane z ExtractPDF , więc dobrze jest wypróbować obie usługi, aby zobaczyć, które z nich dają lepsze wyniki. Online OCR ma również kilka ładniejszych funkcji, które mogą okazać się przydatne dla każdego, kto ma duży plik PDF, który wymaga tylko konwersji tekstu na kilku stronach, a nie całego dokumentu.

Pierwszą rzeczą, którą chcesz zrobić, to przejść z wyprzedzeniem i stwórz bezpłatne konto. To trochę denerwujące, ale jeśli nie stworzysz darmowego konta, to tylko częściowo przekonwertujesz plik PDF, a nie cały dokument. Oprócz tego, że nie tylko można przesłać tylko dokument o wielkości 5 MB, można przesłać do 100 MB na plik z kontem.

online ocr

Najpierw , wybierz język, a następnie wybierz typ formatów wyjściowych, które chcesz przekonwertować na plik. Masz kilka opcji i możesz wybrać więcej niż jeden, jeśli chcesz. W obszarze Dokument dla wielu stronmożesz wybrać Numery stron, a następnie wybrać tylko strony, które chcesz przekonwertować. Następnie wybierz plik i kliknij Konwertuj!

online ocr docs

Po konwersji zostaniesz przeniesiony do sekcji Dokumenty (jeśli jesteś zalogowany), gdzie możesz sprawdzić, ile dostępnych darmowych stron Ci zostało i linki do pobrania przekonwertowanych plików. Wygląda na to, że masz tylko 25 stron za darmo dziennie, więc jeśli potrzebujesz czegoś więcej, musisz albo trochę poczekać, albo kupić więcej stron.

Online OCR zrobił świetną robotę konwertującą moje pliki PDF, ponieważ był w stanie utrzymać rzeczywisty układ tekstu. W moim teście wziąłem dokument Word, który używał pocisków, różnych rozmiarów czcionek, itp. I przekonwertował go do pliku PDF. Potem użyłem Online OCR, aby przekonwertować go z powrotem do formatu Word i było w przybliżeniu w 95% takie samo jak oryginał. To dla mnie imponujące.

Dodatkowo, jeśli chcesz przekonwertować obraz na tekst, Online OCR może to zrobić równie łatwo, jak wyodrębnianie tekstu z plików PDF.

Bezpłatne Online OCR

Odkąd rozmawialiśmy o obrazowo-tekstowym OCR, wspomnę o innej dobrej stronie internetowej, która działa bardzo dobrze na obrazach. Bezpłatne Online OCR było bardzo dobre i bardzo dokładne przy wyodrębnianiu tekstu z moich testowych obrazów. Zrobiłem kilka zdjęć z mojego iPhone'a ze stron z książek, broszur itp. I byłem zaskoczony, jak dobrze udało mu się przekonwertować tekst.

free online ocr

Wybierz plik, a następnie kliknij przycisk Prześlij. Na następnym ekranie dostępnych jest kilka opcji i podgląd obrazu. Możesz przyciąć go, jeśli nie chcesz, aby OCR to wszystko. Następnie kliknij przycisk OCR, a przekonwertowany tekst pojawi się pod podglądem obrazu. Nie ma też żadnych ograniczeń, co jest naprawdę miłe.

Oprócz usług online, są dwa darmowe konwertery plików PDF, o których chcę wspomnieć, jeśli potrzebujesz oprogramowania działającego lokalnie na komputerze, aby wykonać konwersje. Dzięki usługom online zawsze będziesz potrzebować połączenia z Internetem, co może nie być możliwe dla wszystkich. Zauważyłem jednak, że jakość konwersji z programów freeware była znacząco gorsza niż w przypadku witryn.

Ekstraktor tekstu A-PDF

Ekstraktor tekstu A-PDF jest programem freeware, który wykonuje dość dobrą pracę z wyodrębnianiem tekstu z plików PDF. Po pobraniu i zainstalowaniu kliknij przycisk Otwórz, aby wybrać plik PDF. Następnie kliknij Wyodrębnij tekst, aby rozpocząć proces.

apdf extractor

Zostanie wyświetlone pytanie o lokalizację pliku wyjściowego tekstowego, a następnie rozpocznie się wyodrębnianie . Możesz także kliknąć przycisk Opcja, który pozwala wybrać tylko niektóre strony do wyodrębnienia i typ ekstrakcji. Druga opcja jest interesująca, ponieważ wyodrębnia tekst w różnych układach i warto wypróbować wszystkie trzy, aby zobaczyć, które z nich dają najlepsze wyniki.

PDF2 Pilot tekstowy

PDF2Text Pilot działa poprawnie przy rozpakowywaniu tekstu. Nie ma żadnych opcji; po prostu dodajesz pliki lub foldery, konwertujesz i masz nadzieję na najlepsze. Sprawdzało się dobrze w niektórych plikach PDF, ale dla większości z nich występowały liczne problemy.

pdf2text

Wystarczy kliknąć Dodaj pliki, a następnie kliknąć Konwertuj. Po zakończeniu konwersji kliknij przycisk Przeglądaj, aby otworzyć plik. Twój przebieg będzie się różnił w zależności od tego programu, więc nie oczekuj zbyt wiele.

Warto również wspomnieć, że jeśli pracujesz w środowisku korporacyjnym lub masz dostęp do kopii Adobe Acrobat z pracy, możesz uzyskać znacznie lepsze wyniki. Acrobat oczywiście nie jest darmowy, ale ma opcje konwersji plików PDF na format Word, Excel i HTML. Wykonuje również najlepszą pracę polegającą na zachowaniu struktury oryginalnego dokumentu i konwersji skomplikowanego tekstu.

Excel - Zapisywanie arkuszy Excela jako pdf - porada #66

Powiązane posty:


13.11.2014