Masz dokument PDF lub obraz, który chciałbyś przekonwertować na tekst? Niedawno ktoś wysłał mi dokument w poczcie, który musiałam edytować i odesłać wraz z poprawkami. Osoba ta nie mogła zlokalizować kopii cyfrowej, więc miałem za zadanie uzyskać cały tekst w formacie cyfrowym.
Nie było mowy, żebym spędzał godziny, pisząc wszystko z powrotem, więc skończyłem ładne zdjęcie wysokiej jakości dokumentu, a następnie przepaliłem drogę przez kilka internetowych usług OCR, aby zobaczyć, który z nich dałby mi najlepsze wyniki.
W tym artykule przejdę przez parę z moich ulubionych witryn do OCR, które są bezpłatne. Warto zauważyć, że większość z tych witryn zapewnia podstawową bezpłatną usługę, a następnie oferuje płatne opcje, jeśli potrzebujesz dodatkowych funkcji, takich jak większe obrazy, wielostronicowe dokumenty PDF, różne języki wprowadzania itp.
Warto również wcześniej wiedzieć, że większość tych usług nie będzie w stanie dopasować formatowania oryginalnego dokumentu. Są to głównie do wyodrębniania tekstu i to wszystko. Jeśli potrzebujesz, aby wszystko było w określonym układzie lub formacie, musisz to zrobić ręcznie, gdy tylko uzyskasz cały tekst z OCR.
Ponadto najlepsze wyniki uzyskiwania tekstu będą przychodzić z dokumentów o rozdzielczości od 200 do 400 DPI. Jeśli masz obraz o niskiej rozdzielczości, wyniki nie będą tak dobre.
Wreszcie, wiele stron, które testowałem, po prostu nie działało. Jeśli korzystasz z bezpłatnej usługi OCR w Internecie, zobaczysz kilka witryn, ale kilka witryn z 10 najlepszych wyników nie ukończyło nawet konwersji. Niektórzy będą tracić czas, inni będą dawać błędy, a niektórzy po prostu utknęli na stronie "konwertującej", więc nawet nie wspomniałem o tych stronach.
Dla każdej witryny przetestowałem dwa dokumenty, aby zobaczyć jak dobrze byłaby produkcja. Do moich testów użyłem po prostu mojego iPhone'a 5S do zrobienia zdjęcia obu dokumentów, a następnie przesłałem je bezpośrednio do stron internetowych w celu konwersji.
Jeśli chcesz zobaczyć, jak wyglądały obrazy, których użyłem do mój test, dołączyłem je tutaj: Test1 i Test2. Zwróć uwagę, że nie są to pełne wersje zdjęć zrobionych telefonem. Użyłem obrazu w pełnej rozdzielczości podczas przesyłania do stron.
OnlineOCR
OnlineOCR.net to czysta i prosta strona, która przyniosła bardzo dobre wyniki w moim teście. Główną rzeczą, która mi się podoba, jest to, że nie ma tam mnóstwa reklam w każdym miejscu, co zwykle ma miejsce w tego rodzaju niszowych serwisach.
Aby rozpocząć, wybierz plik i poczekaj, aż zakończy się przesyłanie. Maksymalny rozmiar przesyłanej strony wynosi 100 MB. Jeśli zarejestrujesz się na darmowe konto, dostaniesz kilka dodatkowych funkcji, takich jak większy rozmiar wysyłania, wielostronicowe pliki PDF, różne języki wprowadzania, więcej konwersji na godzinę itd.
Następnie wybierz język wprowadzania i następnie wybierz format wyjściowy. Możesz wybrać Word, Excel lub zwykły tekst. Kliknij przycisk Konwertuj. Zobaczysz tekst wyświetlany u dołu w polu wraz z linkiem do pobierania.
Jeśli chcesz tylko tekst, po prostu skopiuj go i wklej z pudełka. Sugeruję jednak pobranie dokumentu programu Word, ponieważ zadziwiająco wspaniałą pracą jest utrzymanie układu oryginalnego dokumentu.
Na przykład, kiedy otworzyłem dokument Worda dla mojego drugiego testu, byłem zaskoczony okazało się, że dokument zawiera tabelę z trzema kolumnami, tak jak na obrazku.
Ze wszystkich stron ten był najlepszy o wiele. Całkowicie warto się zarejestrować, jeśli potrzebujesz dużo konwersji.
Dla kompletności, mam również link do plików wyjściowych utworzonych przez każdą usługę, abyś mógł zobaczyć wyniki dla siebie. Oto wyniki z OnlineOCR: Test1 Doc i Test2 Doc.
Pamiętaj, że po otwarciu tych dokumentów Word na komputerze otrzymasz wiadomość Słowo stwierdzające, że jest z Internetu i edycji zostało wyłączone. Jest to całkowicie OK, ponieważ program Word nie ufa dokumentom z Internetu i naprawdę nie musisz włączać edycji, jeśli chcesz tylko wyświetlić dokument.
i2OCR
Inna strona, która dało całkiem dobre wyniki: i2OCR. Proces jest bardzo podobny: wybierz język, plik, a następnie naciśnij klawisz Wyodrębnij tekst.
Będziesz musieli poczekać minutę lub dwie, ponieważ ta strona trwa nieco dłużej. Ponadto, w kroku 2 upewnij się, że obraz jest wyświetlany z prawej strony w podglądzie, w przeciwnym razie dostaniesz garść bełkotu jako wynik. Z jakiegoś powodu obrazy z mojego iPhone'a wyświetlały się w trybie portretowym na moim komputerze, ale krajobraz, gdy przesyłałem do tej witryny.
I musiał ręcznie otworzyć obraz w aplikacji do edycji zdjęć, obrócić go o 90 stopni, a następnie obrócić z powrotem do portretu, a następnie zapisać go ponownie. Po zakończeniu przewiń w dół, a zobaczysz podgląd tekstu wraz z przyciskiem pobierania.
Ta strona wypadła całkiem dobrze z wynikami pierwszego testu, ale nie radziła sobie tak dobrze z drugi test, który miał układ kolumn. Oto wyniki i2OCR: Test1 Doc i Test2 Doc.
FreeOCR
Free-OCR.com zajmie Twoje obrazy i przekonwertuj je na zwykły tekst. Nie ma opcji eksportu do formatu Word. Wybierz plik, wybierz język, a następnie kliknij Rozpocznij.
Witryna jest szybka, a otrzymasz dość szybko. Kliknij łącze, aby pobrać plik tekstowy na swój komputer.
Tak jak w przypadku NewOCR, o którym mowa poniżej, ta strona wykorzystuje wszystkie T w dokument. Nie mam pojęcia, dlaczego tak się stało, ale z jakiegoś dziwnego powodu ta strona i NewOCR zrobiły to. Zmiana nie jest wielka, ale jest to żmudny proces, którego naprawdę nie powinno się robić.
Oto wyniki FreeOCR: Test1 Doc i Test2 Doc.
ABBYY FineReader Online
Aby korzystać z FineReader Online, musisz zarejestrować konto, które dostanie 15-dniowy Bezpłatna wersja próbna do OCR do 10 stron za darmo. Jeśli potrzebujesz tylko jednorazowego OCR dla kilku stron, możesz skorzystać z tej usługi. Po zarejestrowaniu się kliknij link weryfikacyjny w e-mailu potwierdzającym.
Kliknij Rozpoznawaju góry, a następnie kliknij Prześlij, by wybrać swój plik. Wybierz język, format wyjściowy, a następnie kliknij przycisk Rozpoznaju dołu. Ta strona ma przejrzysty interfejs i żadnych reklam.
W moich testach ta strona była w stanie pobrać tekst z pierwszego dokumentu testowego, ale była absolutnie ogromna, gdy otworzyłem dokument Word, więc w końcu zrobiłem to ponownie i wybrałem Zwykły tekst jako format wyjściowy.
W drugim teście z kolumnami dokument programu Word był pusty i nie mogłem nawet znaleźć tekstu. Nie jestem pewna, co się tam stało, ale wydaje się, że nie poradzi sobie z niczym innym niż prostymi akapitami. Oto wyniki programu FineReader: Test1 Doc i Test2 Doc.
NewOCR
Kolejna strona, NewOCR.com, było OK, ale nie tak dobre jak pierwsza strona. Po pierwsze, ma reklamy, ale na szczęście nie za tonę. Najpierw wybierz plik, a następnie kliknij przycisk Podgląd.
Następnie można obrócić obraz i dostosować obszar, w którym chcesz skanować tekst. To trochę tak, jak proces skanowania działa na komputerze z podłączonym skanerem.
Jeśli dokument ma wiele kolumn, możesz zaznacz przycisk Analiza układu stronyi spróbuje podzielić tekst na kolumny. Kliknij przycisk OCR, poczekaj kilka sekund, aż się zakończy, a następnie przewiń w dół do dołu, gdy strona się odświeży.
W pierwszym teście poprawnie przeczytał cały tekst, ale z jakiegoś powodu był pisany co T w dokumencie! Nie mam pojęcia, dlaczego tak się stało, ale tak się stało. W drugim teście z włączoną analizą strony uzyskał większość tekstu, ale układ był całkowicie wyłączony.
Oto wyniki z NewOCR: Test1 Doc i Test2 Doc.
Wnioski
Jak widać, darmowe niestety nie daje bardzo dobrych rezultatów przez większość czasu. Pierwsza wspomniana strona jest zdecydowanie najlepsza, ponieważ nie tylko świetnie rozpoznaje cały tekst, ale także zachowała format oryginalnego dokumentu.
Jeśli potrzebujesz tylko tekstu, większość stron powyżej powinna być w stanie to dla ciebie zrobić. Jeśli masz jakieś pytania, możesz je skomentować. Ciesz się!