Có một tài liệu PDF mà bạn muốn trích xuất tất cả văn bản? Còn các tệp hình ảnh của tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa thì sao? Đây là một số vấn đề phổ biến nhất mà tôi gặp phải tại nơi làm việc khi làm việc với các tệp.
=> Xem thêm: Phần mềm chỉnh sửa video tốt nhất năm 2023
Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể thực hiện khi cố gắng trích xuất văn bản từ tệp PDF hoặc từ hình ảnh. Kết quả trích xuất của bạn sẽ khác nhau tùy thuộc vào loại và chất lượng của văn bản trong tệp PDF hoặc hình ảnh. Ngoài ra, kết quả của bạn sẽ khác nhau tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất bạn nên thử càng nhiều tùy chọn bên dưới càng tốt để có được kết quả tốt nhất.
Trích xuất văn bản từ hình ảnh hoặc PDF
Cách đơn giản và nhanh nhất để bắt đầu là thử dịch vụ trích xuất văn bản PDF trực tuyến. Chúng thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất cứ thứ gì trên máy tính của bạn. Đây là hai cái mà tôi đã sử dụng với kết quả rất tốt đến xuất sắc:
Trích xuất PDF
ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ ra khỏi tệp PDF. Hạn chế duy nhất là kích thước tối đa cho tệp PDF là 10 MB. Đó là một chút nhỏ; vì vậy nếu bạn có tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tệp của bạn và sau đó nhấp vào nút Gửi tệp . Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi nhấp vào tab Văn bản.
Nó cũng là một lợi ích bổ sung thú vị là nó cũng trích xuất hình ảnh ra khỏi tệp PDF, chỉ trong trường hợp bạn cần những hình ảnh đó! Nhìn chung, công cụ trực tuyến hoạt động rất tốt, nhưng tôi đã tìm thấy một vài tài liệu PDF mang lại cho tôi kết quả hài hước. Văn bản được trích xuất tốt, nhưng vì lý do nào đó, nó sẽ bị ngắt dòng sau mỗi từ! Không phải là một vấn đề lớn đối với một tệp PDF ngắn, nhưng chắc chắn là một vấn đề đối với các tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.
OCR trực tuyến
OCR trực tuyến thường có xu hướng hoạt động đối với các tài liệu không chuyển đổi đúng cách bằng ExtractPDF, vì vậy, bạn nên thử cả hai dịch vụ để xem dịch vụ nào mang lại cho bạn đầu ra tốt hơn. OCR trực tuyến cũng có một số tính năng đẹp hơn có thể hữu ích cho bất kỳ ai có tệp PDF lớn chỉ cần chuyển đổi văn bản trên một vài trang thay vì toàn bộ tài liệu.
Điều đầu tiên bạn muốn làm là tiếp tục và tạo một tài khoản miễn phí. Hơi khó chịu một chút, nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần tệp PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên tài liệu 5 MB, bạn có thể tải lên tối đa 100 MB cho mỗi tệp bằng tài khoản.
Đầu tiên, chọn một ngôn ngữ và sau đó chọn loại định dạng đầu ra bạn muốn cho tệp đã chuyển đổi. Bạn có một số tùy chọn và bạn có thể chọn nhiều tùy chọn nếu muốn. Trong Tài liệu nhiều trang , bạn có thể chọn Số trang rồi chỉ chọn những trang mà bạn muốn chuyển đổi. Sau đó bạn chọn file và bấm Convert !
Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu (nếu bạn đã đăng nhập), nơi bạn có thể xem số lượng trang miễn phí còn lại và các liên kết để tải xuống các tệp đã chuyển đổi của mình. Có vẻ như bạn chỉ có 25 trang miễn phí mỗi ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải đợi một chút hoặc mua thêm trang.
OCR trực tuyến đã thực hiện xuất sắc việc chuyển đổi các tệp PDF của tôi vì nó có thể duy trì bố cục thực tế của văn bản. Trong thử nghiệm của mình, tôi đã lấy một tài liệu Word sử dụng dấu đầu dòng, các cỡ chữ khác nhau, v.v. và chuyển đổi nó thành PDF. Sau đó, tôi đã sử dụng OCR trực tuyến để chuyển đổi nó trở lại định dạng Word và nó giống khoảng 95% so với bản gốc. Điều đó khá ấn tượng đối với tôi.
Ngoài ra, nếu bạn đang tìm cách chuyển đổi hình ảnh thành văn bản, thì OCR Trực tuyến có thể thực hiện điều đó dễ dàng như trích xuất văn bản từ tệp PDF.
OCR trực tuyến miễn phí
Vì chúng ta đang nói về OCR hình ảnh thành văn bản, hãy để tôi đề cập đến một trang web tốt khác hoạt động rất tốt trên hình ảnh. OCR trực tuyến miễn phí rất tốt và rất chính xác khi trích xuất văn bản từ hình ảnh thử nghiệm của tôi. Tôi đã chụp một vài bức ảnh từ iPhone của mình về các trang từ sách, tờ rơi, v.v. và tôi rất ngạc nhiên về khả năng chuyển đổi văn bản của nó.
Chọn tệp của bạn và sau đó nhấp vào nút Tải lên. Trên màn hình tiếp theo, có một số tùy chọn và bản xem trước của hình ảnh. Bạn có thể crop nếu không muốn OCR toàn bộ. Sau đó, chỉ cần nhấp vào nút OCR và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới phần xem trước hình ảnh. Nó cũng không có bất kỳ hạn chế nào, điều này thực sự tốt.
=> Xem thêm: 4 công cụ miễn phí để xóa các tệp và ảnh trùng lặp
Ngoài các dịch vụ trực tuyến, có hai phần mềm chuyển đổi PDF miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính của mình để thực hiện chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần có kết nối Internet và điều đó có thể không thực hiện được đối với tất cả mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng của các chuyển đổi từ các chương trình phần mềm miễn phí kém hơn đáng kể so với các trang web.
Trình trích xuất văn bản A-PDF
A-PDF Text Extractor là phần mềm miễn phí thực hiện khá tốt công việc trích xuất văn bản từ tệp PDF. Sau khi bạn tải xuống và cài đặt, hãy nhấp vào nút Mở để chọn tệp PDF của bạn. Sau đó nhấp vào Trích xuất văn bản để bắt đầu quá trình.
Nó sẽ hỏi bạn một vị trí để lưu trữ tệp đầu ra văn bản và sau đó nó sẽ bắt đầu giải nén. Bạn cũng có thể nhấp vào nút Tùy chọn , cho phép bạn chỉ chọn một số trang nhất định để trích xuất và loại trích xuất. Tùy chọn thứ hai rất thú vị vì nó trích xuất văn bản theo các bố cục khác nhau và đáng để thử cả ba để xem bố cục nào mang lại cho bạn đầu ra tốt nhất.
PDF2 Thí điểm văn bản
PDF2Text Pilot thực hiện tốt công việc trích xuất văn bản. Nó không có bất kỳ tùy chọn nào; bạn chỉ cần thêm tệp hoặc thư mục, chuyển đổi và hy vọng điều tốt nhất. Nó hoạt động tốt trên một số tệp PDF, nhưng đối với phần lớn trong số chúng, có rất nhiều vấn đề.
Chỉ cần nhấp vào Thêm tệp và sau đó nhấp vào Chuyển đổi . Khi quá trình chuyển đổi hoàn tất, nhấp vào Duyệt để mở tệp. Số dặm của bạn sẽ thay đổi khi sử dụng chương trình này, vì vậy đừng mong đợi nhiều.
=> Xem thêm: Trình dọn dẹp Windows Registry miễn phí tốt nhất
Ngoài ra, điều đáng nói là nếu bạn đang ở trong môi trường công ty hoặc có thể có được một bản sao Adobe Acrobat từ nơi làm việc, thì bạn thực sự có thể nhận được kết quả tốt hơn nhiều. Acrobat rõ ràng là không miễn phí, nhưng nó có các tùy chọn để chuyển đổi PDF sang định dạng Word, Excel và HTML. Nó cũng thực hiện tốt nhất việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.