[Cloud Search] Tìm kiếm các tệp PDF thông minh hơn nhờ nhận dạng ký tự quang học trong ảnh

Nâng cao kết quả Tìm kiếm trên đám mây cho các tệp PDF chứa hình ảnh có hỗ trợ nhận dạng ký tự quang học

Cloud Search hiện hỗ trợ trích xuất văn bản dựa trên Nhận dạng ký tự quang học (OCR) cho các tệp PDF có chứa hình ảnh, chẳng hạn như:

  • Tài liệu hợp đồng vật lý
  • Tài liệu kỹ thuật có chứa chú thích hoặc nhãn
  • Hóa đơn khách hàng thực và hơn thế nữa

​Điều này làm cho các tệp PDF có hình ảnh chứa văn bản, chẳng hạn như tài liệu được quét, người dùng có thể dễ dàng tìm kiếm và cải thiện khả năng phát hiện của các tệp PDF đó.

Tính năng này có hiệu lực với

Quản trị viên và người dùng cuối sử dụng Google Workspace và dành riêng cho một số loại tài khoản.

Tầm quan trọng của tính năng này

Nhiều tài liệu kinh doanh quan trọng ở dạng vật lý hoặc dưới dạng phiên bản quét (scan) của các tài liệu vật lý đó. Với việc Google Workspace hỗ trợ OCR, giờ đây, quản trị viên có thể dễ dàng lập chỉ mục các tài liệu này cho Cloud Search, giúp người dùng dễ dàng tìm nhanh các tài liệu được quét có liên quan.

Ngoài ra, bạn có thể loại bỏ việc trích xuất văn bản ngoại tuyến khỏi các tệp PDF có chứa hình ảnh trước khi lập chỉ mục các tài liệu này trên Cloud Search.

Làm thế nào để hoạt động trên tài khoản Google Workspace của bạn?

Quản trị viên:

- Tính năng được BẬT theo mặc định.
- Lưu ý quan trọng: Các tệp PDF phải được gửi bằng chế độ Lập chỉ mục không đồng bộ (Asynchronous Indexing mode) và chỉ được chứa hình ảnh.

Người dùng cuối:

- Không yêu cầu hành động của người dùng

Tính năng này đã hoạt động chưa?

Tính năng này hiện có sẵn cho tất cả người dùng.

Tính năng này hoạt động cho loại tài khoản nào?

Hoạt động cho khách hàng của Google Workspace Enterprise PlusGoogle Cloud Search

Không có sẵn cho Google Workspace Essentials, Business Starter, Business Standard, Business Plus, Enterprise Essentials, Enterprise Standard, Education Basic Fundamentals, Education Plus, Frontline và Nonprofits cũng như khách hàng G Suite Basic và Business
 

Các tệp được hỗ trợ

Các loại tệp được hỗ trợ để trích xuất văn bản

Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hay loại nội dung). Việc lập chỉ mục được thực hiện trên tệp và nội dung của tệp, nếu được hỗ trợ. Sau đây là danh sách các loại tệp được hỗ trợ lập chỉ mục nội dung.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe’s Portable Document Format (PDF)
  • Rich Text Format (RTF)
  • Text Format (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Ngoài các loại tệp này, Cloud Search hỗ trợ lập chỉ mục nội dung trong bất kỳ tệp văn bản bình thường khác.

Đặc điểm và loại tệp nhận dạng ký tự quang học (OCR)

Google Cloud Search cũng sử dụng OCR để trích xuất văn bản từ các loại tệp sau:

File type Maximum size
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

Cloud Search chỉ sử dụng OCR cho các tệp PDF khi lập chỉ mục ở chếđộ ASYNCHRONOUS và áp dụng OCR cho 80 trang đầu tiên của tệp PDF. Để đủ điều kiện cho OCR, tệp PDF chỉ được chứa hình ảnh được quét. Nếu tệp PDF chứa bất kỳ nội dung văn bản gốc nào, Cloud Search sẽ lập chỉ mục nội dung gốc và không áp dụng OCR cho hình ảnh.