Cloud Search hiện hỗ trợ trích xuất văn bản dựa trên Nhận dạng ký tự quang học (OCR) cho các tệp PDF có chứa hình ảnh, chẳng hạn như:
Điều này làm cho các tệp PDF có hình ảnh chứa văn bản, chẳng hạn như tài liệu được quét, người dùng có thể dễ dàng tìm kiếm và cải thiện khả năng phát hiện của các tệp PDF đó.
Quản trị viên và người dùng cuối sử dụng Google Workspace và dành riêng cho một số loại tài khoản.
Nhiều tài liệu kinh doanh quan trọng ở dạng vật lý hoặc dưới dạng phiên bản quét (scan) của các tài liệu vật lý đó. Với việc Google Workspace hỗ trợ OCR, giờ đây, quản trị viên có thể dễ dàng lập chỉ mục các tài liệu này cho Cloud Search, giúp người dùng dễ dàng tìm nhanh các tài liệu được quét có liên quan.
Ngoài ra, bạn có thể loại bỏ việc trích xuất văn bản ngoại tuyến khỏi các tệp PDF có chứa hình ảnh trước khi lập chỉ mục các tài liệu này trên Cloud Search.
- Tính năng được BẬT theo mặc định.
- Lưu ý quan trọng: Các tệp PDF phải được gửi bằng chế độ Lập chỉ mục không đồng bộ (Asynchronous Indexing mode) và chỉ được chứa hình ảnh.
- Không yêu cầu hành động của người dùng
Tính năng này hiện có sẵn cho tất cả người dùng.
Hoạt động cho khách hàng của Google Workspace Enterprise Plus và Google Cloud Search
Không có sẵn cho Google Workspace Essentials, Business Starter, Business Standard, Business Plus, Enterprise Essentials, Enterprise Standard, Education Basic Fundamentals, Education Plus, Frontline và Nonprofits cũng như khách hàng G Suite Basic và Business
Các loại tệp được hỗ trợ để trích xuất văn bản
Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hay loại nội dung). Việc lập chỉ mục được thực hiện trên tệp và nội dung của tệp, nếu được hỗ trợ. Sau đây là danh sách các loại tệp được hỗ trợ lập chỉ mục nội dung.
Ngoài các loại tệp này, Cloud Search hỗ trợ lập chỉ mục nội dung trong bất kỳ tệp văn bản bình thường khác.
Google Cloud Search cũng sử dụng OCR để trích xuất văn bản từ các loại tệp sau:
File type | Maximum size |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Tagged Image File Format (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
PostScript Image Format (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
Cloud Search chỉ sử dụng OCR cho các tệp PDF khi lập chỉ mục ở chếđộ ASYNCHRONOUS và áp dụng OCR cho 80 trang đầu tiên của tệp PDF. Để đủ điều kiện cho OCR, tệp PDF chỉ được chứa hình ảnh được quét. Nếu tệp PDF chứa bất kỳ nội dung văn bản gốc nào, Cloud Search sẽ lập chỉ mục nội dung gốc và không áp dụng OCR cho hình ảnh.