Cloud Search تمام موارد ارسال شده را بدون در نظر گرفتن نوع فایل (MIME یا نوع محتوا) فهرست می کند. نمایه سازی بر روی داده های فراداده یک فایل و در صورت پشتیبانی، محتوای آن انجام می شود. در زیر لیستی از انواع فایل هایی که نمایه سازی محتوا برای آنها پشتیبانی می شود، آمده است.
- مایکروسافت ورد (DOC)
- مایکروسافت ورد (DOCX)
- مایکروسافت اکسل (XLS)
- مایکروسافت اکسل (XLSX)
- Microsoft Powerpoint (PPT)
- مایکروسافت پاورپوینت (PPTX)
- فرمت سند قابل حمل Adobe (PDF)
- فرمت متن غنی (RTF)
- فرمت متن (TXT)
- زبان نشانه گذاری فرامتن (HTML)
- زبان نشانه گذاری توسعه پذیر (XML)
علاوه بر این انواع فایل، جستجوی ابری از فهرست بندی محتوا در هر فایل متنی ساده پشتیبانی می کند.
نوع فایل و ویژگی های تشخیص کاراکتر نوری (OCR).
Google Cloud Search همچنین از OCR برای استخراج متن از انواع فایل های زیر استفاده می کند:
نوع فایل | حداکثر اندازه |
---|---|
گروه مشترک کارشناسان عکاسی (JPG) | 10 مگابایت |
فرمت تبادل گرافیکی (GIF) | 10 مگابایت |
فرمت فایل تصویر برچسب شده (TIFF) | 10 مگابایت |
گرافیک برداری مقیاس پذیر (SVG) | 10 مگابایت |
فرمت تصویر پست اسکریپت (PS) | 10 مگابایت |
فرمت سند قابل حمل (PDF) | 30 مگابایت |
OCR همچنین روی فایل هایی با این ویژگی ها کار می کند:
- اسناد دست نویس. اسناد به خط لاتین، ژاپنی و کره ای بهترین نتیجه را دارند.
- اسناد عمودی نوشته شده، مانند مواردی که به زبان ژاپنی هستند.
- اسناد نوشته شده از راست به چپ، مانند عبری.