جستجوی ابری، صرف نظر از نوع فایل (MIME یا نوع محتوا)، تمام موارد ارسالی را فهرستبندی میکند. فهرستبندی روی دادههای فراداده یک فایل و در صورت پشتیبانی، محتوای آن انجام میشود. در زیر لیستی از انواع فایلی که فهرستبندی محتوا برای آنها پشتیبانی میشود ، آمده است.
- مایکروسافت ورد (DOC)
- مایکروسافت ورد (DOCX)
- مایکروسافت اکسل (XLS)
- مایکروسافت اکسل (XLSX)
- مایکروسافت پاورپوینت (PPT)
- مایکروسافت پاورپوینت (PPTX)
- قالب سند قابل حمل ادوبی (PDF)
- قالب متن غنی (RTF)
- قالب متن (TXT)
- زبان نشانهگذاری فرامتن (HTML)
- زبان نشانهگذاری توسعهپذیر (XML)
علاوه بر این نوع فایلها، جستجوی ابری از فهرستبندی محتوا در هر فایل متنی سادهای پشتیبانی میکند.
انواع و ویژگیهای فایلهای تشخیص نوری کاراکتر (OCR)
جستجوی ابری گوگل همچنین از OCR برای استخراج متن از انواع فایلهای زیر استفاده میکند:
| نوع فایل | حداکثر اندازه |
|---|---|
| گروه مشترک متخصصان عکاسی (JPG) | ۱۰ مگابایت |
| قالب تبادل گرافیکی (GIF) | ۱۰ مگابایت |
| قالب فایل تصویری برچسبگذاریشده (TIFF) | ۱۰ مگابایت |
| گرافیک برداری مقیاسپذیر (SVG) | ۱۰ مگابایت |
| قالب تصویر پستاسکریپت (PS) | ۱۰ مگابایت |
| قالب سند قابل حمل (PDF) | ۳۰ مگابایت |
OCR همچنین روی فایلهایی با این مشخصات کار میکند:
- اسناد دستنویس. اسناد به خط لاتین، ژاپنی و کرهای بهترین نتایج را ارائه میدهند.
- اسنادی که به صورت عمودی نوشته شدهاند، مانند اسناد ژاپنی.
- اسنادی که از راست به چپ نوشته میشوند، مانند زبان عبری.