انواع فایل های پشتیبانی شده برای استخراج متن

جستجوی ابری، صرف نظر از نوع فایل (MIME یا نوع محتوا)، تمام موارد ارسالی را فهرست‌بندی می‌کند. فهرست‌بندی روی داده‌های فراداده یک فایل و در صورت پشتیبانی، محتوای آن انجام می‌شود. در زیر لیستی از انواع فایلی که فهرست‌بندی محتوا برای آنها پشتیبانی می‌شود ، آمده است.

  • مایکروسافت ورد (DOC)
  • مایکروسافت ورد (DOCX)
  • مایکروسافت اکسل (XLS)
  • مایکروسافت اکسل (XLSX)
  • مایکروسافت پاورپوینت (PPT)
  • مایکروسافت پاورپوینت (PPTX)
  • قالب سند قابل حمل ادوبی (PDF)
  • قالب متن غنی (RTF)
  • قالب متن (TXT)
  • زبان نشانه‌گذاری فرامتن (HTML)
  • زبان نشانه‌گذاری توسعه‌پذیر (XML)

علاوه بر این نوع فایل‌ها، جستجوی ابری از فهرست‌بندی محتوا در هر فایل متنی ساده‌ای پشتیبانی می‌کند.

انواع و ویژگی‌های فایل‌های تشخیص نوری کاراکتر (OCR)

جستجوی ابری گوگل همچنین از OCR برای استخراج متن از انواع فایل‌های زیر استفاده می‌کند:

نوع فایل حداکثر اندازه
گروه مشترک متخصصان عکاسی (JPG) ۱۰ مگابایت
قالب تبادل گرافیکی (GIF) ۱۰ مگابایت
قالب فایل تصویری برچسب‌گذاری‌شده (TIFF) ۱۰ مگابایت
گرافیک برداری مقیاس‌پذیر (SVG) ۱۰ مگابایت
قالب تصویر پست‌اسکریپت (PS) ۱۰ مگابایت
قالب سند قابل حمل (PDF) ۳۰ مگابایت

OCR همچنین روی فایل‌هایی با این مشخصات کار می‌کند:

  • اسناد دست‌نویس. اسناد به خط لاتین، ژاپنی و کره‌ای بهترین نتایج را ارائه می‌دهند.
  • اسنادی که به صورت عمودی نوشته شده‌اند، مانند اسناد ژاپنی.
  • اسنادی که از راست به چپ نوشته می‌شوند، مانند زبان عبری.