أنواع الملفات المتاحة لاستخراج النص

يفهرس Cloud Search جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف (MIME أو content-type). تتم الفهرسة على بيانات البيانات الوصفية للملف، وعلى محتواه إذا كان ذلك متاحًا. في ما يلي قائمة بأنواع الملفات التي يتوفّر لها فهرسة المحتوى.

  • ‫Microsoft Word (ملف DOC)
  • ‫Microsoft Word (ملف DOCX)
  • Microsoft Excel (ملف XLS)
  • ‫Microsoft Excel (ملف XLSX)
  • ‫Microsoft Powerpoint (ملف PPT)
  • ‫Microsoft Powerpoint (ملف PPTX)
  • ملف Portable Document Format (PDF) من Adobe
  • تنسيق النصوص المنسّقة (RTF)
  • تنسيق النص (TXT)
  • لغة ترميز النص الفائق (HTML)
  • لغة الترميز القابلة للامتداد (XML)

بالإضافة إلى أنواع الملفات هذه، يتيح Cloud Search فهرسة المحتوى داخل أي ملف نصي عادي.

أنواع الملفات وخصائصها في ميزة "التعرّف البصري على الأحرف" (OCR)

تستخدم خدمة Google Cloud Search أيضًا تكنولوجيا التعرّف البصري على الأحرف (OCR) لاستخراج النص من أنواع الملفات التالية:

نوع الملف الحد الأقصى للحجم
Joint Photographic Experts Group (JPG) 10 ميغابايت
تنسيق تبادل الرسومات (GIF) 10 ميغابايت
Tagged Image File Format (TIFF) 10 ميغابايت
رسومات موجّهة يمكن تغيير حجمها (SVG) 10 ميغابايت
تنسيق صورة PostScript (PS) 10 ميغابايت
ملف PDF ‫30 ميغابايت

تعمل تقنية التعرّف البصري على الحروف أيضًا على الملفات التي تتضمّن الخصائص التالية:

  • المستندات المكتوبة بخط اليد تقدّم المستندات المكتوبة بأحرف لاتينية أو باللغتَين اليابانية والكورية أفضل النتائج.
  • المستندات المكتوبة عموديًا، مثل المستندات المكتوبة باللغة اليابانية
  • المستندات المكتوبة من اليمين إلى اليسار، مثل العبرية