يفهرس Cloud Search جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف (MIME أو content-type). تتم الفهرسة على بيانات البيانات الوصفية للملف، وعلى محتواه إذا كان ذلك متاحًا. في ما يلي قائمة بأنواع الملفات التي يتوفّر لها فهرسة المحتوى.
- Microsoft Word (ملف DOC)
- Microsoft Word (ملف DOCX)
- Microsoft Excel (ملف XLS)
- Microsoft Excel (ملف XLSX)
- Microsoft Powerpoint (ملف PPT)
- Microsoft Powerpoint (ملف PPTX)
- ملف Portable Document Format (PDF) من Adobe
- تنسيق النصوص المنسّقة (RTF)
- تنسيق النص (TXT)
- لغة ترميز النص الفائق (HTML)
- لغة الترميز القابلة للامتداد (XML)
بالإضافة إلى أنواع الملفات هذه، تتيح خدمة Cloud Search فهرسة المحتوى في أي ملف نصي عادي.
أنواع الملفات وخصائصها التي تستخدم تكنولوجيا التعرّف البصري على الأحرف (OCR)
تستخدم Google Cloud Search أيضًا تقنية التعرّف البصري على الحروف لاستخراج النص من أنواع الملفات التالية:
نوع الملف | الحد الأقصى للحجم |
---|---|
Joint Photographic Experts Group (JPG) | 10 ميغابايت |
تنسيق تبادل الرسومات (GIF) | 10 ميغابايت |
Tagged Image File Format (TIFF) | 10 ميغابايت |
رسومات موجّهة يمكن تغيير حجمها (SVG) | 10 ميغابايت |
تنسيق صورة PostScript (PS) | 10 ميغابايت |
ملف PDF | 30 ميغابايت |
تعمل تقنية التعرّف البصري على الحروف أيضًا على الملفات التي تتضمّن الخصائص التالية:
- المستندات المكتوبة بخط اليد تقدّم المستندات المكتوبة بالأحرف اللاتينية واليابانية والكورية أفضل النتائج.
- المستندات المكتوبة عموديًا، مثل المستندات باللغة اليابانية
- المستندات المكتوبة من اليمين إلى اليسار، مثل العبرية