تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
يفهرس Cloud Search جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف
(MIME أو content-type). تتم الفهرسة على بيانات البيانات الوصفية للملف، وعلى محتواه إذا كان ذلك متاحًا. في ما يلي قائمة بأنواع الملفات التي يتوفّر لها فهرسة المحتوى.
Microsoft Word (ملف DOC)
Microsoft Word (ملف DOCX)
Microsoft Excel (ملف XLS)
Microsoft Excel (ملف XLSX)
Microsoft Powerpoint (ملف PPT)
Microsoft Powerpoint (ملف PPTX)
ملف Portable Document Format (PDF) من Adobe
تنسيق النصوص المنسّقة (RTF)
تنسيق النص (TXT)
لغة ترميز النص الفائق (HTML)
لغة الترميز القابلة للامتداد (XML)
بالإضافة إلى أنواع الملفات هذه، يتيح Cloud Search فهرسة المحتوى
داخل أي ملف نصي عادي.
أنواع الملفات وخصائصها في ميزة "التعرّف البصري على الأحرف" (OCR)
تستخدم خدمة Google Cloud Search أيضًا تكنولوجيا التعرّف البصري على الأحرف (OCR) لاستخراج النص من أنواع الملفات التالية:
نوع الملف
الحد الأقصى للحجم
Joint Photographic Experts Group (JPG)
10 ميغابايت
تنسيق تبادل الرسومات (GIF)
10 ميغابايت
Tagged Image File Format (TIFF)
10 ميغابايت
رسومات موجّهة يمكن تغيير حجمها (SVG)
10 ميغابايت
تنسيق صورة PostScript (PS)
10 ميغابايت
ملف PDF
30 ميغابايت
تعمل تقنية التعرّف البصري على الحروف أيضًا على الملفات التي تتضمّن الخصائص التالية:
المستندات المكتوبة بخط اليد تقدّم المستندات المكتوبة بأحرف لاتينية أو باللغتَين اليابانية والكورية أفضل النتائج.
المستندات المكتوبة عموديًا، مثل المستندات المكتوبة باللغة اليابانية
المستندات المكتوبة من اليمين إلى اليسار، مثل العبرية
تاريخ التعديل الأخير: 2025-08-29 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2025-08-29 (حسب التوقيت العالمي المتفَّق عليه)"],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]