با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
Cloud Search تمام موارد ارسال شده را بدون در نظر گرفتن نوع فایل (MIME یا نوع محتوا) فهرست می کند. نمایه سازی بر روی داده های فراداده یک فایل و در صورت پشتیبانی، محتوای آن انجام می شود. در زیر لیستی از انواع فایل هایی که نمایه سازی محتوا برای آنها پشتیبانی می شود، آمده است.
مایکروسافت ورد (DOC)
مایکروسافت ورد (DOCX)
مایکروسافت اکسل (XLS)
مایکروسافت اکسل (XLSX)
Microsoft Powerpoint (PPT)
مایکروسافت پاورپوینت (PPTX)
فرمت سند قابل حمل Adobe (PDF)
فرمت متن غنی (RTF)
فرمت متن (TXT)
زبان نشانه گذاری فرامتن (HTML)
زبان نشانه گذاری توسعه پذیر (XML)
علاوه بر این انواع فایل، جستجوی ابری از فهرست بندی محتوا در هر فایل متنی ساده پشتیبانی می کند.
انواع فایل ها و ویژگی های تشخیص کاراکتر نوری (OCR).
Google Cloud Search همچنین از OCR برای استخراج متن از انواع فایل های زیر استفاده می کند:
نوع فایل
حداکثر اندازه
گروه مشترک کارشناسان عکاسی (JPG)
10 مگابایت
فرمت تبادل گرافیکی (GIF)
10 مگابایت
فرمت فایل تصویر برچسب شده (TIFF)
10 مگابایت
گرافیک برداری مقیاس پذیر (SVG)
10 مگابایت
فرمت تصویر پست اسکریپت (PS)
10 مگابایت
فرمت سند قابل حمل (PDF)
30 مگابایت
OCR همچنین روی فایل هایی با این ویژگی ها کار می کند:
اسناد دست نویس. اسناد به خط لاتین، ژاپنی و کره ای بهترین نتیجه را دارند.
اسناد عمودی نوشته شده، مانند مواردی که به زبان ژاپنی هستند.
تاریخ آخرین بهروزرسانی 2025-08-29 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-08-29 بهوقت ساعت هماهنگ جهانی."],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]