קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
מערכת Cloud Search מוסיפה לאינדקס את כל הפריטים שנשלחים, בלי קשר לסוג הקובץ (MIME או content-type). האינדוקס מתבצע על נתוני המטא-נתונים של הקובץ, ואם נתמך, גם על התוכן שלו. בהמשך מופיעה רשימה של סוגי קבצים שנתמכים בהם הוספה לאינדקס של תוכן.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
פורמט מסמך נייד (PDF) של Adobe
פורמט Rich Text (RTF)
פורמט טקסט (TXT)
Hypertext Markup Language (HTML)
שפת סימון מורחבת (XML)
בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספה לאינדקס של תוכן בכל קובץ טקסט רגיל.
סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)
ב-Google Cloud Search נעשה שימוש ב-OCR גם כדי לחלץ טקסט מסוגי הקבצים הבאים:
סוג הקובץ
גודל מקסימלי
Joint Photographic Experts Group (JPG)
10 MB
פורמט להחלפת גרפיקה (GIF)
10 MB
Tagged Image File Format (TIFF)
10 MB
Scalable Vector Graphics (SVG)
10 MB
פורמט תמונה של PostScript (PS)
10 MB
Portable Document Format (PDF)
30MB
זיהוי התווים האופטי (OCR) פועל גם בקבצים עם המאפיינים הבאים:
מסמכים בכתב יד. התוצאות הכי טובות מתקבלות ממסמכים שנכתבו בכתב לטיני, ביפנית ובקוריאנית.
[null,null,["עדכון אחרון: 2025-08-29 (שעון UTC)."],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]