टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search भेजे गए सभी आइटम को इंडेक्स करता है, भले ही फ़ाइल टाइप कुछ भी हो (MIME या कॉन्टेंट-टाइप). सूची को किसी फ़ाइल के मेटाडेटा डेटा पर इंडेक्स किया जाता है और अगर उपलब्ध हो, तो उसका कॉन्टेंट. नीचे उन फ़ाइल टाइप की सूची दी गई है जिनमें मौजूद कॉन्टेंट का इस्तेमाल किया जा सकता है इंडेक्स करने की सुविधा है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (RTF)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (HTML)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search भी कॉन्टेंट को इंडेक्स करने की सुविधा देता है डालें.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की फ़ाइलों के टाइप और विशेषताएं

Google Cloud Search, इन फ़ाइल टाइप से टेक्स्ट निकालने के लिए, ओसीआर का इस्तेमाल भी करता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (JPG) 10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 MB
टैग किया गया इमेज फ़ाइल फ़ॉर्मैट (TIFF) 10 MB
स्केलेबल वेक्टर ग्राफ़िक (SVG) 10 MB
PostScript इमेज फ़ॉर्मैट (PS) 10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर की सुविधा, इन विशेषताओं वाली फ़ाइलों पर भी काम करती है:

  • हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन यील्ड में मौजूद दस्तावेज़ के साथ बेहतर नतीजे मिलते हैं.
  • वर्टिकल तौर पर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ में लिखे गए दस्तावेज़.
  • दाएं से बाएं लिखे गए दस्तावेज़, जैसे कि हिब्रू.