टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे गए सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल का टाइप कुछ भी हो (MIME या कॉन्टेंट-टाइप). इंडेक्सिंग, फ़ाइल के मेटाडेटा और कॉन्टेंट पर की जाती है. हालांकि, कॉन्टेंट पर इंडेक्सिंग सिर्फ़ तब की जाती है, जब यह सुविधा उपलब्ध हो. यहां उन फ़ाइल टाइप की सूची दी गई है जिनके कॉन्टेंट को इंडेक्स किया जा सकता है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (आरटीएफ़)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (एचटीएमएल)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search किसी भी सादे टेक्स्ट फ़ाइल में मौजूद कॉन्टेंट को इंडेक्स करने की सुविधा देता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा के साथ काम करने वाली फ़ाइलें और उनकी विशेषताएं

Google Cloud Search, ओसीआर का इस्तेमाल करके इन फ़ाइल टाइप से टेक्स्ट निकालता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (जेपीजी) 10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 MB
टैग की गई इमेज फ़ाइल फ़ॉर्मैट (टीआईएफ़) 10 MB
स्केलेबल वेक्टर ग्राफ़िक्स (SVG) 10 MB
PostScript इमेज फ़ॉर्मैट (PS) 10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर, इन फ़ाइलों पर भी काम करता है:

  • हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन में लिखे गए दस्तावेज़ों के लिए, सबसे अच्छे नतीजे मिलते हैं.
  • वर्टिकल तरीके से लिखे गए दस्तावेज़, जैसे कि जैपनीज़ भाषा में लिखे गए दस्तावेज़.
  • दाईं से बाईं ओर लिखी जाने वाली भाषाओं में मौजूद दस्तावेज़, जैसे कि हिब्रू.