टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे गए सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल का टाइप (MIME या कॉन्टेंट-टाइप) कुछ भी हो. इंडेक्सिंग, फ़ाइल के मेटाडेटा डेटा और अगर सुविधा उपलब्ध है, तो उसके कॉन्टेंट पर की जाती है. यहां उन फ़ाइल टाइप की सूची दी गई है जिनके कॉन्टेंट को इंडेक्स किया जा सकता है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (आरटीएफ़)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (एचटीएमएल)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search किसी भी सादे टेक्स्ट फ़ाइल में मौजूद कॉन्टेंट को इंडेक्स कर सकता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा के साथ काम करने वाली फ़ाइलें और उनकी विशेषताएं

Google Cloud Search, ओसीआर का इस्तेमाल करके इन फ़ाइल टाइप से टेक्स्ट निकालता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (जेपीजी) 10 एमबी
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 एमबी
टैग की गई इमेज फ़ाइल फ़ॉर्मैट (टीआईएफ़) 10 एमबी
स्केलेबल वेक्टर ग्राफ़िक्स (SVG) 10 एमबी
PostScript इमेज फ़ॉर्मैट (PS) 10 एमबी
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर, इन फ़ाइलों पर भी काम करता है:

  • हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन में लिखे गए दस्तावेज़ों के लिए, सबसे सही नतीजे मिलते हैं.
  • ऊपर से नीचे की ओर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ भाषा में लिखे गए दस्तावेज़.
  • दाईं से बाईं ओर लिखी जाने वाली भाषाओं में मौजूद दस्तावेज़, जैसे कि हिब्रू.