टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे जाने वाले सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल टाइप (MIME या कॉन्टेंट-टाइप) कुछ भी हो. इंडेक्स करने की प्रोसेस, फ़ाइल के मेटाडेटा डेटा और अगर उपलब्ध हो, तो उसके कॉन्टेंट के हिसाब से की जाती है. नीचे उन फ़ाइल टाइप की सूची दी गई है जिनके लिए कॉन्टेंट को इंडेक्स करने की सुविधा उपलब्ध है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (RTF)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (एचटीएमएल)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search पर किसी भी सादे टेक्स्ट वाली फ़ाइल में मौजूद कॉन्टेंट को इंडेक्स किया जा सकता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा वाली फ़ाइल टाइप और उसकी विशेषताएं

Google Cloud Search, नीचे दिए गए फ़ाइल टाइप से टेक्स्ट निकालने के लिए, ओसीआर का भी इस्तेमाल करता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (JPG) 10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 MB
टैग किया गया इमेज फ़ाइल फ़ॉर्मैट (TIFF) 10 MB
स्केलेबल वेक्टर ग्राफ़िक (SVG) 10 MB
PostScript इमेज फ़ॉर्मैट (पीएस) 10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर, इन विशेषताओं वाली फ़ाइलों पर भी काम करता है:

  • हाथ से लिखे हुए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन भाषा के दस्तावेज़ सबसे सही नतीजे देते हैं.
  • वर्टिकल तौर पर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ में लिखे गए दस्तावेज़.
  • दाएं से बाएं लिखे गए दस्तावेज़, जैसे कि हिब्रू.