Metin çıkarma için desteklenen dosya türleri

Cloud Search, dosya türünden (MIME veya içerik türü) bağımsız olarak gönderilen tüm öğeleri dizine ekler. Dizine ekleme, bir dosyanın meta veri verileri ve destekleniyorsa içeriği üzerinde gerçekleştirilir. İçerik dizine eklemenin desteklendiği dosya türlerinin listesi aşağıda verilmiştir.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe'nin Taşınabilir Belge Biçimi (PDF)
  • Zengin Metin Biçimi (RTF)
  • Metin Biçimi (TXT)
  • Hypertext Biçimlendirme Dili (HTML)
  • Genişletilebilir Biçimlendirme Dili (XML)

Bu dosya türlerine ek olarak, Cloud Search herhangi bir düz metin dosyasındaki içeriğin dizine eklenmesini de destekler.

Optik Karakter Tanıma (OCR) dosya türleri ve özellikleri

Google Cloud Search, aşağıdaki dosya türlerindeki metinleri ayıklamak için OCR de kullanır:

Dosya türü Maksimum boyut
Ortak Fotoğraf Uzmanları Grubu (JPG) 10 MB
Grafik Değişim Biçimi (GIF) 10 MB
Etiketli Resim Dosyası Biçimi (TIFF) 10 MB
Ölçeklenebilir Vektör Grafiği (SVG) 10 MB
PostScript Resim Biçimi (PS) 10 MB
Taşınabilir Belge Biçimi (PDF) 30 MB

OCR, aşağıdaki özelliklere sahip dosyalarda da çalışır:

  • El yazısı dokümanlar. Latin alfabesi, Japonca ve Korece dillerindeki belgeler en iyi sonuçları verir.
  • Japonca olanlar gibi dikey olarak yazılmış belgeler.
  • İbranice gibi sağdan sola yazılan dokümanlar.