Menerapkan konektor Sistem File Microsoft Windows

Anda dapat menyiapkan Google Cloud Search untuk menampilkan hasil dari berbagi Microsoft Windows organisasi Anda selain konten Google Workspace Anda. Anda menggunakan konektor Sistem File Cloud Search dan mengonfigurasinya untuk mengakses berbagi Windows yang ditentukan. Satu instance konektor dapat mendukung beberapa file yang dibagikan Microsoft Windows.

Pertimbangan penting

Sebelum men-deploy konektor Sistem File, tinjau pertimbangan berikut.

Update otomatis berkelanjutan

Secara default, konektor terus memantau jalur awal (nilai dari fs.src dalam file konfigurasi) saat dimulai. Saat sistem file melaporkan perubahan pada konten atau kontrol akses, konektor akan meng-crawl ulang sistem file. Pengindeksan ulang ini dapat menggunakan banyak resource. Untuk menonaktifkan pemantauan, tetapkan fs.monitorForUpdates ke false. Hal ini mengurangi penggunaan resource, tetapi menunda waktu konektor mencerminkan perubahan. Pelajari lebih lanjut

Kontrol akses DFS

Sistem DFS menerapkan kontrol akses pada link-nya, dan biasanya setiap link DFS memiliki ACL sendiri. DFS menggunakan Enumerasi Berbasis Akses (ABE) untuk membatasi link yang ditampilkan kepada pengguna. Pengguna mungkin hanya melihat subset link DFS atau hanya satu link ketika ABE mengisolasi direktori beranda. Saat melintasi sistem DFS, konektor mematuhi ACL link DFS dan ACL yang Dibagikan milik target; ACL yang Dibagikan diwarisi dari ACL DFS.

Batasan umum

Bagian ini mencantumkan batasan umum konektor sistem file.

  • Sistem File: Konektor tidak mendukung drive lokal atau yang dipetakan.
  • Sistem File Terdistribusi: Drive yang dipetakan ke DFS UNC tidak berfungsi dengan baik, dan beberapa ACL mungkin tidak terbaca dengan benar.
  • Konektor mendukung namespace dan link DFS, tetapi tidak mendukung folder biasa di namespace DFS.
  • Link file di cloudsearch.google.com atau yang ditampilkan oleh Query API tidak dapat diklik di sebagian besar browser.

Persyaratan sistem

Sebelum Anda men-deploy konektor Sistem File, pastikan mesin host memenuhi persyaratan berikut:

Persyaratan sistem
Sistem operasi
  • Windows Server 2016
  • Windows Server 2012
  • Windows Server 2008 R2
Software
  • Java JRE 1.8 yang diinstal di komputer yang menjalankan konektor
Protokol sistem file
  • Blok Pesan Server (SMB) - SMB1
  • Blok Pesan Server (SMB) - SMB2
  • Sistem File Terdistribusi (DFS)

Tidak didukung: Sistem file Windows lokal, NFS 2.0, NFS 3.0, atau sistem file Linux lokal.

Deploy konektor

Ikuti langkah-langkah berikut untuk men-deploy konektor Sistem File.

Prasyarat

Sebelum Anda men-deploy konektor, pastikan lingkungan Anda memiliki komponen berikut:

Izin akun Microsoft Windows yang diperlukan

Akun Windows yang menjalankan konektor harus memiliki izin untuk:

  • Mencantumkan konten folder.
  • Membaca konten dokumen.
  • Membaca atribut file dan folder.
  • Membaca izin (ACL) untuk file dan folder.
  • Menulis atribut dasar.

Keanggotaan dalam salah satu grup ini biasanya memberikan izin yang memadai: Administrator, Pengguna Canggih, Operator Cetak, atau Operator Server.

Langkah 1. Menginstal konektor

Download atau clone repositori konektor dari GitHub, lalu bangun paket konektor.

  1. Dapatkan repositori konektor dari GitHub dan bangun.

    Untuk menggunakan git di server Windows:

    > git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git
    > cd windows-filesystems-connector
    > git checkout tags/v1-0.0.3

    Untuk mendownload secara langsung:

    1. Buka windows-filesystems-connector.
    2. Klik Clone or download > Download zip.
    3. Ekstrak paket dan pindahkan ke direktori.
  2. Buat konektor menggunakan Apache Maven:

    > mvn package
    Untuk melewati pengujian, gunakan mvn package -DskipTests.

  3. Ekstrak file zip konektor ke direktori penginstalan Anda:

    > cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir
    > cd installation-dir
    > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip
    > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3

Langkah 2. Membuat file konfigurasi

Setelah menginstal konektor, buat file konfigurasi yang berisi setelan untuk konektor.

  1. Di direktori konektor, buat file bernama connector-config.properties.
  2. Tambahkan parameter sebagai key-value pair. Contoh:

    # Required parameters
    api.serviceAccountPrivateKeyFile=/path/to/file.json
    api.sourceId=0123456789abcde
    api.identitySourceId=a1b1c1234567
    
    # File system access
    fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace
    
    # Optional parameters
    traverse.abortAfterExceptions=500
    fs.monitorForUpdates = true
    fs.preserveLastAccessTime = IF_ALLOWED
    

    Lihat Referensi parameter konfigurasi untuk parameter khusus sistem file. Untuk mengetahui daftar parameter umum yang digunakan oleh semua konektor Cloud Search, lihat Parameter konektor yang disediakan Google.

Langkah 3. Aktifkan logging

Buat direktori untuk log dan buat file konfigurasi logging.

  1. Buat folder bernama logs di direktori konektor.
  2. Buat file bernama logging.properties dengan konten ini:

    handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler
    # Default log level
    .level = WARNING
    com.google.enterprise.cloudsearch.level = INFO
    com.google.enterprise.cloudsearch.fs.level = INFO
    
    # uncomment line below to increase logging level to enable API trace
    #com.google.api.client.http.level = FINE
    java.util.logging.ConsoleHandler.level = INFO
    java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log
    java.util.logging.FileHandler.limit=10485760
    java.util.logging.FileHandler.count=10
    java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
    

Langkah 4. (Opsional) Mengonfigurasi jenis media

Konektor mencoba mendeteksi jenis media file menggunakan mekanisme defaultnya yang, di Windows, bergantung pada entri registri. Jika entri registry untuk ekstensi file tidak ada, konektor mungkin gagal mendeteksi jenis media dengan benar. Jika jenis media tidak terdeteksi dengan benar, atau jika Anda ingin mengganti jenis default untuk ekstensi, ikuti langkah-langkah berikut:

  1. Buat file bernama mime-type.properties di direktori konektor.
  2. Masukkan ekstensi dan jenis sebagai extension=media/type: properties xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf

Langkah 5. Menjalankan konektor Sistem File

Luncurkan konektor dari mesin host:

> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]

Secara default, konektor mencari file konfigurasi bernama connector-config.properties di direktori tempat konektor dijalankan. Jika file konfigurasi Anda memiliki nama yang berbeda atau berada di direktori lain, gunakan parameter -Dconfig untuk menentukan jalur file tersebut.

Referensi parameter konfigurasi

Tabel berikut mencantumkan dan menjelaskan parameter yang digunakan untuk mengonfigurasi konektor Sistem File.

Akses sumber data

Setelan Parameter
ID sumber data api.sourceId=1234567890abcdef

Wajib. ID sumber Cloud Search.

Akun layanan api.serviceAccountPrivateKeyFile=./PrivateKey.json

Wajib. Jalur ke file kunci akun layanan.

ID sumber identitas api.identitySourceId=x0987654321

Wajib. ID sumber identitas Cloud Search yang disiapkan oleh administrator Google Workspace guna menyinkronkan identitas Active Directory menggunakan GCDS.

Akses sistem file

Gunakan parameter ini untuk menentukan sumber sistem file yang akan di-crawl.

Setelan Parameter
Sistem file sumber fs.src=path1[,path2, ...]

Wajib. Tentukan sistem file sumber sebagai satu atau beberapa sumber UNC yang dipisahkan oleh pembatas yang dikonfigurasi oleh fs.src.separator. Jika Anda menggunakan karakter yang tidak ada di Latin1, encode karakter tersebut dengan escape Unicode Java.

Karakter pemisah lokasi

Setelan Parameter
Karakter pemisah lokasi fs.src.separator=separator-character

Pemisah default adalah ";". Jika jalur sumber Anda berisi titik koma, Anda dapat menetapkan pembatas yang berbeda, seperti koma (","), yang tidak bentrok dengan karakter di jalur Anda dan tidak dipesan oleh sintaks file properti itu sendiri.

Jika nilai fs.src.separator adalah string kosong, nilai fs.src akan diperlakukan sebagai jalur tunggal.

Perilaku konektor

Gunakan parameter ini untuk menyesuaikan cara konektor meng-crawl sistem file.

Setelan Parameter
Domain Windows fs.supportedDomain=domain

Diperlukan agar pengguna yang telah disiapkan dengan GCDS dapat mengakses dokumen melalui Cloud Search. Tentukan sebagai satu nama domain NetBIOS Active Directory.

Sertakan akun dalam ACLS fs.supportedAccounts=account-1[, account-2,...]

Daftar akun yang dipisahkan koma untuk disertakan dalam ACL, terlepas dari apakah akun tersebut adalah akun bawaan atau tidak.

Nilai defaultnya adalah BUILTIN\\Administrators,Everyone,BUILTIN\\Users, BUILTIN\\Guest,NT AUTHORITY\\INTERACTIVE, NT AUTHORITY\\Authenticated Users

Mengecualikan akun bawaan dari ACL fs.builtinGroupPrefix=prefix

Tentukan awalan akun bawaan. Akun yang diawali dengan awalan ini dianggap sebagai akun bawaan dan akan dikecualikan dari ACL.

Nilai defaultnya adalah BUILTIN\\

Mengizinkan pengindeksan file dan folder tersembunyi fs.crawlHiddenFiles=boolean

Setel ke true untuk meng-crawl file tersembunyi. Defaultnya adalah false.

Mengizinkan pengindeksan daftar folder yang di-crawl dan enumerasi Namespace DFS fs.indexFolders=boolean

Jika disetel ke true (default), saat meng-crawl folder, konektor akan membuat objek CONTAINER_ITEM. Jika disetel ke false, konektor akan membuat objek VIRTUAL_CONTAINER_ITEM.

Mengaktifkan pemantauan perubahan sistem file fs.monitorForUpdates=boolean

Jika disetel ke true (default), konektor akan otomatis melakukan crawl ulang saat ada perubahan pada konten atau kontrol akses. Menyetelnya ke false akan mengurangi penggunaan resource, tetapi menunda seberapa cepat perubahan ditampilkan dalam hasil penelusuran.

Tetapkan ukuran maksimum cache direktori fs.directoryCacheSize=number-of-entries

Ukuran maksimum cache direktori. Konektor menggunakan cache untuk mengidentifikasi folder tersembunyi guna menghindari pengindeksan file dan folder di folder tersembunyi.

Defaultnya adalah 50.000 entri, yang biasanya memakai RAM sebesar 10–15 megabyte.

Mempertahankan stempel waktu

Gunakan parameter ini untuk menentukan cara konektor menangani pelestarian stempel waktu.

Setelan Parameter
Mempertahankan waktu akses fs.preserveLastAccessTime=value

Saat meng-crawl file dan folder, konektor dapat mengubah stempel waktu akses terakhirnya menjadi waktu crawl. Jika waktu akses terakhir tidak dipertahankan, sistem backup dan arsip mungkin tidak memindahkan file dan folder yang sesuai ke penyimpanan sekunder karena konektor mengaksesnya.

Secara default, fs.preserveLastAccessTime disetel ke ALWAYS, yang berarti konektor mencoba mempertahankan waktu akses terakhir. Jika akun pengguna yang menjalankan konektor tidak memiliki hak istimewa untuk menulis atribut file, konektor tidak dapat memulihkan waktu akses terakhir. Jika disetel ke ALWAYS dan konektor tidak dapat mempertahankan waktu akses terakhir, konektor akan menolak permintaan crawl untuk sistem file sehingga tidak mengubah stempel waktu file.

Nilai yang mungkin mencakup:

  • ALWAYS: Konektor mencoba mempertahankan waktu akses terakhir saat meng-crawl file dan folder. Jika tidak dapat mempertahankan waktu akses terakhir, konektor akan menolak semua permintaan crawl selanjutnya untuk sistem file guna mencegah perubahan stempel waktu.
  • IF_ALLOWED: Konektor mencoba mempertahankan waktu akses terakhir saat melakukan crawling file dan folder. Crawler ini terus meng-crawl meskipun beberapa stempel waktu mungkin tidak dipertahankan.
  • NEVER: Konektor tidak berusaha mempertahankan waktu akses terakhir.
Hanya crawl file yang diakses setelah tanggal tertentu fs.lastAccessedDate=YYYY-MM-DD

Meng-crawl konten hanya jika waktu akses terakhir adalah setelah tanggal yang ditentukan (format YYYY-MM-DD, ISO8601). Defaultnya adalah disabled. Misalnya, 2010-01-01 meng-crawl konten yang diakses setelah awal tahun 2010. Tidak dapat digunakan dengan fs.lastAccessedDays.

Hanya crawl file yang diakses dalam beberapa hari terakhir fs.lastAccessedDays=number-of-days

Meng-crawl konten hanya jika waktu akses terakhir berada dalam jumlah hari yang ditentukan dari saat ini. Defaultnya adalah disabled. Berguna untuk mengakhiri masa berlaku konten lama; misalnya, 365 meng-crawl konten yang diakses dalam setahun terakhir. Tidak dapat digunakan dengan fs.lastAccessedDate.

Hanya merayapi file yang diubah setelah tanggal tertentu fs.lastModifiedDate=YYYY-MM-DD

Merayapi konten hanya jika waktu modifikasi terakhir adalah setelah tanggal yang ditentukan (YYYY-MM-DD, format ISO8601). Defaultnya adalah disabled. Misalnya, 2010-01-01 meng-crawl konten yang diubah setelah awal tahun 2010. Tidak dapat digunakan dengan fs.lastModifiedDays.

Hanya crawl file yang diubah dalam jumlah hari terakhir fs.lastModifiedDays=number-of-days

Merayapi konten hanya jika waktu modifikasi terakhir berada dalam jumlah hari yang ditentukan dari saat ini. Defaultnya adalah disabled. Berguna untuk mengakhiri masa berlaku konten lama; misalnya, 365 merayapi konten yang dimodifikasi dalam setahun terakhir. Tidak dapat digunakan dengan fs.lastModifiedDate.

Melewati ACL berbagi file

Anda dapat menyetel konektor untuk mengabaikan ACL berbagi jika tidak memiliki izin untuk membacanya. Konten kemudian ditampilkan dengan ACL berbagi yang permisif.

Setelan Parameter
Lewati ACL berbagi fs.skipShareAccessControl=boolean

Setel ke true untuk mengabaikan ACL berbagi. Defaultnya adalah false.