คุณจะตั้งค่า Google Cloud Search ให้แสดงผลการค้นหาจาก Microsoft Windows ขององค์กรที่แชร์ได้ นอกเหนือจากเนื้อหา Google Workspace ของคุณ คุณสามารถใช้เครื่องมือเชื่อมต่อระบบไฟล์ของ Google Cloud Search และกำหนดค่าให้เข้าถึงการแชร์ของ Windows ที่ระบุ อินสแตนซ์เครื่องมือเชื่อมต่อ 1 อินสแตนซ์สามารถรองรับการแชร์ Microsoft Windows ได้หลายรายการ
สิ่งสำคัญที่ควรพิจารณา
การอัปเดตอัตโนมัติอย่างต่อเนื่อง
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะตรวจสอบเส้นทางเริ่มต้นอย่างต่อเนื่อง (ค่าจาก fs.src
ในไฟล์การกำหนดค่าเครื่องมือเชื่อมต่อ) เมื่อเครื่องมือเชื่อมต่อเริ่มต้นทำงาน เมื่อระบบรายงานการเปลี่ยนแปลงเนื้อหาหรือการควบคุมการเข้าถึง เครื่องมือเชื่อมต่อจะทำงานเพื่อทำการ Crawl ระบบไฟล์อีกครั้ง การ Crawl ซ้ำนี้อาจต้องใช้ทรัพยากรจำนวนมาก หากต้องการปิดการตรวจสอบระบบไฟล์ ให้ตั้งค่า fs.monitorForUpdates
เป็น false
คุณลดการใช้ทรัพยากรของเครื่องมือเชื่อมต่อไปได้มาก แต่ให้หน่วงเวลาเมื่อเครื่องมือเชื่อมต่อแสดงการเปลี่ยนแปลง ดูข้อมูลเพิ่มเติม
การควบคุมการเข้าถึง DFS
ระบบ DFS ใช้การควบคุมการเข้าถึงกับลิงก์ของตัวเอง และโดยทั่วไปลิงก์ DFS แต่ละลิงก์จะมี ACL ของตัวเอง กลไกหนึ่งที่ DFS ใช้คือการแจงนับตามการเข้าถึง (ABE) ซึ่งสามารถจำกัดลิงก์ DFS ที่แสดงต่อผู้ใช้ได้ ผู้ใช้อาจได้รับลิงก์ DFS เพียงชุดย่อย หรือได้รับเพียงลิงก์เดียวเมื่อ ABE แยกไดเรกทอรีหน้าแรกที่โฮสต์ไว้ เมื่อเครื่องมือเชื่อมต่อข้ามผ่านระบบ DFS เครื่องมือเชื่อมต่อจะยึดตาม ACL ของลิงก์ DFS และ ACL การแชร์ของเป้าหมาย และ ACL การแชร์จะรับค่าจาก DFS ACL
ข้อจำกัดที่ทราบ
- ระบบไฟล์: เครื่องมือเชื่อมต่อระบบไฟล์จะไม่รองรับไดรฟ์ที่แมปและไดรฟ์ภายในเครื่อง
- ระบบไฟล์แบบกระจาย: ไดรฟ์ที่แมปไปยัง UNC DFS ทำงานไม่ถูกต้อง ACL บางรายการอ่านไม่ถูกต้อง
- เครื่องมือเชื่อมต่อระบบไฟล์รองรับเนมสเปซและลิงก์ของระบบไฟล์แบบกระจาย (DFS) อย่างไรก็ตาม เครื่องมือเชื่อมต่อรองรับลิงก์ DFS เฉพาะในเนมสเปซ DFS เท่านั้น ไม่ใช่โฟลเดอร์ปกติในเนมสเปซ DFS
- ลิงก์ไฟล์ที่แสดงใน cloudsearch.google.com จะคลิกไม่ได้ ลิงก์ไฟล์ที่แสดงผลโดย API ข้อความค้นหาก็ไม่สามารถคลิกได้ในเบราว์เซอร์ส่วนใหญ่เช่นกัน
ข้อกำหนดของระบบ
ข้อกำหนดของระบบ | |
---|---|
ระบบปฏิบัติการ |
|
ซอฟต์แวร์ |
|
โปรโตคอลระบบไฟล์ |
ไม่รองรับ: ระบบไฟล์ Windows ในเครื่อง, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 หรือระบบไฟล์ Local Linux |
ทำให้เครื่องมือเชื่อมต่อใช้งานได้
ข้อกำหนดเบื้องต้น
ก่อนที่จะทำให้เครื่องมือเชื่อมต่อ Cloud Search File Systems ใช้งานได้ โปรดตรวจสอบว่าสภาพแวดล้อมของคุณมีคอมโพเนนต์ที่จำเป็นต่อไปนี้ทั้งหมด
ข้อมูล Google Workspace ที่จำเป็นต่อการสร้างความสัมพันธ์ระหว่าง Google Cloud Search กับแหล่งข้อมูลมีดังนี้
- คีย์ส่วนตัว Google Workspace (ซึ่งมีรหัสบัญชีบริการ) โปรดดูข้อมูลเกี่ยวกับการรับคีย์ส่วนตัวที่ กำหนดค่าการเข้าถึง Google Cloud Search REST API
- รหัสแหล่งข้อมูล Google Workspace ดูข้อมูลเกี่ยวกับการขอรับรหัสแหล่งข้อมูลได้ที่หัวข้อเพิ่มแหล่งข้อมูลที่จะค้นหา
- รหัสแหล่งที่มาของข้อมูลประจำตัว ดูข้อมูลเกี่ยวกับวิธีรับรหัสแหล่งที่มาของข้อมูลประจำตัวได้ที่หัวข้อสร้างแหล่งที่มาของข้อมูลประจำตัว หากคุณซิงค์ไดเรกทอรี Google Workspace กับ Active Directory ให้ตั้งค่าแหล่งที่มาของข้อมูลประจำตัวด้วย GCDS
โดยปกติแล้วผู้ดูแลระบบ Google Workspace ขององค์กรจะให้ข้อมูลเข้าสู่ระบบเหล่านี้แก่คุณได้
ตรวจสอบว่าบัญชี Windows มีสิทธิ์เพียงพอตามที่อธิบายไว้ในส่วนต่อไปนี้
สิทธิ์ที่จำเป็นของบัญชี Microsoft Windows
บัญชี Microsoft Windows ที่เครื่องมือเชื่อมต่อทำงานอยู่ต้องมีสิทธิ์เพียงพอที่จะดำเนินการต่อไปนี้
- แสดงรายการเนื้อหาของโฟลเดอร์
- อ่านเนื้อหาเอกสาร
- อ่านแอตทริบิวต์ของไฟล์และโฟลเดอร์
- สิทธิ์อ่าน (ACL) สำหรับทั้งไฟล์และโฟลเดอร์
- สิทธิ์การเขียนแอตทริบิวต์พื้นฐาน
การเป็นสมาชิกในกลุ่มใดกลุ่มหนึ่งต่อไปนี้จะให้สิทธิ์แก่บัญชี Windows ที่มีสิทธิ์ที่เพียงพอสำหรับเครื่องมือเชื่อมต่อ
- ผู้ดูแลระบบ
- ผู้ใช้ขั้นสูง
- โอเปอเรเตอร์การพิมพ์
- โอเปอเรเตอร์เซิร์ฟเวอร์
ขั้นตอนที่ 1 ติดตั้งเครื่องมือเชื่อมต่อระบบไฟล์ของ Google Cloud Search
รับที่เก็บเครื่องมือเชื่อมต่อจาก GitHub และสร้าง
วิธีใช้ Git บนเซิร์ฟเวอร์ Windows
โคลนที่เก็บ:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
ตรวจสอบเวอร์ชันเครื่องมือเชื่อมต่อที่ต้องการ:
> git checkout tags/v1-0.0.3
วิธีดาวน์โหลดจาก GitHub โดยตรง
- ไปที่ https://github.com/google-cloudsearch/windows-filesystems-connector
- คลิกโคลนหรือดาวน์โหลด ดาวน์โหลด ZIP
- คลายการบีบอัดแพ็กเกจ
- ย้ายไปยังไดเรกทอรีใหม่:
> cd windows-filesystems-connector
สร้างเครื่องมือเชื่อมต่อ หากจำเป็น ให้ติดตั้ง Apache Maven
> mvn package
หากต้องการข้ามการทดสอบเมื่อสร้างเครื่องมือเชื่อมต่อ ให้เรียกใช้
mvn package -DskipTests
แทนmvn package
คัดลอกไฟล์ ZIP ของเครื่องมือเชื่อมต่อไปยังไดเรกทอรีการติดตั้งในเครื่อง โดยทำดังนี้
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
ขั้นตอนที่ 2 สร้างไฟล์การกำหนดค่าเครื่องมือเชื่อมต่อ
ในไดเรกทอรีเดียวกันกับการติดตั้งเครื่องมือเชื่อมต่อ ให้สร้างไฟล์และตั้งชื่อว่า
connector-config.properties
เพิ่มพารามิเตอร์เป็นคู่คีย์/ค่าลงในเนื้อหาไฟล์ ดังตัวอย่างต่อไปนี้
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
โปรดดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการที่หัวข้อ ข้อมูลอ้างอิงเกี่ยวกับพารามิเตอร์การกําหนดค่า
(ไม่บังคับ) กำหนดค่าพารามิเตอร์เครื่องมือเชื่อมต่ออื่นๆ ตามต้องการ โปรดดูรายละเอียดที่หัวข้อ พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google จัดหา
ขั้นตอนที่ 3 เปิดใช้การบันทึก
- สร้างโฟลเดอร์ชื่อ
logs
ในไดเรกทอรีที่มีไบนารีของเครื่องมือเชื่อมต่อ สร้างไฟล์ ASCII หรือ UTF-8 ชื่อ
logging.properties
ในไดเรกทอรีที่มีไบนารีเครื่องมือเชื่อมต่อ และเพิ่มเนื้อหาต่อไปนี้handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
ขั้นตอนที่ 4 (ไม่บังคับ) กำหนดค่าประเภทสื่อ
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะพยายามตรวจหาประเภทสื่อสำหรับแต่ละไฟล์ที่มีการตรวจหาประเภทสื่อ ที่ JDK มีให้ ส่วนใน Microsoft Windows นั้น JDK จะใช้รีจิสทรีของ Windows เพื่อระบุประเภทสื่อสำหรับไฟล์ การไม่ระบุรายการรีจิสทรีอาจทำให้มีประเภทสื่อเป็น Null สำหรับบางไฟล์
คุณระบุประเภทสื่อที่เขียนทับการเชื่อมโยงที่มีอยู่หรือป้องกันประเภทสื่อที่เป็นค่าว่างได้ หากจำเป็น
- ในไดเรกทอรีเครื่องมือเชื่อมต่อ ให้สร้างไฟล์ที่เข้ารหัส Latin-1 ชื่อ
mime-type.properties
ป้อนนามสกุลไฟล์และประเภทสื่อที่สอดคล้องกันในตัวอย่างต่อไปนี้
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
ขั้นตอนที่ 5: เรียกใช้เครื่องมือเชื่อมต่อระบบไฟล์
หลังจากติดตั้งและกำหนดค่าเครื่องมือเชื่อมต่อระบบไฟล์แล้ว หากต้องการเรียกใช้งานในเครื่องโฮสต์ ให้เรียกใช้คำสั่งดังตัวอย่างต่อไปนี้
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
ระบุเส้นทางของไฟล์การกำหนดค่าหากเส้นทางแตกต่างจากค่าเริ่มต้น (ในไดเรกทอรีเดียวกับไบนารีชื่อ connector-config.properties
)
ข้อมูลอ้างอิงของพารามิเตอร์การกำหนดค่า
การเข้าถึงแหล่งข้อมูล
การเกริ่นนำ | พารามิเตอร์ |
รหัสแหล่งข้อมูล | api.sourceId=1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Google Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่า |
เส้นทางไปยังไฟล์คีย์ส่วนตัวของบัญชีบริการ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Google Cloud Search สำหรับการช่วยเหลือพิเศษของเครื่องมือเชื่อมต่อระบบไฟล์ของ Google Cloud Search |
รหัสแหล่งที่มาของข้อมูลประจำตัว | api.identitySourceId=x0987654321
ต้องระบุ รหัสแหล่งที่มาของข้อมูลประจำตัว Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าเพื่อซิงค์ข้อมูลประจำตัวของไดเรกทอรีที่ใช้งานอยู่โดยใช้ GCDS |
การเข้าถึงระบบไฟล์
การเกริ่นนำ | พารามิเตอร์ |
ระบบไฟล์ต้นฉบับ | fs.src=path1[,path2, ...]
ต้องระบุ ระบุระบบไฟล์ต้นฉบับเป็นแหล่งที่มา UNC อย่างน้อย 1 รายการซึ่งคั่นด้วยตัวคั่นที่กำหนดค่าโดย |
อักขระตัวแบ่งเส้นทาง
การเกริ่นนำ | พารามิเตอร์ |
อักขระตัวแบ่งเส้นทาง | fs.src.separator=separator-character
ตัวคั่นเริ่มต้นคือ ";" หากเส้นทางแหล่งที่มามีเครื่องหมายเซมิโคลอน คุณสามารถกำหนดตัวคั่นอื่น เช่น คอมมา (",") ซึ่งไม่ขัดแย้งกับอักขระในเส้นทางของคุณ และไม่ได้สงวนไว้ตามไวยากรณ์ของไฟล์พร็อพเพอร์ตี้ หากค่า |
การทำงานของเครื่องมือเชื่อมต่อ
การเกริ่นนำ | พารามิเตอร์ |
โดเมน Windows | fs.supportedDomain=domain
จำเป็นต้องอนุญาตให้ผู้ใช้ที่ตั้งค่าด้วย GCDS เข้าถึงเอกสารผ่าน Cloud Search ได้ ระบุเป็นชื่อโดเมน NetBIOS เดียวของ Active Directory |
รวมบัญชีใน ACLS | fs.supportedAccounts=account-1[, account-2,...]
รายการบัญชีที่คั่นด้วยคอมมาเพื่อรวมไว้ใน ACL ไม่ว่าจะเป็นบัญชีที่มีอยู่ในตัวหรือไม่ก็ตาม ค่าเริ่มต้นคือ |
ยกเว้นบัญชีในตัวจาก ACL | fs.builtinGroupPrefix=prefix
ระบุคำนำหน้าของบัญชีในตัว บัญชีที่ขึ้นต้นด้วยคำนำหน้านี้ถือว่าเป็นบัญชีในตัวและจะไม่รวมอยู่ใน ACL ค่าเริ่มต้นคือ |
อนุญาตให้จัดทำดัชนีไฟล์และโฟลเดอร์ที่ซ่อนอยู่ | fs.crawlHiddenFiles=boolean
ตั้งค่าเป็น |
อนุญาตให้จัดทำดัชนีรายการโฟลเดอร์ที่รวบรวมข้อมูลและการแจกแจงเนมสเปซ DFS | fs.indexFolders=boolean
เมื่อตั้งค่าเป็น |
เปิดใช้การตรวจสอบการเปลี่ยนแปลงระบบไฟล์ | fs.monitorForUpdates=boolean
เมื่อตั้งค่าเป็น |
กำหนดขนาดสูงสุดของแคชในไดเรกทอรี | fs.directoryCacheSize=number-of-entries
ขนาดสูงสุดของแคชไดเรกทอรี เครื่องมือเชื่อมต่อจะใช้แคชเพื่อระบุโฟลเดอร์ที่ซ่อน เพื่อหลีกเลี่ยงการจัดทำดัชนีไฟล์และโฟลเดอร์ในโฟลเดอร์ที่ซ่อนอยู่ ค่าเริ่มต้นคือ 50,000 รายการ ซึ่งโดยทั่วไปจะใช้ RAM 10-15 เมกะไบต์ |
การเก็บรักษาการประทับเวลาและการควบคุมการ Crawl
การเกริ่นนำ | พารามิเตอร์ |
เก็บการประทับเวลาการเข้าถึงครั้งล่าสุดไว้ | fs.preserveLastAccessTime=value
เมื่อเครื่องมือเชื่อมต่อรวบรวมข้อมูลไฟล์และโฟลเดอร์ เครื่องมือเชื่อมต่อจะเปลี่ยนการประทับเวลาการเข้าถึงล่าสุดของไฟล์และโฟลเดอร์เป็นเวลาที่มีการ Crawl เมื่อระบบไม่ได้เก็บเวลาเข้าถึงครั้งล่าสุดไว้ ระบบข้อมูลสำรองและที่เก็บถาวรอาจย้ายไฟล์และโฟลเดอร์ที่เหมาะสมไปยังพื้นที่เก็บข้อมูลสํารองไม่ได้เนื่องจากเครื่องมือเชื่อมต่อเข้าชม โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะพยายามรักษาเวลาการเข้าถึงล่าสุดไว้ (ตั้งค่า ค่าที่เป็นไปได้มีดังนี้
|
รวบรวมข้อมูลเฉพาะไฟล์ที่เข้าถึงหลังจากวันที่ที่กำหนด | fs.lastAccessedDate=YYYY-MM-DD
ทำการ Crawl เนื้อหาก็ต่อเมื่อเวลาเข้าถึงครั้งล่าสุดอยู่หลังจากวันที่ที่ระบุ ค่าเริ่มต้นคือ ระบุวันที่ในรูปแบบวันที่ ISO8601 ดังนี้ YYYY-MM-DD ตัวอย่างเช่น ถ้าค่าเป็น 2010-01-01 เครื่องมือเชื่อมต่อจะรวบรวมข้อมูลเฉพาะเนื้อหาที่เข้าถึงหลังจากช่วงต้นปี 2010 หากระบุ |
รวบรวมข้อมูลเฉพาะไฟล์ที่เข้าถึงภายในจำนวนวันที่ผ่านมา | fs.lastAccessedDays=number-of-days
ทำการ Crawl เนื้อหาก็ต่อเมื่อเวลาการเข้าถึงล่าสุดอยู่ภายในจำนวนวันก่อนที่จะปรากฏ ค่าเริ่มต้นคือ ใช้พร็อพเพอร์ตี้นี้เพื่อให้เนื้อหาที่จัดทำดัชนีก่อนหน้านี้หมดอายุซึ่งไม่มีการเข้าถึงมาระยะหนึ่ง เช่น ตั้งค่าเป็น 365 เพื่อรวบรวมข้อมูลเนื้อหาเฉพาะเมื่อมีการเข้าถึงเนื้อหาในปีที่ผ่านมา หากระบุ |
รวบรวมข้อมูลเฉพาะไฟล์ที่แก้ไขหลังจากวันที่หนึ่งๆ | fs.lastModifiedDate=YYYY-MM-DD
ทำการ Crawl เนื้อหาเฉพาะในกรณีที่เวลาที่แก้ไขล่าสุดอยู่หลังจากวันที่ที่ระบุ ค่าเริ่มต้นคือ ระบุวันที่ในรูปแบบวันที่ ISO8601 ดังนี้ YYYY-MM-DD ตัวอย่างเช่น ถ้าค่าคือ 2010-01-01 เครื่องมือเชื่อมต่อจะรวบรวมข้อมูลเฉพาะเนื้อหาที่แก้ไขหลังจากช่วงต้นปี 2010 หากระบุ |
รวบรวมข้อมูลเฉพาะไฟล์ที่มีการแก้ไขภายในจำนวนวันที่ผ่านมา | fs.lastModifiedDays=number-of-days
ทำการ Crawl เนื้อหาเฉพาะในกรณีที่เวลาที่แก้ไขล่าสุดไม่เกินจำนวนวันก่อนที่จะปรากฏ ค่าเริ่มต้นคือ ใช้พร็อพเพอร์ตี้นี้เพื่อให้เนื้อหาที่จัดทำดัชนีไว้ก่อนหน้านี้ซึ่งไม่มีการแก้ไขมาระยะหนึ่ง เช่น ตั้งค่าเป็น 365 เพื่อรวบรวมข้อมูลเนื้อหาเฉพาะในกรณีที่มีการแก้ไขในปีที่ผ่านมา หากระบุ |
ข้ามการควบคุมการเข้าถึงพื้นที่แชร์ไฟล์
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะคงความสมบูรณ์ของการควบคุมการเข้าถึงไว้เมื่อส่งรายการควบคุมการเข้าถึง (ACL) ไปยัง API การจัดทำดัชนี รวมถึง ACL ในพื้นที่แชร์ไฟล์ อย่างไรก็ตาม ในการกำหนดค่าบางรายการ เครื่องมือเชื่อมต่ออาจมีสิทธิ์ไม่เพียงพอที่จะอ่าน ACL ของการแชร์ ในกรณีดังกล่าว เครื่องมือเชื่อมต่อจะไม่แสดงไฟล์ใดๆ ที่อยู่ในพื้นที่แชร์ไฟล์นั้นในผลการค้นหา
คุณสามารถกำหนดเครื่องมือเชื่อมต่อให้ละเว้น ACL การแชร์เพื่อให้เนื้อหาปรากฏในผลการค้นหาเสมอ ในกรณีนี้ API การจัดทำดัชนีจะได้รับ ACL การแชร์ที่ได้รับอนุญาตโดยสมบูรณ์ ไม่ใช่ ACL ของการแชร์จริง
การเกริ่นนำ | พารามิเตอร์ |
ข้ามการควบคุมการเข้าถึงพื้นที่แชร์ไฟล์ | fs.skipShareAccessControl=boolean
ตั้งค่าเป็น |