आपके पास Google Cloud Search सेट अप करने का विकल्प होता है. इससे Google Workspace के कॉन्टेंट के साथ-साथ, अपने संगठन के Microsoft Windows के शेयर किए गए कॉन्टेंट से भी नतीजे दिखाए जा सकते हैं. Google Cloud Search फ़ाइल सिस्टम कनेक्टर का इस्तेमाल करें और इसे Windows के लिए तय किए गए शेयर को ऐक्सेस करने के लिए कॉन्फ़िगर करें. एक कनेक्टर इंस्टेंस पर, Microsoft Windows पर एक से ज़्यादा फ़ाइलें शेयर की जा सकती हैं.
ज़रूरी बातें
अपने-आप होने वाले लगातार अपडेट
डिफ़ॉल्ट रूप से, कनेक्टर चालू होने पर स्टार्ट पाथ (कनेक्टर कॉन्फ़िगरेशन फ़ाइल में fs.src
से ली गई वैल्यू) को लगातार मॉनिटर करता है. जब फ़ाइल सिस्टम रिपोर्ट, कॉन्टेंट या ऐक्सेस कंट्रोल में बदलाव करता है, तब फ़ाइल सिस्टम को फिर से क्रॉल करने के लिए कनेक्टर ट्रिगर हो जाता है. इस री-क्रॉलिंग में, बहुत से संसाधन का इस्तेमाल हो सकता है. फ़ाइल सिस्टम को मॉनिटर करने की सुविधा बंद करने के लिए, fs.monitorForUpdates
को false
पर सेट करें. कनेक्टर के संसाधनों के इस्तेमाल को कम कर दिया जाता है, लेकिन कनेक्टर से बदलावों को दिखने में देरी हो जाती है. ज़्यादा जानें
डीएफ़एस का ऐक्सेस कंट्रोल
डीएफ़एस सिस्टम अपने लिंक पर ऐक्सेस कंट्रोल लागू करता है. आम तौर पर, हर डीएफ़एस लिंक का अपना ACL होता है. डीएफ़एस, ऐक्सेस-आधारित गिनती (एबीई) का इस्तेमाल करने वाला एक तरीका है. यह उपयोगकर्ता को वापस किए गए डीएफ़एस लिंक को सीमित कर सकता है. ऐसा हो सकता है कि उपयोगकर्ताओं को डीएफ़एस लिंक का सिर्फ़ एक सबसेट दिखे या जब ABE होस्ट की गई होम डायरेक्ट्री को अलग करे, तब उन्हें सिर्फ़ एक लिंक दिखे. जब कनेक्टर किसी DFS सिस्टम को पार करता है, तो कनेक्टर DFS लिंक ACL और टारगेट के Share ACL का पालन करता है और Share ACL को DFS ACL से इनहेरिट किया जाता है.
सीमाएं
- फ़ाइल सिस्टम: फ़ाइल सिस्टम कनेक्टर, मैप की गई ड्राइव और लोकल ड्राइव के साथ काम नहीं करता.
- डिस्ट्रिब्यूट किया गया फ़ाइल सिस्टम: किसी यूएनसी DFS पर मैप की गई ड्राइव ठीक से काम नहीं करती है. कुछ ACL ठीक से नहीं पढ़े जा सकते.
- फ़ाइल सिस्टम कनेक्टर, डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (DFS) नेमस्पेस और लिंक के साथ काम करता है. हालांकि, कनेक्टर सिर्फ़ DFS नेमस्पेस में DFS लिंक के साथ काम करता है, DFS नेमस्पेस में सामान्य फ़ोल्डर के लिए नहीं.
- cloudsearch.google.com पर लौटाए गए फ़ाइल लिंक, क्लिक नहीं किए जा सकते. क्वेरी एपीआई से मिले फ़ाइल लिंक भी ज़्यादातर ब्राउज़र में क्लिक नहीं किए जा सकते.
सिस्टम की ज़रूरतें
सिस्टम की ज़रूरतें | |
---|---|
ऑपरेटिंग सिस्टम |
|
सॉफ़्टवेयर |
|
फ़ाइल सिस्टम के प्रोटोकॉल |
इस्तेमाल नहीं किया जा सकता: लोकल Windows फ़ाइल सिस्टम, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 या लोकल Linux फ़ाइल सिस्टम. |
कनेक्टर को डिप्लॉय करें
ज़रूरी शर्तें
Cloud Search फ़ाइल सिस्टम कनेक्टर डिप्लॉय करने से पहले, पक्का करें कि आपके एनवायरमेंट में ये सभी ज़रूरी कॉम्पोनेंट मौजूद हों:
Google Cloud Search और डेटा सोर्स के बीच संबंध बनाने के लिए, Google Workspace की ज़रूरी जानकारी:
- Google Workspace निजी कुंजी (जिसमें सेवा खाता आईडी होती है). निजी कुंजी पाने के बारे में जानकारी पाने के लिए, Google Cloud Search REST API का ऐक्सेस कॉन्फ़िगर करें पर जाएं.
- Google Workspace डेटा सोर्स आईडी. डेटा सोर्स आईडी पाने के बारे में जानकारी पाने के लिए, खोजने के लिए डेटा सोर्स जोड़ें पर जाएं.
- आइडेंटिटी सोर्स आईडी. आइडेंटिटी सोर्स आईडी पाने का तरीका जानने के लिए, पहचान सोर्स बनाएं पर जाएं. अगर Google Workspace डायरेक्ट्री को Active Directory के साथ सिंक किया जाता है, तो GCDS की मदद से आइडेंटिटी सोर्स सेट अप करें.
आम तौर पर, आपके संगठन का Google Workspace एडमिन आपको ये क्रेडेंशियल दे सकता है.
पक्का करें कि Windows खाते के पास ज़रूरी अनुमतियां हों, जैसा कि इस सेक्शन में बताया गया है.
Microsoft Windows खाते के लिए ज़रूरी अनुमतियां
जिस Microsoft Windows खाते के तहत कनेक्टर चल रहा है उसमें ये कार्रवाइयां करने के लिए ज़रूरी अनुमतियां होनी चाहिए:
- फ़ोल्डर के कॉन्टेंट की सूची बनाएं
- दस्तावेज़ों का कॉन्टेंट पढ़ें
- फ़ाइलों और फ़ोल्डर के एट्रिब्यूट पढ़ें
- फ़ाइलों और फ़ोल्डर, दोनों के लिए अनुमतियां (एसीएल) पढ़ने की अनुमति
- बुनियादी एट्रिब्यूट की अनुमतियां लिखें
इनमें से किसी एक ग्रुप की सदस्यता से, Windows खाते को कनेक्टर के लिए ज़रूरी अनुमतियां मिल जाती हैं:
- एडमिन
- जानकार उपयोगकर्ता
- प्रिंट ऑपरेटर
- सर्वर ऑपरेटर
पहला चरण. Google Cloud Search File Systems कनेक्टर इंस्टॉल करें
GitHub से कनेक्टर रिपॉज़िटरी लें और उसे बनाएं.
Windows सर्वर पर git का इस्तेमाल करने के लिए:
डेटा स्टोर करने की जगह का क्लोन बनाएं:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
कनेक्टर का मनचाहा वर्शन देखें:
> git checkout tags/v1-0.0.3
सीधे GitHub से डाउनलोड करने के लिए:
- https://github.com/google-cloudsearch/windows-filesystems-connector पर जाएं.
- क्लोन करें या डाउनलोड करें zip डाउनलोड करें पर क्लिक करें.
- पैकेज को अनज़िप करें.
- नई डायरेक्ट्री में ले जाएं:
> cd windows-filesystems-connector
कनेक्टर बनाएं. अगर ज़रूरी हो, तो Apache Maven इंस्टॉल करें.
> mvn package
कनेक्टर बनाते समय टेस्ट स्किप करने के लिए,
mvn package
के बजायmvn package -DskipTests
चलाएं.कनेक्टर की ZIP फ़ाइल को, अपनी लोकल इंस्टॉलेशन डायरेक्ट्री में कॉपी करें:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
दूसरा चरण. कनेक्टर कॉन्फ़िगरेशन फ़ाइल बनाएं
कनेक्टर इंस्टॉल करने वाली डायरेक्ट्री में ही एक फ़ाइल बनाएं और उसे
connector-config.properties
नाम दें.नीचे दिए गए उदाहरण की तरह, फ़ाइल के कॉन्टेंट में पैरामीटर को की/वैल्यू पेयर के तौर पर जोड़ें:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
हर पैरामीटर की पूरी जानकारी पाने के लिए, कॉन्फ़िगरेशन पैरामीटर के रेफ़रंस पेज पर जाएं.
(ज़रूरी नहीं) ज़रूरत के हिसाब से दूसरे कनेक्टर पैरामीटर कॉन्फ़िगर करें. ज़्यादा जानकारी के लिए, Google के दिए गए कनेक्टर पैरामीटर पर जाएं.
तीसरा चरण. प्रवेश करना सक्षम करें
- कनेक्टर बाइनरी वाली डायरेक्ट्री में,
logs
नाम का फ़ोल्डर बनाएं. कनेक्टर बाइनरी वाली डायरेक्ट्री में,
logging.properties
नाम की ASCII या UTF-8 फ़ाइल बनाएं और उसमें यह कॉन्टेंट जोड़ें:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
चरण 4. (ज़रूरी नहीं) मीडिया टाइप कॉन्फ़िगर करें
डिफ़ॉल्ट रूप से, कनेक्टर हर फ़ाइल के लिए मीडिया टाइप का पता लगाने की कोशिश करता है. इसके लिए, JDK से दिया गया मीडिया टाइप डिटेक्शन इस्तेमाल किया जाता है. Microsoft Windows पर, फ़ाइलों के लिए मीडिया प्रकार तय करने के लिए JDK, Windows रजिस्ट्री पर निर्भर करता है. रजिस्ट्री एंट्री मौजूद न होने की वजह से, कुछ फ़ाइलों के लिए मीडिया टाइप शून्य हो सकता है.
ज़रूरी होने पर, मीडिया का ऐसा टाइप चुना जा सकता है जो किसी मौजूदा बाइंडिंग को ओवरराइट कर देता है या शून्य मीडिया टाइप को रोकता है.
- कनेक्टर डायरेक्ट्री में,
mime-type.properties
नाम की लैटिन-1 एन्क्रिप्ट की गई फ़ाइल बनाएं. फ़ाइल एक्सटेंशन और उनसे जुड़े मीडिया टाइप डालें, जैसा कि नीचे दिए गए उदाहरणों में दिखाया गया है:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
चरण 5: File सिस्टम कनेक्टर चलाएं
फ़ाइल सिस्टम कनेक्टर को इंस्टॉल और कॉन्फ़िगर करने के बाद, उसे होस्ट मशीन पर लॉन्च करने के लिए, इस उदाहरण की तरह एक कमांड चलाएं:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
अगर कॉन्फ़िगरेशन फ़ाइल पाथ डिफ़ॉल्ट से अलग है, तो उसका नाम डालें (वही डायरेक्ट्री जिसमें connector-config.properties
नाम वाली बाइनरी है).
कॉन्फ़िगरेशन पैरामीटर के बारे में जानकारी
डेटा स्रोत का ऐक्सेस
सेटिंग | पैरामीटर |
डेटा सोर्स आईडी | api.sourceId=1234567890abcdef
ज़रूरी है. Google Cloud Search का सोर्स आईडी, जिसे Google Workspace एडमिन ने सेट अप किया हो. |
सेवा खाते की निजी कुंजी फ़ाइल का पाथ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
ज़रूरी है. Google Cloud Search फ़ाइल सिस्टम कनेक्टर की सुलभता के लिए, Google Cloud Search सेवा खाते की कुंजी फ़ाइल. |
पहचान स्रोत आईडी | api.identitySourceId=x0987654321
ज़रूरी है. Cloud Search आइडेंटिटी सोर्स आईडी, जिसे Google Workspace एडमिन ने GCDS का इस्तेमाल करके, ऐक्टिव डायरेक्ट्री की पहचान सिंक करने के लिए सेट अप किया है. |
फ़ाइल सिस्टम का ऐक्सेस
सेटिंग | पैरामीटर |
सोर्स फ़ाइल सिस्टम | fs.src=path1[,path2, ...]
ज़रूरी है. सोर्स फ़ाइल सिस्टम को एक या एक से ज़्यादा UNC सोर्स के तौर पर बताएं, जिन्हें |
पाथ सेपरेटर वर्ण
सेटिंग | पैरामीटर |
पाथ सेपरेटर वर्ण | fs.src.separator=separator-character
डिफ़ॉल्ट सेपरेटर ";" चिह्न है. अगर आपके सोर्स पाथ में सेमीकोलन हैं, तो अलग डीलिमिटर सेट किया जा सकता है, जैसे कि कॉमा (","), जो आपके पाथ के वर्णों के साथ मेल नहीं खाता. साथ ही, यह प्रॉपर्टी फ़ाइल सिंटैक्स के लिए रिज़र्व नहीं है. अगर |
कनेक्टर का व्यवहार
सेटिंग | पैरामीटर |
Windows डोमेन | fs.supportedDomain=domain
जिन उपयोगकर्ताओं ने GCDS के साथ सेट अप किया है उन्हें Cloud Search के ज़रिए दस्तावेज़ ऐक्सेस करने की अनुमति देना ज़रूरी है. Active Directory के एक NetBIOS डोमेन नेम के तौर पर बताएं. |
ACLS में खाते शामिल करें | fs.supportedAccounts=account-1[, account-2,...]
ACL में शामिल करने के लिए, कॉमा से अलग की गई खातों की सूची. भले ही, वे पहले से मौजूद खाते हों. डिफ़ॉल्ट वैल्यू |
ACL से पहले से मौजूद खातों को बाहर रखें | fs.builtinGroupPrefix=prefix
डिवाइस में पहले से मौजूद खातों के शुरू होने का समय डालें. इस प्रीफ़िक्स से शुरू होने वाले खाते को पहले से मौजूद खाता माना जाता है और उसे एसीएल (ACL) से बाहर रखा जाएगा. डिफ़ॉल्ट वैल्यू |
छिपी हुई फ़ाइलों और फ़ोल्डर को इंडेक्स करने की अनुमति दें | fs.crawlHiddenFiles=boolean
कनेक्टर को छिपी हुई फ़ाइलों और फ़ोल्डर को क्रॉल करने की अनुमति देने के लिए, |
क्रॉल किए गए फ़ोल्डर की लिस्टिंग और डीएफ़एस नेमस्पेस की सूची को इंडेक्स करने की अनुमति दें | fs.indexFolders=boolean
|
फ़ाइल सिस्टम में हुए बदलाव को मॉनिटर करने की सुविधा चालू करें | fs.monitorForUpdates=boolean
अगर नीति को |
डायरेक्ट्री की कैश मेमोरी का ज़्यादा से ज़्यादा साइज़ सेट करें | fs.directoryCacheSize=number-of-entries
कैश मेमोरी में सेव की गई डायरेक्ट्री का ज़्यादा से ज़्यादा साइज़. कनेक्टर, छिपे हुए फ़ोल्डर की पहचान करने के लिए कैश मेमोरी का इस्तेमाल करता है. इससे छिपे हुए फ़ोल्डर में मौजूद फ़ाइलों और फ़ोल्डर को इंडेक्स नहीं किया जाता. डिफ़ॉल्ट रूप से, यह 50,000 एंट्री होती है, जिसमें आम तौर पर 10–15 मेगाबाइट रैम का इस्तेमाल होता है. |
टाइमस्टैंप संरक्षण और क्रॉल कंट्रोल
सेटिंग | पैरामीटर |
आखिरी बार ऐक्सेस किए जाने का टाइमस्टैंप सुरक्षित रखें | fs.preserveLastAccessTime=value
जब कनेक्टर फ़ाइलों और फ़ोल्डर को क्रॉल करता है, तो कनेक्टर फ़ाइलों और फ़ोल्डर के आखिरी ऐक्सेस टाइमस्टैंप को क्रॉल के समय में बदल सकता है. ऐसा हो सकता है कि पिछली बार ऐक्सेस किए जाने के समय को सुरक्षित न किया जाए. ऐसा हो सकता है कि कनेक्टर के विज़िट की वजह से, बैकअप और संग्रह सिस्टम, सही फ़ाइलों और फ़ोल्डर को सेकंडरी स्टोरेज में न ले जाएं. डिफ़ॉल्ट रूप से, कनेक्टर आखिरी ऐक्सेस समय ( जितनी तरह के साइटमैप हो सकते हैं उनकी जानकारी यहां दी गई है:
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें किसी तय तारीख के बाद ऐक्सेस किया गया हो | fs.lastAccessedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब उसे पिछली बार ऐक्सेस किए जाने का समय, तय की गई तारीख के बाद का हो. डिफ़ॉल्ट वैल्यू तारीख ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 01-01-2010 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करता है जिसे 2010 की शुरुआत के बाद ऐक्सेस किया गया था.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें पिछले कुछ दिनों में ऐक्सेस किया गया है | fs.lastAccessedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल किया जा सकता है, जब उसे पिछली बार ऐक्सेस करने का समय, मौजूदा समय से पहले के दिनों के अंदर हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल करके, इंडेक्स किए गए उस कॉन्टेंट की समयसीमा खत्म करें जिसे कुछ समय से ऐक्सेस नहीं किया गया है. उदाहरण के लिए, कॉन्टेंट को क्रॉल करने के लिए 365 पर सेट करें. ऐसा तब करें, जब कॉन्टेंट को पिछले साल ऐक्सेस किया गया हो.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें किसी तय तारीख के बाद बदलाव किए गए थे | fs.lastModifiedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब पिछली बार किए गए बदलाव की तारीख, तय की गई तारीख के बाद की हो. डिफ़ॉल्ट वैल्यू तारीख ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 01-01-2010 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करता है जिसमें 2010 की शुरुआत के बाद बदलाव किया गया था.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें पिछले कुछ दिनों में बदलाव किए गए हैं | fs.lastModifiedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब पिछली बार किए गए बदलाव की तारीख, उससे पहले के दिनों की संख्या के अंदर हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल, इंडेक्स किए गए ऐसे कॉन्टेंट की समयसीमा खत्म करने के लिए करें जिसमें कुछ समय से कोई बदलाव नहीं किया गया है. उदाहरण के लिए, अगर कॉन्टेंट को पिछले साल बदला गया हो, तो उसे क्रॉल करने के लिए 365 पर सेट करें.
|
फ़ाइल शेयर करने के ऐक्सेस कंट्रोल को छोड़ें
जब कनेक्टर, इंडेक्स करने वाले एपीआई को ऐक्सेस कंट्रोल सूचियां (एसीएल) भेजता है, तो डिफ़ॉल्ट रूप से यह ऐक्सेस कंट्रोल को सुरक्षित रखता है. इसमें फ़ाइल शेयर पर मौजूद एसीएल भी शामिल हैं. हालांकि, कुछ कॉन्फ़िगरेशन में शायद कनेक्टर के पास ACL को शेयर करने की अनुमति न हो. ऐसे मामलों में, कनेक्टर उस फ़ाइल शेयर पर मौजूद किसी भी फ़ाइल को खोज के नतीजों में नहीं दिखाता है.
आप कनेक्टर को ACL को शेयर करने की अनुमति न देने के लिए सेट कर सकते हैं, ताकि खोज नतीजों में सामग्री हमेशा दिखे. इस स्थिति में, इंडेक्स करने वाले एपीआई को असल शेयर ACL के बजाय पूरी तरह से अनुमति वाली शेयर ACL मिलता है.
सेटिंग | पैरामीटर |
फ़ाइल शेयर करने के ऐक्सेस कंट्रोल को छोड़ें | fs.skipShareAccessControl=boolean
शेयर ACL लागू करने के लिए |