Google Workspace के कॉन्टेंट के साथ-साथ, अपने संगठन के Microsoft Windows की शेयर की गई रिपोर्ट के नतीजे दिखाने के लिए, Google Cloud Search सेट अप किया जा सकता है. इसके लिए, Google Cloud Search File Systems कनेक्टर का इस्तेमाल किया जाता है और इसे Windows शेयर की खास जानकारी को ऐक्सेस करने के लिए कॉन्फ़िगर किया जाता है. एक कनेक्टर इंस्टेंस, Microsoft Windows के एक से ज़्यादा शेयर के साथ काम कर सकता है.
ज़रूरी बातें
लगातार अपने-आप अपडेट होने की सुविधा
डिफ़ॉल्ट रूप से, जब कनेक्टर शुरू हो जाता है, तब कनेक्टर लगातार स्टार्ट पाथ (कनेक्टर कॉन्फ़िगरेशन फ़ाइल में fs.src
से मिलने वाले मान) पर नज़र रखता है. जब फ़ाइल सिस्टम की रिपोर्ट में कॉन्टेंट या ऐक्सेस कंट्रोल में बदलाव होता है, तो कनेक्टर फ़ाइल सिस्टम को दोबारा क्रॉल करने के लिए ट्रिगर होता है. फिर से क्रॉल करने की प्रोसेस में बहुत ज़्यादा संसाधन लग सकते हैं. फ़ाइल सिस्टम को मॉनिटर करने की सुविधा बंद करने के लिए, fs.monitorForUpdates
को false
पर सेट करें. कनेक्टर के संसाधन का इस्तेमाल काफ़ी कम हो जाता है, लेकिन कनेक्टर के बदलाव दिखाने में देरी होती है. ज़्यादा जानें
DFS ऐक्सेस कंट्रोल
डीएफ़एस सिस्टम अपने लिंक पर ऐक्सेस कंट्रोल लागू करता है और आम तौर पर हर डीएफ़एस लिंक का अपना एसीएल होता है. DFS ऐक्सेस-आधारित इनुमरेशन (ABE) का इस्तेमाल करता है. यह किसी उपयोगकर्ता को लौटाए गए DFS लिंक पर पाबंदी लगा सकता है. ऐसा हो सकता है कि उपयोगकर्ताओं को डीएफ़एस लिंक का सिर्फ़ एक सबसेट मिले या जब एबीई, होस्ट की गई होम डायरेक्ट्री को अलग करे, तो उन्हें सिर्फ़ एक लिंक मिले. जब कनेक्टर किसी डीएफ़एस सिस्टम को ट्रैक करता है, तो कनेक्टर डीएफ़एस लिंक ACL और टारगेट के शेयर ACL को ध्यान में रखता है और शेयर ACL को डीएफ़एस एसीएल से इनहेरिट किया जाता है.
सीमाएं
- फ़ाइल सिस्टम: फ़ाइल सिस्टम कनेक्टर, मैप की गई ड्राइव और लोकल ड्राइव के साथ काम नहीं करता.
- डिस्ट्रिब्यूटेड फ़ाइल सिस्टम: यूएनसी डीएफ़एस में मैप की गई ड्राइव ठीक से काम नहीं करती. कुछ ACL ठीक से नहीं पढ़े गए हैं.
- फ़ाइल सिस्टम कनेक्टर, डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (डीएफ़एस) नेमस्पेस और लिंक के साथ काम करता है. हालांकि, कनेक्टर सिर्फ़ डीएफ़एस नेमस्पेस में डीएफ़एस लिंक के साथ काम करता है, न कि डीएफ़एस नेमस्पेस के सामान्य फ़ोल्डर.
- Cloudsearch.google.com में लौटाए गए फ़ाइल लिंक पर क्लिक नहीं किया जा सकता. क्वेरी एपीआई से मिले फ़ाइल लिंक, ज़्यादातर ब्राउज़र में क्लिक नहीं किए जा सकते.
सिस्टम की ज़रूरतें
सिस्टम की ज़रूरतें | |
---|---|
ऑपरेटिंग सिस्टम |
|
सॉफ़्टवेयर |
|
फ़ाइल सिस्टम प्रोटोकॉल |
काम नहीं करता: लोकल Windows फ़ाइल सिस्टम, सन नेटवर्क फ़ाइल सिस्टम (एनएफ़एस) 2.0, सन नेटवर्क फ़ाइल सिस्टम (एनएफ़एस) 3.0 या लोकल Linux फ़ाइल सिस्टम. |
कनेक्टर को डिप्लॉय करें
ज़रूरी शर्तें
Cloud Search फ़ाइल सिस्टम कनेक्टर को डिप्लॉय करने से पहले, पक्का करें कि आपके एनवायरमेंट में ये सभी ज़रूरी कॉम्पोनेंट शामिल हों:
Google Cloud Search और डेटा सोर्स को एक-दूसरे से जोड़ने के लिए, Google Workspace में मौजूद जानकारी ज़रूरी है:
- Google Workspace निजी पासकोड (जिसमें सेवा खाता आईडी होता है). निजी पासकोड पाने के बारे में जानकारी पाने के लिए, Google Cloud Search REST API का ऐक्सेस कॉन्फ़िगर करें पर जाएं.
- Google Workspace डेटा सोर्स आईडी. डेटा सोर्स आईडी पाने के बारे में जानकारी पाने के लिए, खोजने के लिए डेटा सोर्स जोड़ें पर जाएं.
- पहचान स्रोत आईडी. पहचान स्रोत आईडी पाने के तरीके के बारे में जानकारी के लिए, पहचान स्रोत बनाएं पर जाएं. अगर Google Workspace डायरेक्ट्री को Active Directory के साथ सिंक किया जाता है, तो पहचान के सोर्स को GCDS की मदद से सेट अप करें.
आपके संगठन के Google Workspace एडमिन को ये क्रेडेंशियल मिल सकते हैं.
पक्का करें कि Windows खाते के पास नीचे दिए गए सेक्शन में बताई गई ज़रूरी अनुमतियां हैं.
Microsoft Windows खाते के लिए ज़रूरी अनुमतियां
जिस Microsoft Windows खाते के तहत कनेक्टर चलाया जा रहा है उसके पास ये कार्रवाइयां करने के लिए ज़रूरी अनुमतियां होनी चाहिए:
- फ़ोल्डर के कॉन्टेंट की सूची बनाएं
- दस्तावेज़ों का कॉन्टेंट पढ़ना
- फ़ाइलों और फ़ोल्डर के एट्रिब्यूट पढ़ें
- फ़ाइल और फ़ोल्डर, दोनों के लिए पढ़ने की अनुमतियां (ACL)
- बुनियादी एट्रिब्यूट की अनुमतियां लिखना
इनमें से किसी एक ग्रुप की सदस्यता लेने पर, Windows खाते को कनेक्टर के लिए ज़रूरी अनुमतियां मिल जाती हैं:
- एडमिन
- जानकार उपयोगकर्ता
- प्रिंट ऑपरेटर
- सर्वर ऑपरेटर
पहला चरण. Google Cloud Search File Systems कनेक्टर इंस्टॉल करें
GitHub से कनेक्टर रिपॉज़िटरी पाएं और उसे बनाएं.
Windows सर्वर पर git का इस्तेमाल करने के लिए:
डेटा स्टोर करने की जगह का क्लोन बनाएं:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
कनेक्टर का मनचाहा वर्शन देखें:
> git checkout tags/v1-0.0.3
सीधे GitHub से डाउनलोड करने के लिए:
- https://github.com/google-cloudsearch/windows-filesystems-connector पर जाएं.
- क्लोन करें या डाउनलोड करें ज़िप डाउनलोड करें पर क्लिक करें.
- पैकेज को अनज़िप करें.
- नई डायरेक्ट्री पर जाएं:
> cd windows-filesystems-connector
कनेक्टर बनाएं. अगर ज़रूरी हो, तो Apache Maven इंस्टॉल करें.
> mvn package
कनेक्टर बनाते समय, जांच को स्किप करने के लिए,
mvn package
के बजायmvn package -DskipTests
चलाएं.कनेक्टर की ZIP फ़ाइल को, अपने लोकल इंस्टॉलेशन डायरेक्ट्री में कॉपी करें:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
दूसरा चरण. कनेक्टर कॉन्फ़िगरेशन फ़ाइल बनाएं
कनेक्टर इंस्टॉलेशन वाली डायरेक्ट्री में, एक फ़ाइल बनाएं और उसे
connector-config.properties
नाम दें.फ़ाइल के कॉन्टेंट में पैरामीटर को कुंजी/वैल्यू पेयर के तौर पर जोड़ें, जैसा कि इस उदाहरण में दिखाया गया है:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
हर पैरामीटर के बारे में ज़्यादा जानकारी पाने के लिए, कॉन्फ़िगरेशन पैरामीटर से जुड़ी जानकारी पर जाएं.
(ज़रूरी नहीं) ज़रूरत के हिसाब से अन्य कनेक्टर पैरामीटर कॉन्फ़िगर करें. ज़्यादा जानकारी के लिए, Google के दिए गए कनेक्टर पैरामीटर पर जाएं.
तीसरा चरण. प्रवेश करना सक्षम करें
- कनेक्टर बाइनरी वाली डायरेक्ट्री में
logs
नाम का फ़ोल्डर बनाएं. कनेक्टर बाइनरी वाली डायरेक्ट्री में,
logging.properties
नाम की ASCII या UTF-8 फ़ाइल बनाएं और यह कॉन्टेंट जोड़ें:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
चरण 4. (ज़रूरी नहीं) मीडिया टाइप कॉन्फ़िगर करना
डिफ़ॉल्ट रूप से, कनेक्टर ऐसी हर फ़ाइल के लिए मीडिया टाइप का पता लगाने की कोशिश करता है जिसमें JDK दिया गया हो मीडिया टाइप की पहचान की जा रही हो. Microsoft Windows पर, फ़ाइलों के लिए मीडिया टाइप तय करने के लिए JDK Windows रजिस्ट्री का इस्तेमाल करता है. रजिस्ट्री एंट्री के मौजूद न होने पर, कुछ फ़ाइलों के लिए शून्य मीडिया टाइप मिल सकता है.
अगर ज़रूरी हो, तो ऐसा मीडिया टाइप तय किया जा सकता है जो किसी मौजूदा बाइंडिंग को ओवरराइट करता है या शून्य मीडिया टाइप को रोकता है.
- कनेक्टर डायरेक्ट्री में,
mime-type.properties
नाम की Latin-1 एन्क्रिप्शन वाली फ़ाइल बनाएं. फ़ाइल एक्सटेंशन और उनसे जुड़े मीडिया टाइप डालें, जैसा कि इन उदाहरणों में बताया गया है:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
चरण 5: फ़ाइल सिस्टम कनेक्टर चलाएं
फ़ाइल सिस्टम कनेक्टर को इंस्टॉल और कॉन्फ़िगर करने के बाद, उसे होस्ट मशीन पर लॉन्च करने के लिए, नीचे दिए गए उदाहरण की तरह कोई निर्देश चलाएं:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
अगर कॉन्फ़िगरेशन फ़ाइल का पाथ डिफ़ॉल्ट से अलग है, तो कॉन्फ़िगरेशन फ़ाइल के पाथ के बारे में बताएं. यह पाथ उसी डायरेक्ट्री में है जिसमें connector-config.properties
नाम वाली बाइनरी है.
कॉन्फ़िगरेशन पैरामीटर के बारे में जानकारी
डेटा स्रोत का ऐक्सेस
सेटिंग | पैरामीटर |
डेटा सोर्स का आईडी | api.sourceId=1234567890abcdef
ज़रूरी है. Google Cloud Search का सोर्स आईडी, जिसे Google Workspace एडमिन ने सेट अप किया है. |
सेवा खाते की निजी कुंजी वाली फ़ाइल का पाथ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
ज़रूरी है. Google Cloud Search फ़ाइल सिस्टम कनेक्टर की सुलभता के लिए, Google Cloud Search सेवा खाते की कुंजी फ़ाइल. |
पहचान स्रोत आईडी | api.identitySourceId=x0987654321
ज़रूरी है. Cloud Search Identity का वह सोर्स आईडी जिसे Google Workspace एडमिन ने GCDS का इस्तेमाल करके, ऐक्टिव डायरेक्ट्री आइडेंटिटी को सिंक करने के लिए सेट अप किया है. |
फ़ाइल सिस्टम का ऐक्सेस
सेटिंग | पैरामीटर |
सोर्स फ़ाइल सिस्टम | fs.src=path1[,path2, ...]
ज़रूरी है. सोर्स फ़ाइल सिस्टम को एक या एक से ज़्यादा यूएनसी सोर्स के तौर पर तय करें जिन्हें |
पाथ सेपरेटर वर्ण
सेटिंग | पैरामीटर |
पाथ सेपरेटर वर्ण | fs.src.separator=separator-character
डिफ़ॉल्ट सेपरेटर ";" है. अगर आपके सोर्स पाथ में सेमीकॉलन हैं, तो कोई दूसरा डीलिमिटर सेट किया जा सकता है, जैसे कि कॉमा (","). यह आपके पाथ में मौजूद वर्णों से मेल नहीं खाता. साथ ही, इसे प्रॉपर्टी फ़ाइल सिंटैक्स के हिसाब से रिज़र्व नहीं किया जाता. अगर |
कनेक्टर का व्यवहार
सेटिंग | पैरामीटर |
Windows डोमेन | fs.supportedDomain=domain
जिन उपयोगकर्ताओं ने जीसीडीएस का इस्तेमाल करके सेट अप किया है उन्हें Cloud Search से, दस्तावेज़ ऐक्सेस करने की अनुमति देना ज़रूरी है. Active Directory के लिए, एक ही NetBIOS डोमेन नेम के तौर पर बताएं. |
ACLS में खातों को शामिल करें | fs.supportedAccounts=account-1[, account-2,...]
ACL में शामिल किए जाने वाले खातों की कॉमा-डिलिमिटेड सूची, भले ही वे पहले से मौजूद खाते हों. डिफ़ॉल्ट वैल्यू |
पहले से मौजूद खातों को ACL में शामिल न करें | fs.builtinGroupPrefix=prefix
पहले से मौजूद खातों का प्रीफ़िक्स तय करें. अगर किसी खाते की शुरुआत इस प्रीफ़िक्स से होती है, तो उसे पहले से मौजूद खाता माना जाता है. साथ ही, उसे एसीएल में शामिल नहीं किया जाएगा. डिफ़ॉल्ट वैल्यू |
छिपी हुई फ़ाइलों और फ़ोल्डर को इंडेक्स करने की अनुमति देना | fs.crawlHiddenFiles=boolean
|
क्रॉल किए गए फ़ोल्डर की लिस्टिंग और डीएफ़एस नेमस्पेस की गिनती को इंडेक्स करने की अनुमति दें | fs.indexFolders=boolean
|
फ़ाइल सिस्टम में बदलाव को मॉनिटर करने की सुविधा चालू करें | fs.monitorForUpdates=boolean
अगर इसे |
डायरेक्ट्री की कैश मेमोरी का ज़्यादा से ज़्यादा साइज़ सेट करें | fs.directoryCacheSize=number-of-entries
डायरेक्ट्री कैश का ज़्यादा से ज़्यादा साइज़. कनेक्टर, छिपे हुए फ़ोल्डर की पहचान करने के लिए कैश का इस्तेमाल करता है, ताकि छिपे हुए फ़ोल्डर में मौजूद फ़ाइलों और फ़ोल्डर को इंडेक्स न किया जा सके. डिफ़ॉल्ट तौर पर,50, 000 एंट्री होती हैं और ये आम तौर पर 10 से 15 मेगाबाइट रैम की खपत करती हैं. |
टाइमस्टैंप संरक्षण और क्रॉल नियंत्रण
सेटिंग | पैरामीटर |
आखिरी ऐक्सेस वाले टाइमस्टैंप को सेव रखें | fs.preserveLastAccessTime=value
जब कनेक्टर, फ़ाइलों और फ़ोल्डर को क्रॉल करता है, तब कनेक्टर, फ़ाइलों और फ़ोल्डर के आखिरी ऐक्सेस के टाइमस्टैंप को क्रॉल के समय में बदल सकता है. अगर पिछली बार ऐक्सेस किए जाने के समय की जानकारी सेव नहीं की जाती है, तो हो सकता है कि कनेक्टर के जाने की वजह से, बैकअप और संग्रह सिस्टम सही फ़ाइलों और फ़ोल्डर को सेकंडरी स्टोरेज में न ले जाएं. डिफ़ॉल्ट रूप से, कनेक्टर पिछली बार ऐक्सेस किए जाने के समय को बनाए रखने की कोशिश करता है ( जितनी तरह के साइटमैप हो सकते हैं उनकी जानकारी यहां दी गई है:
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें किसी खास तारीख के बाद ऐक्सेस किया गया हो | fs.lastAccessedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब आखिरी बार ऐक्सेस करने का समय तय की गई तारीख के बाद का हो. डिफ़ॉल्ट वैल्यू तारीख ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 2010-01-01 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करता है जिसे 2010 के शुरू होने के बाद ऐक्सेस किया गया था. अगर आपने |
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें पिछले कुछ दिनों में ऐक्सेस किया गया हो | fs.lastAccessedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब आखिरी बार ऐक्सेस करने का समय, मौजूदा तारीख से कुछ दिन पहले का हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल, पहले इंडेक्स किए गए ऐसे कॉन्टेंट की समयसीमा को हटाने के लिए करें जिसे काफ़ी समय से ऐक्सेस नहीं किया गया हो. उदाहरण के लिए, कॉन्टेंट को क्रॉल करने के लिए, इसे 365 पर सेट करना तब ही ज़रूरी होता है, जब इसे पिछले साल ऐक्सेस किया गया हो. अगर आपने |
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें किसी खास तारीख के बाद बदलाव किया गया था | fs.lastModifiedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब आखिरी बार बदलाव किए जाने का समय बताई गई तारीख के बाद का हो. डिफ़ॉल्ट वैल्यू तारीख ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 2010-01-01 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करता है जिसमें 2010 के शुरू में बदलाव किया गया था. अगर आपने |
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें पिछले कुछ दिनों में बदलाव किया गया हो | fs.lastModifiedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब आखिरी बार बदलाव किए जाने का समय, मौजूदा तारीख से कुछ दिन पहले का हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल, पहले इंडेक्स किए गए ऐसे कॉन्टेंट को हटाने के लिए करें जिसमें हाल ही में कोई बदलाव नहीं किया गया हो. उदाहरण के लिए, कॉन्टेंट को क्रॉल करने के लिए 365 पर सेट करना तब ही ज़रूरी होता है, जब इसमें पिछले साल बदलाव किए गए हों. अगर आपने |
फ़ाइल शेयर करने का ऐक्सेस कंट्रोल छोड़ें
डिफ़ॉल्ट रूप से, जब कनेक्टर फ़ाइल शेयर पर मौजूद एसीएल के साथ-साथ इंडेक्स करने वाले एपीआई को ऐक्सेस कंट्रोल लिस्ट (एसीएल) भेजता है, तब वह डिफ़ॉल्ट रूप से ऐक्सेस कंट्रोल को सुरक्षित रखता है. हालांकि, कुछ कॉन्फ़िगरेशन में हो सकता है कि कनेक्टर के पास शेयर ACL को पढ़ने के लिए ज़रूरी अनुमतियां न हों. ऐसे मामलों में कनेक्टर, खोज के नतीजों में उस फ़ाइल शेयर पर मौजूद कोई भी फ़ाइल नहीं दिखाता है.
आप कनेक्टर को शेयर ACL को अनदेखा करने के लिए सेट कर सकते हैं, ताकि खोज परिणामों में सामग्री हमेशा दिखाई दे. इस मामले में, इंडेक्स करने वाले एपीआई को शेयर की गई वास्तविक ACL के बजाय पूरी तरह से शेयर की अनुमति वाली ACL मिलती है.
सेटिंग | पैरामीटर |
फ़ाइल शेयर करने का ऐक्सेस कंट्रोल छोड़ें | fs.skipShareAccessControl=boolean
शेयर ACL लागू करने के लिए |