אפשר להגדיר את Google Cloud Search כדי להחזיר תוצאות מ-Google Cloud Search מערכת Microsoft Windows משתפת בנוסף לתוכן שלכם ב-Google Workspace. שלך להשתמש במחבר של Google Cloud Search File Systems ולהגדיר אותו כדי לגשת שיתופי Windows שצוינו. מופע מחבר אחד יכול לתמוך בכמה שיתופים של Microsoft Windows.
שיקולים חשובים
עדכונים אוטומטיים רציפים
כברירת מחדל, המחבר עוקב באופן רציף אחר נתיבי התחלה (ערכים מ-fs.src
בקובץ תצורת המחבר) בזמן שהמחבר מופעל. כאשר מערכת הקבצים מדווחת על שינויים בבקרות התוכן או הגישה, המחבר מופעל לסריקה מחדש של מערכת הקבצים. הסריקה מחדש יכולה להיות עמוסה במשאבים. כדי להשבית את המעקב אחרי מערכת הקבצים, צריך להגדיר את fs.monitorForUpdates
לערך false
. מצמצמים את השימוש במשאבים של המחבר באופן משמעותי, אבל משהים את הזמן שבו המחבר משקף את השינויים. מידע נוסף
בקרת גישה ל-DFS
מערכת ה-DFS מחילה בקרת גישה על הקישורים שלה, ובדרך כלל לכל קישור ל-DFS יש ACL משלו. מנגנון אחד לשימוש ב-DFS הוא Access-based Enumeration (ABE), שיכול להגביל את הקישורים של ה-DFS שמוחזרים למשתמש. משתמשים יכולים לקבל רק קבוצת משנה של קישורי DFS, או אפילו קישור אחד בלבד כש-ABE מבודד ספריות ביתיות מתארחות. כשהמחבר חוצה מערכת DFS, המחבר מכבד את רשימת ה-ACL של קישור ל-DFS ואת רשימת ה-ACL לשיתוף של היעד, ורשימת ה-ACL לשיתוף יורשת מה-ACL של DFS.
מגבלות ידועות
- מערכת קבצים: מחבר מערכות הקבצים לא תומך בכוננים ממופים ובכוננים מקומיים.
- מערכת קבצים מבוזרת: אחסון שממופה ל-UNC DFS לא פועל כראוי. חלק מרשימות ה-ACL לא נקראות בצורה נכונה.
- מחבר File Systems תומך במרחבי שמות ובקישורים של מערכת קבצים מבוזרת (DFS). עם זאת, המחבר תומך רק בקישורים של DFS במרחב שמות של DFS, ולא בתיקיות הרגילות במרחב השמות של DFS.
- לא ניתן ללחוץ על קישורים לקבצים שהוחזרו ב-cloudsearch.google.com. בנוסף, ברוב הדפדפנים אין אפשרות ללחוץ על הקישורים לקבצים שמוחזרים על ידי Query API.
דרישות מערכת
דרישות מערכת | |
---|---|
מערכת הפעלה |
|
תוכנה |
|
פרוטוקולים של מערכות קבצים |
לא נתמך: מערכות קבצים מקומיות של Windows, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 או מערכת קבצים מקומית Linux. |
פריסת המחבר
דרישות מוקדמות
לפני לפרוס את מחבר מערכות הקבצים של Cloud Search, צריך לוודא כוללת את כל הרכיבים המוקדמים הבאים:
המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Google Cloud Search לבין מקור הנתונים:
- מפתח פרטי של Google Workspace (שמכיל את מזהה חשבון השירות). עבור לקבלת מפתח פרטי, עברו אל הגדרת גישה ל-API ל-REST של Google Cloud Search.
- מזהה מקור נתונים ב-Google Workspace. למידע על קבלת מזהה של מקור נתונים: מעבר אל מוסיפים מקור נתונים לחיפוש
- המזהה של מקור הזהות. מידע על הדרכים לקבל מקור זיהוי מזהה, מעבר אל יוצרים מקור זהות. אם אתם מסנכרנים את ספריית Google Workspace עם Active Directory, צריך להגדיר את מקור הזהויות עם GCDS.
בדרך כלל האדמין בארגון שלכם ב-Google Workspace יכול לקבל את פרטי הכניסה האלה.
מוודאים שלחשבון Windows יש הרשאות מספיקות, כפי שמתואר ב בסעיף הבא.
ההרשאות הנדרשות לחשבון Microsoft Windows
חשבון Microsoft Windows שבו פועל המחבר חייב להכיל הרשאות מספיקות לביצוע הפעולות הבאות:
- הצגת רשימה של תוכן התיקיות
- קריאת תוכן המסמכים
- קריאת המאפיינים של קבצים ותיקיות
- הרשאות קריאה (ACL) לקבצים ולתיקיות
- כתיבת הרשאות של מאפיינים בסיסיים
חברות באחת מהקבוצות הבאות מעניקה לחשבון Windows את ההרשאות המתאימות הנדרשות על ידי המחבר:
- מנהלי מערכת
- משתמשים מתקדמים
- אופרטורים של הדפסה
- אופרטורים של שרתים
שלב 1. התקנת המחבר של Google Cloud Search File Systems
מוצאים את מאגר המחברים מ-GitHub ומפתחים אותו.
כדי להשתמש ב-Git בשרת Windows:
משכפלים את המאגר:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
בדוק את הגרסה הרצויה של המחבר:
> git checkout tags/v1-0.0.3
כדי להוריד ישירות מ-GitHub:
- עוברים אל https://github.com/google-cloudsearch/windows-filesystems-connector.
- לוחצים על שכפול או הורדה הורדת קובץ ZIP.
- מחלצים את החבילה.
- עוברים לספרייה החדשה:
> cd windows-filesystems-connector
יוצרים את המחבר. אם יש צורך, מתקינים את Apache Maven.
> mvn package
כדי לדלג על הבדיקות בזמן יצירת המחבר, מריצים את
mvn package -DskipTests
במקוםmvn package
.מעתיקים את קובץ ה-ZIP של המחבר לספריית ההתקנה המקומית:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
שלב 2. יצירת קובץ התצורה של המחבר
באותה ספרייה כמו התקנת המחבר, יוצרים קובץ ונותנים לו את השם
connector-config.properties
.מוסיפים פרמטרים בתור צמדי מפתח/ערך לתוכן הקובץ, כמו בדוגמה הבאה:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
תיאורים מפורטים של כל פרמטר מופיעים בחומר העזר בנושא פרמטרים של הגדרה.
(אופציונלי) מגדירים פרמטרים אחרים של המחבר לפי הצורך. פרטים נוספים מופיעים במאמר פרמטרים של מחבר ש-Google מספקת.
שלב 3. הפעלת רישום
- יוצרים תיקייה בשם
logs
בספרייה שמכילה את המחבר בינארית. יוצרים קובץ ASCII או UTF-8 בשם
logging.properties
בקובץ שמכילה את הקובץ הבינארי של המחבר ומוסיפה את התוכן הבא:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
שלב 4. (אופציונלי) הגדרת סוגי מדיה
כברירת מחדל, המחבר מנסה לזהות את סוג המדיה עבור כל קובץ עם ב-JDK זיהוי סוגי מדיה. ב-Microsoft Windows, JDK מסתמך על מערכת הרישום של Windows כדי לקבוע את סוגי המדיה של הקבצים. ערך רישום חסר עלול לגרום לערך null סוג מדיה לקבצים מסוימים.
במקרה הצורך, תוכלו לציין סוג מדיה שיחליף את כל הקישורים הקיימים או מונע סוג של מדיה null.
- בספריית המחברים, יוצרים קובץ בהצפנת Latin-1 בשם
mime-type.properties
. מזינים את סיומות הקבצים ואת סוגי המדיה התואמים שלהן, כמו בדוגמאות הבאות:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
שלב 5: מריצים את המחבר של File Systems
אחרי ההתקנה וההגדרה של מחבר File Systems (מערכות קבצים), כדי להפעיל אותו Host instance, מריצים פקודה כמו הדוגמה הבאה:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
יש לציין את הנתיב של קובץ התצורה אם הוא שונה מברירת המחדל (באותה ספרייה כמו הקובץ הבינארי בשם connector-config.properties
).
מאמרי עזרה על פרמטרים של הגדרות אישיות
גישה למקור נתונים
הגדרה | פרמטר |
מזהה של מקור נתונים | api.sourceId=1234567890abcdef
חובה. מזהה המקור ב-Google Cloud Search שהוגדר על ידי האדמין ב-Google Workspace. |
נתיב לקובץ המפתח הפרטי של חשבון השירות | api.serviceAccountPrivateKeyFile=./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות של Google Cloud Search, לצורך נגישות של מחבר Google Cloud Search File Systems. |
המזהה של מקור הזהות | api.identitySourceId=x0987654321
חובה. המזהה של מקור הזהויות ב-Cloud Search, שהוגדר על ידי האדמין ב-Google Workspace, כדי לסנכרן זהויות בספריות פעילות באמצעות GCDS. |
גישה למערכת קבצים
הגדרה | פרמטר |
מערכות קובצי מקור | fs.src=path1[,path2, ...]
חובה. צריך לציין מערכות קובצי מקור כמקור UNC אחד או יותר שמופרדים באמצעות התו המפריד שהוגדר באמצעות |
תו מפריד נתיב
הגדרה | פרמטר |
תו מפריד נתיב | fs.src.separator=separator-character
מפריד ברירת המחדל הוא ';' אם נתיבי המקור מכילים נקודה-פסיק, אפשר להגדיר תו מפריד שונה, כמו פסיק (','), שלא מתנגש עם תווים בנתיבים ולא נשמר לתחביר של קובץ המאפיין עצמו. אם הערך של |
התנהגות המחבר
הגדרה | פרמטר |
דומיין של Windows | fs.supportedDomain=domain
נדרשת כדי לאפשר למשתמשים שהוגדרו ב-GCDS לגשת למסמכים באמצעות Cloud Search. יש לציין כשם דומיין יחיד של NetBIOS של ה-Active Directory. |
הכללת חשבונות ב-ACLS | fs.supportedAccounts=account-1[, account-2,...]
רשימה מופרדת בפסיקים של חשבונות שצריך לכלול ברשימות ACL, גם אם הם חשבונות מובנים. ערך ברירת המחדל הוא |
החרגה של חשבונות מובנים מרשימות ACL | fs.builtinGroupPrefix=prefix
מציינים את הקידומת של חשבונות מובנים. חשבון שמתחיל בקידומת הזו נחשב לחשבון מובנה ולא ייכלל ברשימות ה-ACL. ערך ברירת המחדל הוא |
אפשר להוסיף לאינדקס קבצים ותיקיות מוסתרים | fs.crawlHiddenFiles=boolean
יש להגדיר את הערך |
אפשר להוסיף לאינדקס רישומים של תיקיות שנסרקו וספירות של מרחב שמות של DFS | fs.indexFolders=boolean
בהגדרה |
הפעלת מעקב אחר שינויים במערכת הקבצים | fs.monitorForUpdates=boolean
אם המדיניות מוגדרת לערך |
הגדרת הגודל המקסימלי של המטמון של הספריות | fs.directoryCacheSize=number-of-entries
הגודל המקסימלי של המטמון של הספרייה. המחבר משתמש במטמון כדי לזהות תיקיות נסתרות וכך להימנע מהוספה לאינדקס של קבצים ותיקיות שנמצאים בתיקיות נסתרות. ברירת המחדל היא 50,000 רשומות, שבדרך כלל צורכות זיכרון RAM בנפח של 10-15 מגה-בייט. |
שימור חותמות זמן ובקרת סריקה
הגדרה | פרמטר |
שימור חותמת הזמן של הגישה האחרונה | fs.preserveLastAccessTime=value
כאשר המחבר סורק קבצים ותיקיות, המחבר יכול לשנות את חותמת הזמן של הגישה האחרונה לקבצים ולתיקיות לזמן הסריקה. כשזמני הגישה האחרונים לא נשמרים, יכול להיות שמערכות הגיבוי והארכיון לא מעבירות קבצים ותיקיות מתאימים לאחסון משני בגלל הביקור של המחבר. כברירת מחדל, המחבר מנסה לשמור את זמן הגישה האחרון ( ערכים אפשריים:
|
סריקה של קבצים שבוצעה אליהם גישה אחרי תאריך מסוים | fs.lastAccessedDate=YYYY-MM-DD
סריקת התוכן רק אם זמן הגישה האחרון הוא אחרי התאריך שצוין. ערך ברירת המחדל הוא יש לציין את התאריך בפורמט התאריך ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סורק רק תוכן שבוצעה אליו גישה אחרי תחילת 2010. אם מציינים |
סריקה של קבצים שבוצעה אליהם גישה במספר הימים האחרונים | fs.lastAccessedDays=number-of-days
סריקת התוכן רק אם זמן הגישה האחרון הוא במסגרת מספר הימים לפני היום. ערך ברירת המחדל הוא אפשר להשתמש בנכס הזה כדי לבטל את התוקף של תוכן שנוסף לאינדקס ולא ניגש אליו במשך זמן מה. לדוגמה, אפשר להגדיר לסריקת 365 תוכן רק אם התבצעה גישה אליו בשנה האחרונה. אם מציינים |
סריקה רק של קבצים ששונו לאחר תאריך מסוים | fs.lastModifiedDate=YYYY-MM-DD
סריקת התוכן רק אם מועד השינוי האחרון הוא אחרי התאריך שצוין. ערך ברירת המחדל הוא יש לציין את התאריך בפורמט התאריך ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סורק רק תוכן שהשתנה לאחר תחילת 2010. אם מציינים |
סריקה רק של קבצים ששונו במהלך מספר הימים האחרונים | fs.lastModifiedDays=number-of-days
יש לסרוק את התוכן רק אם מועד השינוי האחרון הוא במסגרת מספר הימים לפני היום. ערך ברירת המחדל הוא אפשר להשתמש במאפיין הזה כדי לבטל את התוקף של תוכן שנוסף לאינדקס ולא השתנה במשך זמן מה. לדוגמה, אפשר להגדיר לסריקת 365 תוכן רק אם הוא השתנה בשנה האחרונה. אם מציינים |
דילוג על בקרת הגישה לשיתוף קבצים
כברירת מחדל, המחבר שומר על תקינות בקרת הגישה כשהוא שולח רשימות של בקרת גישה (ACL) לממשק ה-API של ההוספה לאינדקס, כולל רשימות ACL בשיתוף הקבצים. עם זאת, בתצורות מסוימות, ייתכן שלמחבר אין הרשאות מספיקות לקריאת רשימת ה-ACL של השיתוף. במקרים כאלה, המחבר לא מחזיר בתוצאות חיפוש קבצים שמנוהלים על ידי אותו שיתוף קבצים.
אפשר להגדיר את המחבר כך שיתעלם מרשימת ה-ACL של השיתוף כך שהתוכן תמיד יוחזר בתוצאות החיפוש. במקרה זה, ממשק ה-API להוספה לאינדקס מקבל רשימת ACL מתירנית לחלוטין, ולא רשימת ה-ACL בפועל של השיתוף.
הגדרה | פרמטר |
דילוג על בקרת הגישה לשיתוף קבצים | fs.skipShareAccessControl=boolean
יש להגדיר את הערך |