בדף הזה במדריך של Cloud Search מוסבר איך להגדיר מקור נתונים ומחבר תוכן להוספת נתונים לאינדקס. כדי להתחיל מההתחלה, אפשר לעיין במדריך למתחילים בנושא Cloud Search.
פיתוח המחבר
מעבירים את ספריית העבודה לספרייה cloud-search-samples/end-to-end/connector
ומריצים את הפקודה הבאה:
mvn package -DskipTests
הפקודה מאפשרת להוריד את יחסי התלות הנדרשים ליצירת מחבר התוכן ולקמפל את הקוד.
יצירת פרטי כניסה לחשבון שירות
המחבר דורש פרטי כניסה של חשבון שירות כדי לבצע קריאה ל-Cloud Search API. כדי ליצור את פרטי הכניסה:
- חוזרים למסוף Google Cloud.
- בחלונית הניווט הימנית, לוחצים על פרטי כניסה. הדף Credential (פרטי כניסה) מופיע.
- לוחצים על הרשימה הנפתחת + CREATE CREDENTIALS ובוחרים באפשרות Service account. הדף 'יצירת חשבון שירות' מופיע.
- בשדה Service account name מזינים tutorial.
- מציינים את הערך של Service account ID (מיד אחרי שם חשבון השירות). הערך הזה ישמש מאוחר יותר.
- לוחצים על יצירה. תיבת הדו-שיח 'הרשאות של חשבון שירות (אופציונלי)' מופיעה.
- לוחצים על המשך. תיבת הדו-שיח 'הענקת גישה למשתמשים לחשבון השירות הזה (אופציונלי)' מופיעה.
- לוחצים על סיום. המסך Credentials (פרטי כניסה) יופיע.
- בקטע Service Accounts (חשבונות שירות), לוחצים על כתובת האימייל של חשבון השירות. הדף 'פרטי חשבון השירות' מופיע.
- בקטע Keys (מפתחות), לוחצים על הרשימה הנפתחת ADD KEY ובוחרים באפשרות Create new key. תיפתח תיבת הדו-שיח 'יצירת מפתח פרטי'.
- לוחצים על יצירה.
- (אופציונלי) אם מופיעה תיבת הדו-שיח 'האם ברצונך לאפשר הורדות בכתובת console.cloud.google.com?', לוחצים על אישור.
- קובץ של מפתח פרטי נשמר במחשב. שימו לב לאיפה הקובץ שהורד נשמר. הקובץ הזה משמש להגדרת מחבר התוכן כדי שהוא יוכל לבצע אימות עצמי בזמן הקריאה לממשקי Google Cloud Search API.
איך מפעילים תמיכה של צד שלישי
לפני שתוכלו להפעיל ממשקי API אחרים של Cloud Search, תצטרכו לאתחל תמיכה של צד שלישי ב-Google Cloud Search.
כדי להפעיל תמיכה של צד שלישי ב-Cloud Search:
הפרויקט של פלטפורמת Cloud Search מכיל את פרטי הכניסה של חשבון השירות. עם זאת, כדי להפעיל את התמיכה בצד שלישי, צריך ליצור פרטי כניסה לאפליקציית אינטרנט. הוראות ליצירת פרטי כניסה לאפליקציית אינטרנט מפורטות במאמר יצירת פרטי כניסה. בסיום השלב הזה, אמורים להיות לכם מזהה לקוח וקובץ של סוד לקוח.
משתמשים במגרש המשחקים של OAuth 2 של Google כדי לקבל אסימון גישה:
- לוחצים על 'הגדרות' ומסמנים את האפשרות שימוש בפרטי הכניסה שלך לאימות.
- מזינים את מזהה הלקוח ואת סוד הלקוח משלב 1.
- לוחצים על סגירה.
- בשדה scopes, מקלידים
https://www.googleapis.com/auth/cloud_search.settings
ולוחצים על Authorize. מגרש המשחקים של OAuth 2 מחזיר קוד הרשאה. - לוחצים על Exchange authorization code for tokens. הטוקן מוחזר.
כדי לאתחל תמיכה של צד שלישי ב-Cloud Search, משתמשים בפקודה הבאה של curl. חשוב להחליף את
[YOUR_ACCESS_TOKEN]
באסימון שהתקבל בשלב 2.curl --request POST \ 'https://cloudsearch.googleapis.com/v1:initializeCustomer' \ --header 'Authorization: Bearer [YOUR_ACCESS_TOKEN]' \ --header 'Accept: application/json' \ --header 'Content-Type: application/json' \ --data '{}' \ --compressed
אם הפעולה מצליחה, גוף התגובה מכיל מופע של
operation
. לדוגמה:{ name: "operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY" }
אם לא, פנו לתמיכה של Cloud Search.
משתמשים ב-operations.get כדי לוודא שתמיכת הצד השלישי מופעלת:
curl \ 'https://cloudsearch.googleapis.com/v1/operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY?key= [YOUR_API_KEY]' \ --header 'Authorization: Bearer [YOUR_ACCESS_TOKEN]' \ --header 'Accept: application/json' \ --compressed
כשהאיפוס של הצד השלישי מסתיים, הוא מכיל את השדה
done
שמוגדר כ-true
. לדוגמה:{ name: "operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY" done: true }
יצירת מקור הנתונים
בשלב הבא, יוצרים מקור נתונים במסוף Admin. מקור הנתונים מספק מרחב שמות להוספת תוכן לאינדקס באמצעות המחבר.
- פותחים את מסוף Google Admin.
- לוחצים על סמל האפליקציות. הדף 'ניהול אפליקציות' יופיע.
- לוחצים על Google Workspace. הדף 'ניהול אפליקציות ב-Google Workspace' מופיע.
- גוללים למטה ולוחצים על חיפוש ב-Cloud. הדף 'הגדרות ל-Google Workspace' יופיע.
- לוחצים על מקורות נתונים של צד שלישי. הדף 'מקורות נתונים' יופיע.
- לוחצים על הסמל העגול הצהוב +. תיבת הדו-שיח 'הוספת מקור נתונים חדש' מופיעה.
- בשדה Display name מקלידים tutorial.
- בשדה Service account email addresses, מזינים את כתובת האימייל של חשבון השירות שיצרתם בקטע הקודם. אם אתם לא יודעים מה כתובת האימייל של חשבון השירות, תוכלו לחפש את הערך בדף service accounts.
- לוחצים על ADD. תיבת הדו-שיח 'יצירת מקור הנתונים הסתיימה' מופיעה.
- לוחצים על *אישור. שימו לב למזהה המקור של מקור הנתונים החדש שנוצר. מזהה המקור משמש להגדרת מחבר התוכן.
יצירת אסימון גישה אישי ל-GitHub API
המחבר דורש גישה מאומתת ל-GitHub API כדי שיהיה לו מכסה מספקת. כדי לפשט את התהליך, המחבר משתמש באסימוני גישה אישיים במקום ב-OAuth. טוקנים אישיים מאפשרים לבצע אימות בתור משתמש עם קבוצה מוגבלת של הרשאות, בדומה ל-OAuth.
- מתחברים ל-GitHub.
- בפינה השמאלית העליונה, לוחצים על תמונת הפרופיל. יופיע תפריט נפתח.
- לוחצים על הגדרות.
- לוחצים על הגדרות למפתחים.
- לוחצים על אסימוני גישה אישיים.
- לוחצים על Generate personal access token.
- בשדה הערה, מזינים 'מדריך Cloud Search'.
- בודקים את ההיקף public_repo.
- לוחצים על Generate token.
- מציינים את האסימון שנוצר. המחבר משתמש בו כדי לבצע קריאות ל-API של GitHub, ומספק מכסת API לביצוע ההוספה לאינדקס.
הגדרת המחבר
אחרי שיוצרים את פרטי הכניסה ואת מקור הנתונים, מעדכנים את הגדרות המחבר כך שיכללו את הערכים הבאים:
- משורת הפקודה, משנים את הספרייה ל-
cloud-search-samples/end-to-end/connector/
. - פותחים את הקובץ
sample-config.properties
באמצעות כלי לעריכת טקסט. - מגדירים את הפרמטר
api.serviceAccountPrivateKeyFile
לנתיב הקובץ של פרטי הכניסה לשירות שהורדתם קודם. - מגדירים את הפרמטר
api.sourceId
למזהה של מקור הנתונים שיצרתם קודם. - מגדירים את הפרמטר
github.user
בשם המשתמש שלכם ב-GitHub. - מגדירים את הפרמטר
github.token
לאסימון הגישה שיצרתם קודם. - שומרים את הקובץ.
עדכון הסכימה
המחבר יוצר אינדקס גם לתוכן מובנה וגם לתוכן לא מובנה. לפני הוספת נתונים לאינדקס, צריך לעדכן את הסכימה של מקור הנתונים. מריצים את הפקודה הבאה כדי לעדכן את הסכימה:
mvn exec:java -Dexec.mainClass=com.google.cloudsearch.tutorial.SchemaTool \
-Dexec.args="-Dconfig=sample-config.properties"
הפעלת המחבר
כדי להפעיל את המחבר ולהתחיל את ההוספה לאינדקס, מריצים את הפקודה:
mvn exec:java -Dexec.mainClass=com.google.cloudsearch.tutorial.GithubConnector \
-Dexec.args="-Dconfig=sample-config.properties"
הגדרת ברירת המחדל של המחבר היא להוסיף לאינדקס מאגר יחיד בארגון googleworkspace
. הוספת המאגר לאינדקס נמשכת בערך דקה.
אחרי ההוספה הראשונית לאינדקס, המחבר ממשיך לבדוק אם יש שינויים במאגר שצריכים להופיע באינדקס של Cloud Search.
בדיקת הקוד
בחלקים הבאים נסביר איך המחבר נוצר.
הפעלת האפליקציה
נקודת הכניסה למחבר היא הכיתה GithubConnector
. השיטה main
יוצרת מופע של IndexingApplication
ב-SDK ומפעילה אותו.
הפונקציה ListingConnector
שמספקת ה-SDK מיישמת אסטרטגיית סריקה שמשתמשת בתורים של Cloud Search כדי לעקוב אחרי המצב של הפריטים באינדקס. הוא מעביר את הגישה לתוכן מ-GitHub אל GithubRepository
, שמוטמע על ידי המחבר לדוגמה.
ניווט במאגרים של GitHub
במהלך טרaversals מלאים, מתבצעת קריאה ל-method getIds()
כדי לדחוף לתור פריטים שעשויים להידרש להוספה לאינדקס.
המחבר יכול להוסיף לאינדקס כמה מאגרים או ארגונים. כדי למזער את ההשפעה של כשל, המערכת עוברת על מאגר GitHub אחד בכל פעם. נקודת עצירה מוחזרת עם תוצאות הסריקה, שמכילות את רשימת המאגרים שצריך להוסיף לאינדקס בקריאות הבאות ל-getIds()
. אם מתרחשת שגיאה, ההוספה לאינדקס תמשיך במאגר הנוכחי במקום להתחיל מחדש.
השיטה collectRepositoryItems()
מטפלת בסריקה של מאגר GitHub יחיד. ה-method הזה מחזיר אוסף של ApiOperations
שמייצג את הפריטים שרוצים לדחוף לתור. הפריטים מועברים (push) בתור שם משאב וערך גיבוב (hash) שמייצג את המצב הנוכחי של הפריט.
הערך של הגיבוב משמש בסריקה חוזרת של המאגרים ב-GitHub. הערך הזה מספק בדיקה קלה כדי לקבוע אם התוכן השתנה בלי שתצטרכו להעלות תוכן נוסף. המחבר מציב ברשימה את כל הפריטים באופן עיוור. אם הפריט חדש או שערך הגיבוב השתנה, הוא זמין לבדיקה בתור. אחרת, הפריט נחשב ללא שינויים.
עיבוד התור
אחרי שהסריקה המלאה מסתיימת, המחבר מתחיל לבדוק את התור כדי לאתר פריטים שצריך להוסיף לאינדקס. השיטה getDoc()
מתבצעת לכל פריט שנשלף מהתור. השיטה קוראת את הפריט מ-GitHub וממירה אותו לייצוג המתאים להוספה לאינדקס.
מכיוון שהמחבר פועל מול נתונים פעילים שעשויים להשתנות בכל שלב, getDoc()
מאמת גם שהפריט בתור עדיין תקף ומחק פריטים מהאינדקס שכבר לא קיימים.
לכל אחד מהאובייקטים ב-GitHub שמתווספים לאינדקס המחבר, ה-method התואם של indexItem()
יוצר את ייצוג הפריט ב-Cloud Search. לדוגמה, כדי ליצור את הייצוג של פריטי תוכן:
בשלב הבא, פורסים את ממשק החיפוש.