בדף המדריך הזה של Cloud Search מוסבר איך להגדיר מקור נתונים ומחבר תוכן לצורך הוספה לאינדקס. כדי להתחיל מההתחלה של המדריך הזה, אפשר לעיין במדריך למתחילים בנושא Cloud Search.
יצירת המחבר
משנים את ספריית העבודה לספרייה cloud-search-samples/end-to-end/connector
ומריצים את הפקודה הבאה:
mvn package -DskipTests
הפקודה מורידה את יחסי התלות הנדרשים לבניית מחבר התוכן ויוצרת את הקוד בעצמכם.
יצירת פרטי כניסה לחשבון שירות
המחבר דורש פרטי כניסה של חשבון שירות כדי לבצע קריאה ל-Cloud Search API. כדי ליצור את פרטי הכניסה:
- חוזרים למסוף Google Cloud.
- בחלונית הניווט הימנית, לוחצים על פרטי כניסה. יופיע הדף 'פרטי כניסה'.
- לוחצים על הרשימה הנפתחת + CREATE CREDENTIALS ובוחרים באפשרות Service account. הדף 'יצירת חשבון שירות' מופיע.
- בשדה Service account name מזינים tutorial.
- מציינים את הערך של Service account ID (מיד אחרי שם חשבון השירות). הערך הזה ישמש מאוחר יותר.
- לוחצים על יצירה. תיבת הדו-שיח 'הרשאות של חשבון שירות (אופציונלי)' מופיעה.
- לוחצים על המשך. מופיעה תיבת הדו-שיח 'Grant users access to this service account (optional)'.
- לוחצים על סיום. המסך 'פרטי כניסה' יופיע.
- בקטע Service Accounts, לוחצים על כתובת האימייל של חשבון השירות. הדף 'פרטי חשבון השירות' מופיע.
- בקטע Keys (מפתחות), לוחצים על הרשימה הנפתחת ADD KEY ובוחרים באפשרות Create new key. תיפתח תיבת הדו-שיח 'יצירת מפתח פרטי'.
- לוחצים על יצירה.
- (אופציונלי) אם מופיעה תיבת הדו-שיח 'האם ברצונך לאפשר הורדות בכתובת console.cloud.google.com?', לוחצים על אישור.
- קובץ מפתח פרטי נשמר במחשב שלכם. שימו לב לאיפה הקובץ שהורד נשמר. הקובץ הזה משמש להגדרת מחבר התוכן כדי שהוא יוכל לבצע אימות עצמי בזמן הקריאה לממשקי Google Cloud Search API.
הפעלת תמיכה של צד שלישי
כדי שתוכלו להפעיל ממשקי API אחרים של Cloud Search, עליכם להפעיל את התמיכה של צד שלישי ב-Google Cloud Search.
כדי להפעיל תמיכה של צד שלישי ב-Cloud Search:
הפרויקט של פלטפורמת Cloud Search מכיל את פרטי הכניסה של חשבון השירות. עם זאת, כדי להפעיל את התמיכה בצד שלישי, צריך ליצור פרטי כניסה לאפליקציית אינטרנט. הוראות ליצירת פרטי כניסה לאפליקציית אינטרנט מפורטות במאמר יצירת פרטי כניסה. בסיום השלב הזה, אמורים להיות לכם מזהה לקוח וקובץ של סוד לקוח.
משתמשים במגרש המשחקים של OAuth 2 של Google כדי לקבל אסימון גישה:
- לוחצים על 'הגדרות' ומסמנים את האפשרות שימוש בפרטי הכניסה שלך לאימות.
- מזינים את מזהה הלקוח ואת סוד הלקוח משלב 1.
- לוחצים על סגירה.
- בשדה scopes, מקלידים
https://www.googleapis.com/auth/cloud_search.settings
ולוחצים על Authorize. מגרש המשחקים של OAuth 2 מחזיר קוד הרשאה. - לוחצים על Exchange authorization code for tokens. הטוקן מוחזר.
כדי לאתחל תמיכה של צד שלישי ב-Cloud Search, משתמשים בפקודה הבאה של curl. חשוב להחליף את
[YOUR_ACCESS_TOKEN]
באסימון שקיבלתם בשלב 2.curl --request POST \ 'https://cloudsearch.googleapis.com/v1:initializeCustomer' \ --header 'Authorization: Bearer [YOUR_ACCESS_TOKEN]' \ --header 'Accept: application/json' \ --header 'Content-Type: application/json' \ --data '{}' \ --compressed
אם הפעולה בוצעה ללא שגיאות, גוף התגובה יכיל מופע של
operation
. לדוגמה:{ name: "operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY" }
אם לא, פנו לתמיכה של Cloud Search.
משתמשים ב-operations.get כדי לוודא שתמיכת הצד השלישי מופעלת:
curl \ 'https://cloudsearch.googleapis.com/v1/operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY?key= [YOUR_API_KEY]' \ --header 'Authorization: Bearer [YOUR_ACCESS_TOKEN]' \ --header 'Accept: application/json' \ --compressed
בסיום האינטראקציה הראשונית עם הצד השלישי, השדה
done
מוגדר כ-true
. לדוגמה:{ name: "operations/customers/01b3fqdm/lro/AOIL6eBv7fEfiZ_hUSpm8KQDt1Mnd6dj5Ru3MXf-jri4xK6Pyb2-Lwfn8vQKg74pgxlxjrY" done: true }
יצירת מקור הנתונים
בשלב הבא צריך ליצור מקור נתונים במסוף Admin. מקור הנתונים מספק מרחב שמות להוספת תוכן לאינדקס באמצעות המחבר.
- פותחים את מסוף Google Admin.
- לוחצים על סמל האפליקציות. הדף 'ניהול אפליקציות' יופיע.
- לוחצים על Google Workspace. הדף 'ניהול אפליקציות ב-Google Workspace' מופיע.
- גוללים למטה ולוחצים על חיפוש ב-Cloud. הדף 'הגדרות ל-Google Workspace' יופיע.
- לוחצים על מקורות נתונים של צד שלישי. הדף 'מקורות נתונים' יופיע.
- לוחצים על הסמל העגול הצהוב +. תיבת הדו-שיח 'הוספת מקור נתונים חדש' מופיעה.
- בשדה Display name מקלידים tutorial.
- בשדה Service account email addresses, מזינים את כתובת האימייל של חשבון השירות שיצרתם בקטע הקודם. אם אתם לא יודעים מה כתובת האימייל של חשבון השירות, תוכלו לחפש את הערך בדף service accounts.
- לוחצים על ADD. תיבת הדו-שיח 'יצירת מקור הנתונים הסתיימה' מופיעה.
- לוחצים על *אישור. מציינים את מזהה המקור של מקור הנתונים החדש שנוצר. מזהה המקור משמש להגדרה של מחבר התוכן.
יצירת אסימון גישה אישי ל-GitHub API
המחבר דורש גישה מאומתת ל-GitHub API כדי שיהיה לו מכסה מספקת. כדי לשמור על פשטות, המחבר משתמש באסימוני גישה אישיים במקום ב-OAuth. טוקנים אישיים מאפשרים לבצע אימות בתור משתמש עם קבוצה מוגבלת של הרשאות, בדומה ל-OAuth.
- מתחברים ל-GitHub.
- בפינה השמאלית העליונה, לוחצים על תמונת הפרופיל. יופיע תפריט נפתח.
- לוחצים על הגדרות.
- לוחצים על הגדרות למפתחים.
- לוחצים על אסימוני גישה אישיים.
- לוחצים על יצירת אסימון גישה אישי.
- בשדה הערה, מזינים Cloud Search Guide (מדריך ל-Cloud Search).
- בודקים את ההיקף של public_repo.
- לוחצים על יצירת אסימון.
- מציינים את האסימון שנוצר. המחבר משתמש בו כדי לבצע קריאות ל-API של GitHub, ומספק מכסת API לביצוע ההוספה לאינדקס.
הגדרת המחבר
אחרי שיוצרים את פרטי הכניסה ואת מקור הנתונים, מעדכנים את הגדרות המחבר כך שיכללו את הערכים הבאים:
- משורת הפקודה, משנים את הספרייה ל-
cloud-search-samples/end-to-end/connector/
. - פותחים את הקובץ
sample-config.properties
באמצעות כלי לעריכת טקסט. - מגדירים את הפרמטר
api.serviceAccountPrivateKeyFile
לנתיב הקובץ של פרטי הכניסה לשירות שהורדתם בעבר. - מגדירים את הפרמטר
api.sourceId
למזהה של מקור הנתונים שיצרתם קודם. - מגדירים את הפרמטר
github.user
בשם המשתמש שלכם ב-GitHub. - מגדירים את הפרמטר
github.token
לאסימון הגישה שיצרתם קודם. - שומרים את הקובץ.
עדכון הסכימה
המחבר מוסיף לאינדקס גם תוכן מובנה וגם תוכן לא מובנה. לפני הוספת נתונים לאינדקס, צריך לעדכן את הסכימה של מקור הנתונים. מריצים את הפקודה הבאה כדי לעדכן את הסכימה:
mvn exec:java -Dexec.mainClass=com.google.cloudsearch.tutorial.SchemaTool \
-Dexec.args="-Dconfig=sample-config.properties"
הפעלת המחבר
כדי להפעיל את המחבר ולהתחיל את ההוספה לאינדקס, מריצים את הפקודה:
mvn exec:java -Dexec.mainClass=com.google.cloudsearch.tutorial.GithubConnector \
-Dexec.args="-Dconfig=sample-config.properties"
הגדרת ברירת המחדל של המחבר היא להוסיף לאינדקס מאגר יחיד בארגון googleworkspace
. הוספת המאגר לאינדקס נמשכת בערך דקה.
אחרי ההוספה הראשונית לאינדקס, המחבר ממשיך לבדוק אם יש שינויים במאגר שצריכים להופיע באינדקס של Cloud Search.
בדיקת הקוד
בחלקים הבאים נסביר איך המחבר נוצר.
הפעלת האפליקציה
נקודת הכניסה למחבר היא המחלקה GithubConnector
. השיטה main
יוצרת מופע של IndexingApplication
ב-SDK ומפעילה אותו.
ב-ListingConnector
שסופק על ידי ה-SDK מוטמעת אסטרטגיית מעבר שמשתמשת בתורים של Cloud Search למעקב אחרי מצב הפריטים באינדקס. הוא מעביר את הגישה לתוכן מ-GitHub אל GithubRepository
, שמוטמע על ידי המחבר לדוגמה.
ניווט במאגרים של GitHub
במהלך טרaversals מלאים, מתבצעת קריאה ל-method getIds()
כדי לדחוף לתור פריטים שעשויים להידרש להוספה לאינדקס.
המחבר יכול להוסיף לאינדקס כמה מאגרים או ארגונים. כדי למזער את ההשפעה של כשל, המערכת עוברת על מאגר GitHub אחד בכל פעם. נקודת עצירה מוחזרת עם תוצאות הסריקה, שמכילות את רשימת המאגרים שצריך להוסיף לאינדקס בקריאות הבאות ל-getIds()
. אם מתרחשת שגיאה, ההוספה לאינדקס תמשיך במאגר הנוכחי במקום להתחיל מחדש.
ה-method collectRepositoryItems()
מטפלת במעבר של מאגר GitHub אחד. ה-method הזה מחזיר אוסף של ApiOperations
שמייצג את הפריטים שרוצים לדחוף לתור. הפריטים מועברים (push) בתור שם משאב וערך גיבוב (hash) שמייצג את המצב הנוכחי של הפריט.
ערך הגיבוב משמש בסריקה חוזרת של המאגרים ב-GitHub. הערך הזה מספק בדיקה פשוטה כדי לקבוע אם התוכן השתנה בלי להעלות תוכן נוסף. המחבר מציב ברשימה את כל הפריטים באופן עיוור. אם הפריט חדש או שערך הגיבוב השתנה, הוא יהיה זמין לתשאול בתור. אחרת, המערכת תתייחס לפריט כאל פריט ללא שינוי.
עיבוד התור
אחרי שהסריקה המלאה מסתיימת, המחבר מתחיל לבדוק את התור כדי לאתר פריטים שצריך להוסיף לאינדקס. מתבצעת קריאה ל-method getDoc()
לכל פריט שנשלף מהתור. ה-method קוראת את הפריט מ-GitHub וממירה אותו לייצוג המתאים להוספה לאינדקס.
מכיוון שהמחבר פועל מול נתונים פעילים שעשויים להשתנות בכל שלב, getDoc()
מאמת גם שהפריט בתור עדיין תקף ומחק פריטים מהאינדקס שכבר לא קיימים.
לכל אחד מהאובייקטים ב-GitHub שמתווספים לאינדקס המחבר, ה-method התואם של indexItem()
יוצר את ייצוג הפריט ב-Cloud Search. לדוגמה, כדי ליצור ייצוג של פריטי תוכן:
לאחר מכן, פורסים את ממשק החיפוש.