דף זה תורגם על ידי Cloud Translation API.

יצירת מחבר של תוכן

מחבר תוכן הוא תוכנת תוכנה שמשמשת לסריקה של הנתונים במאגר של הארגון ולאכלוס של מקור נתונים. Google מספקת את האפשרויות הבאות לפיתוח מחברים לתוכן:

ה-SDK של Content Connector. האפשרות הזו מתאימה אם אתם מתכנתים ב-Java. Content Connector SDK הוא מעטפת של API ל-REST שמאפשרת ליצור מחברים במהירות. במאמר יצירת מחבר תוכן באמצעות ה-SDK של Content Connector מוסבר איך יוצרים מחבר תוכן באמצעות ה-SDK.
API ל-REST או ספריות API ברמה נמוכה. אפשר להשתמש באפשרויות האלה אם אתם לא מתכנתים ב-Java, או אם קוד הבסיס שלכם מתאים יותר ל-API ל-REST או לספרייה. במאמר יצירת מחבר תוכן באמצעות ה-API ל-REST מוסבר איך יוצרים מחבר תוכן באמצעות ה-API ל-REST.

מחבר תוכן רגיל מבצע את הפעולות הבאות:

קריאה ועיבוד של פרמטרים של הגדרות אישיות.
משיכת קטעי נתונים נפרדים שניתנים להוספה לאינדקס, שנקראים פריטים, ממאגר התוכן של הצד השלישי.
שילוב של רשימות ACL, מטא-נתונים ונתוני תוכן בפריטים שאפשר להוסיף לאינדקס.
הוספת פריטים לאינדקס של מקור הנתונים של Cloud Search.
(אופציונלי) האזנה להתראות על שינויים במאגר התוכן של הצד השלישי. התראות על שינויים מומרות לבקשות להוספת נתונים לאינדקס כדי לשמור על סנכרון בין מקור הנתונים של Cloud Search לבין המאגר של הצד השלישי. המחבר מבצע את המשימה הזו רק אם המאגר תומך בזיהוי שינויים.

יצירת מחבר תוכן באמצעות Content Connector SDK

בקטעים הבאים מוסבר איך ליצור מחבר תוכן באמצעות Content Connector SDK.

הגדרת יחסי תלות

כדי להשתמש ב-SDK, צריך לכלול יחסי תלות מסוימים בקובץ ה-build. לוחצים על אחת מהכרטיסיות הבאות כדי להציג את יחסי התלות של סביבת ה-build:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

יצירת הגדרות המחבר

לכל מחבר יש קובץ תצורה שמכיל פרמטרים שבהם המחבר משתמש, כמו המזהה של המאגר. הפרמטרים מוגדרים כצמדי מפתח-ערך, כמו api.sourceId=1234567890abcdef.

‏Google Cloud Search SDK מכיל כמה פרמטרים של הגדרות שסופקו על ידי Google, שבהם משתמשים כל המחברים. צריך להצהיר על הפרמטרים הבאים שסופקו על ידי Google בקובץ התצורה:

במחבר תוכן, צריך להצהיר על api.sourceId ו-api.serviceAccountPrivateKeyFile כי הפרמטרים האלה מזהים את המיקום של המאגר ואת המפתח הפרטי שנדרש כדי לגשת למאגר.

במחבר זהויות, צריך להצהיר על api.identitySourceId כי הפרמטר הזה מזהה את המיקום של מקור הזהויות החיצוני. אם אתם מסנכרנים משתמשים, עליכם גם להצהיר על api.customerId כמזהה הייחודי של חשבון Google Workspace של הארגון.

אם אתם לא רוצים לשנות את ערכי ברירת המחדל של פרמטרים אחרים ש-Google מספקת, אין צורך להצהיר עליהם בקובץ התצורה. מידע נוסף על פרמטרים של הגדרות שסופקו על ידי Google, למשל איך יוצרים מפתחות ומזהים מסוימים, זמין במאמר פרמטרים של הגדרות שסופקו על ידי Google.

אפשר גם להגדיר פרמטרים משלכם ספציפיים למאגר לשימוש בקובץ התצורה.

העברת קובץ התצורה למחבר

מגדירים את מאפיין המערכת config כדי להעביר את קובץ התצורה למחבר. אפשר להגדיר את הנכס באמצעות הארגומנט -D כשמפעילים את המחבר. לדוגמה, הפקודה הבאה מפעילה את המחבר עם קובץ התצורה MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

אם הארגומנט הזה חסר, ה-SDK ינסה לגשת לקובץ ההגדרות שמוגדר כברירת מחדל בשם connector-config.properties.

הגדרת אסטרטגיית סריקה

התפקיד העיקרי של מחבר תוכן הוא לעבור מאגר ולסמן את הנתונים שלו ב-index. צריך להטמיע אסטרטגיית סריקה על סמך הגודל והפריסה של הנתונים במאגר. אתם יכולים לתכנן אסטרטגיה משלכם או לבחור באחת מהאסטרטגיות הבאות שמוטמעות ב-SDK:

אסטרטגיית סריקה מלאה

בשיטת סריקה מלאה, המערכת סורקת את כל המאגר ומוסיפה אוטומטית לאינדקס כל פריט. השיטה הזו משמשת בדרך כלל כשיש מאגר קטן ואפשר להרשות לעצמך את התקורה של סריקה מלאה בכל פעם שמוסיפים לאינדקס.

אסטרטגיית הניווט הזו מתאימה למאגרים קטנים עם נתונים בעיקר סטטיים ולא היררכיים. אפשר להשתמש באסטרטגיית הניווט הזו גם כשקשה לזהות שינויים או שהמאגר לא תומך בכך.

אסטרטגיית סריקה של רשימה

אסטרטגיית סריקה של רשימה סורקת את כל המאגר, כולל כל הצמתים הצאצאים, ומחליטה מה הסטטוס של כל פריט. לאחר מכן, המחבר מבצע סבב נוסף ומוסיף לאינדקס רק פריטים חדשים או פריטים שעודכנו מאז ההוספה האחרונה לאינדקס. השיטה הזו משמשת בדרך כלל לביצוע עדכונים מצטברים לאינדקס קיים (במקום לבצע סריקה מלאה בכל פעם שמעדכנים את האינדקס).

שיטת הניווט הזו מתאימה כשקשה לזהות שינויים או שהמאגר לא תומך בכך, כשיש נתונים לא היררכיים וכשעובדים עם מערכי נתונים גדולים מאוד.

מעבר בתרשים

אסטרטגיית סריקה של תרשים סורקת את כל צומת ההורה ומחליטה מהו הסטטוס של כל פריט. לאחר מכן, המחבר מבצע סבב נוסף ומוסיף לאינדקס רק פריטים בצומת הבסיס שהם חדשים או עודכנו מאז ההוספה האחרונה לאינדקס. לבסוף, המחבר מעביר את מזהי הצאצאים, ולאחר מכן יוצר אינדקס של פריטים בצמתים הצאצאים שהם חדשים או עודכנו. המחבר ממשיך באופן רפלקסיבי דרך כל צמתים הצאצאים עד שכל הפריטים מטופלים. בדרך כלל משתמשים בסריקה כזו במאגרים היררכיים שבהם לא מעשי לרשום את כל המזהים.

האסטרטגיה הזו מתאימה אם יש לכם נתונים היררכיים שצריך לסרוק, כמו סדרה של ספריות או דפי אינטרנט.

כל אחת מאסטרטגיות הניווט האלה מיושמת באמצעות סוג של מחבר תבנית ב-SDK. אפשר להטמיע אסטרטגיית סריקה משלכם, אבל התבניות האלה מקצרות מאוד את תהליך הפיתוח של המחבר. כדי ליצור מחבר באמצעות תבנית, עוברים לקטע המתאים לאסטרטגיית הניווט:

יצירת מחבר סריקה מלא באמצעות כיתה של תבנית
יצירת מחבר לסריקה של רשימות באמצעות כיתה של תבנית
יצירת מחבר לסריקה של גרף באמצעות כיתה של תבנית

יצירת מחבר סריקה מלא באמצעות כיתה תבנית

הקטע הזה במסמכים מתייחס לקטעי קוד מהדוגמה FullTraversalSample.

הטמעת נקודת הכניסה של המחבר

נקודת הכניסה למחבר היא השיטה main(). המשימה העיקרית של השיטה הזו היא ליצור מופע של הכיתה Application ולהפעיל את השיטה start() שלה כדי להריץ את המחבר.

לפני שמפעילים את application.start(), משתמשים בכיתה IndexingApplication.Builder כדי ליצור מופע של התבנית FullTraversalConnector. הפונקציה FullTraversalConnector מקבלת אובייקט Repository שהשיטות שלו מטמיעים. קטע הקוד הבא מראה איך מטמיעים את השיטה main():

FullTraversalSample.java

יצירת מחבר של תוכן

יצירת מחבר תוכן באמצעות Content Connector SDK

הגדרת יחסי תלות

Maven

Gradle

יצירת הגדרות המחבר

העברת קובץ התצורה למחבר

הגדרת אסטרטגיית סריקה

יצירת מחבר סריקה מלא באמצעות כיתה תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק Repository

אחזור של פרמטרים מותאמים אישית של תצורה

ביצוע טרנספורמציה מלאה

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת הפריט שאפשר להוסיף לאינדקס

אריזה של כל פריט שאפשר להוסיף לאינדקס ב-iterator

השלבים הבאים

יצירת מחבר לסריקה של רשימות באמצעות כיתה של תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק Repository

אחזור של פרמטרים מותאמים אישית של תצורה

ביצוע סריקה של הרשימה

דחיפת מזהי פריטים וערכים של גיבוב

אחזור וטיפול בכל פריט

טיפול בפריטים שנמחקו

טיפול בפריטים שלא השתנו

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת פריט שאפשר להוסיף לאינדקס

השלבים הבאים

יצירת מחבר לסריקה של גרף באמצעות כיתה של תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק Repository

אחזור של פרמטרים מותאמים אישית של תצורה

ביצוע סריקה של הגרף

דחיפת מזהי פריטים וערכים של גיבוב

אחזור וטיפול בכל פריט

טיפול בפריטים שנמחקו

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת הפריט שאפשר להוסיף לאינדקס

הוספת מזהי הצאצאים לתור של ניהול האינדקס ב-Cloud Search

השלבים הבאים

יצירת מחבר תוכן באמצעות ה-API ל-REST

הגדרת אסטרטגיית סריקה

הטמעת שיטת הניווט והוספת פריטים לאינדקס

טיפול בשינויים במאגר

הטמעת הממשק `Repository`

הטמעת הממשק `Repository`

הטמעת הממשק `Repository`