יצירת מחבר של תוכן

מחבר תוכן הוא תוכנה שמשמשת למעבר בין הנתונים במאגר של ארגון ולאכלוס מקור נתונים. ‫Google מספקת את האפשרויות הבאות לפיתוח מחברי תוכן:

‫SDK של מחבר התוכן. האפשרות הזו מתאימה אם אתם מתכנתים ב-Java. ‫Content Connector SDK הוא עטיפה (wrapper) של REST API שמאפשרת ליצור מחברים במהירות. כדי ליצור מחבר תוכן באמצעות ה-SDK, אפשר לעיין במאמר יצירת מחבר תוכן באמצעות Content Connector SDK.
‫API ל-REST ברמה נמוכה או ספריות API. אפשר להשתמש באפשרויות האלה אם אתם לא מתכנתים ב-Java, או אם בסיס הקוד שלכם מתאים יותר ל-REST API או לספרייה. כדי ליצור מחבר תוכן באמצעות REST API, אפשר לעיין במאמר יצירת מחבר תוכן באמצעות REST API.

מחבר תוכן טיפוסי מבצע את המשימות הבאות:

קריאה ועיבוד של פרמטרים של הגדרות.
שולף נתונים נפרדים שניתנים להוספה לאינדקס, שנקראים פריטים, ממאגר התוכן של הצד השלישי.
משלב רשימות ACL, מטא-נתונים ונתוני תוכן בפריטים שניתן להוסיף לאינדקס.
הוספת פריטים לאינדקס במקור הנתונים של Cloud Search.
(אופציונלי) האפליקציה מאזינה להתראות על שינויים במאגר התוכן של הצד השלישי. ההתראות על שינויים מומרות לבקשות להוספה לאינדקס כדי לשמור על סנכרון בין מקור הנתונים של Cloud Search לבין מאגר המידע של הצד השלישי. המחבר מבצע את המשימה הזו רק אם המאגר תומך בזיהוי שינויים.

יצירת מחבר תוכן באמצעות Content Connector SDK

בקטעים הבאים מוסבר איך ליצור מחבר תוכן באמצעות Content Connector SDK.

הגדרת יחסי תלות

כדי להשתמש ב-SDK, צריך לכלול יחסי תלות מסוימים בקובץ ה-build. לוחצים על אחת מהכרטיסיות שלמטה כדי לראות את התלויות של סביבת ה-build:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

יצירת הגדרות של מחבר

לכל מחבר יש קובץ הגדרה שמכיל פרמטרים שמשמשים את המחבר, כמו המזהה של המאגר. הפרמטרים מוגדרים כצמדים של מפתח-ערך, כמו api.sourceId=1234567890abcdef.

ה-SDK של Google Cloud Search מכיל כמה פרמטרים של הגדרות שסופקו על ידי Google ומשמשים את כל המחברים. צריך להצהיר על הפרמטרים הבאים שסופקו על ידי Google בקובץ ההגדרות:

במחבר תוכן, צריך להצהיר על api.sourceId ועל api.serviceAccountPrivateKeyFile כי הפרמטרים האלה מזהים את המיקום של המאגר והמפתח הפרטי שנדרשים כדי לגשת למאגר.

במחבר זהויות, צריך להצהיר על api.identitySourceId כי הפרמטר הזה מזהה את המיקום של מקור הזהויות החיצוני. אם אתם מסנכרנים משתמשים, אתם צריכים גם להגדיר את api.customerId כמזהה הייחודי של חשבון Google Workspace של הארגון.

אלא אם רוצים לשנות את ערכי ברירת המחדל של פרמטרים אחרים שסופקו על ידי Google, אין צורך להצהיר עליהם בקובץ ההגדרות. מידע נוסף על פרמטרים של הגדרות שסופקו על ידי Google, כמו איך ליצור מזהים ומפתחות מסוימים, זמין במאמר פרמטרים של הגדרות שסופקו על ידי Google.

אפשר גם להגדיר פרמטרים משלכם שספציפיים למאגר, לשימוש בקובץ ההגדרות.

העברת קובץ התצורה למחבר

מגדירים את מאפיין המערכת config כדי להעביר את קובץ התצורה למחבר. אפשר להגדיר את הנכס באמצעות הארגומנט -D כשמפעילים את המחבר. לדוגמה, הפקודה הבאה מפעילה את המחבר עם קובץ התצורה MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

אם הארגומנט הזה חסר, ה-SDK מנסה לגשת לקובץ הגדרות ברירת מחדל בשם connector-config.properties.

קביעת אסטרטגיית המעבר

התפקיד העיקרי של מחבר תוכן הוא לסרוק מאגר ולאנדקס את הנתונים שלו. אתם צריכים להטמיע אסטרטגיית מעבר על הנתונים בהתאם לגודל ולפריסה של הנתונים במאגר. אתם יכולים לעצב אסטרטגיה משלכם או לבחור מבין האסטרטגיות הבאות שמוטמעות ב-SDK:

אסטרטגיית מעבר מלאה

שיטת סריקה מלאה סורקת את כל המאגר ומבצעת אינדוקס לכל פריט בלי לבדוק אותו. בדרך כלל משתמשים בשיטה הזו כשיש מאגר קטן ואפשר להרשות לעצמכם את התקורה של סריקה מלאה בכל פעם שמבצעים אינדוקס.

אסטרטגיית המעבר הזו מתאימה למאגרים קטנים עם נתונים סטטיים ולא היררכיים. אפשר להשתמש באסטרטגיית המעבר הזו גם אם קשה לזהות שינויים או אם המאגר לא תומך בזיהוי שינויים.

אסטרטגיה למעבר בין רשימות

אסטרטגיית מעבר ברשימה סורקת את כל המאגר, כולל כל צמתי הצאצא, וקובעת את הסטטוס של כל פריט. לאחר מכן, המחבר מבצע סריקה שנייה ומבצע אינדוקס רק של פריטים חדשים או פריטים שעברו עדכון מאז האינדוקס האחרון. בדרך כלל משתמשים בשיטה הזו כדי לבצע עדכונים מצטברים באינדקס קיים (במקום לבצע סריקה מלאה בכל פעם שמעדכנים את האינדקס).

אסטרטגיית המעבר הזו מתאימה כשקשה לזהות שינויים או כשהמאגר לא תומך בזיהוי שינויים, כשמדובר בנתונים לא היררכיים וכשעובדים עם מערכי נתונים גדולים מאוד.

מעבר בין צמתים בגרף

שיטת מעבר בין צמתים סורקת את כל צומת האב כדי לקבוע את הסטטוס של כל פריט. לאחר מכן, המחבר מבצע סריקה שנייה ומבצע אינדוקס רק של פריטים בצומת הבסיס שהם חדשים או שעודכנו מאז האינדוקס האחרון. לבסוף, המחבר מעביר את כל מזהי הצאצא ומבצע אינדוקס של פריטים בצמתי הצאצא שהם חדשים או שעברו עדכון. המחבר ממשיך באופן רקורסיבי בכל צמתי הצאצאים עד שכל הפריטים מטופלים. המעבר הזה משמש בדרך כלל למאגרים היררכיים שבהם לא מעשי להציג את כל המזהים.

האסטרטגיה הזו מתאימה אם יש לכם נתונים היררכיים שצריך לסרוק, כמו סדרה של ספריות או דפי אינטרנט.

כל אחת מאסטרטגיות המעבר האלה מיושמת על ידי מחלקת מחברי תבניות ב-SDK. אפשר להטמיע אסטרטגיית מעבר משלכם, אבל התבניות האלה מקצרות מאוד את תהליך הפיתוח של המחבר. כדי ליצור מחבר באמצעות תבנית, עוברים לקטע שמתאים לאסטרטגיית המעבר שלכם:

יצירת מחבר למעבר מלא באמצעות מחלקת תבנית
יצירת מחבר למעבר על רשימה באמצעות מחלקת תבנית
יצירת מחבר למעבר גרפים באמצעות מחלקת תבנית

יצירת מחבר עם מעבר מלא באמצעות מחלקת תבנית

הקטע הזה במסמכים מתייחס לקטעי קוד מהדוגמה FullTraversalSample.

הטמעה של נקודת הכניסה של המחבר

נקודת הכניסה למחבר היא השיטה main(). המשימה העיקרית של השיטה הזו היא ליצור מופע של המחלקה Application ולהפעיל את השיטה start() כדי להריץ את המחבר.

לפני שקוראים ל-application.start(), צריך להשתמש במחלקה IndexingApplication.Builder כדי ליצור מופע של התבנית FullTraversalConnector. הפונקציה FullTraversalConnector מקבלת אובייקט Repository שאת השיטות שלו אתם מטמיעים. בקטע הקוד הבא אפשר לראות איך מטמיעים את המתודה main():

FullTraversalSample.java

יצירת מחבר של תוכן קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

יצירת מחבר תוכן באמצעות Content Connector SDK

הגדרת יחסי תלות

Maven

Gradle

יצירת הגדרות של מחבר

העברת קובץ התצורה למחבר

קביעת אסטרטגיית המעבר

יצירת מחבר עם מעבר מלא באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה של המחבר

הטמעה של הממשק Repository

אחזור פרמטרים של הגדרה בהתאמה אישית

ביצוע סריקה מלאה

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת הפריט שאפשר להוסיף לאינדקס

אורזים כל פריט שאפשר להוסיף לאינדקס באיטרטור

השלבים הבאים

יצירת מחבר למעבר על רשימה באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה של המחבר

הטמעה של הממשק Repository

אחזור פרמטרים מותאמים אישית של הגדרות

ביצוע מעבר ברשימה

שליחת מזהי פריטים וערכי hash

אחזור וטיפול בכל פריט

טיפול בפריטים שנמחקו

טיפול בפריטים שלא השתנו

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת פריט שניתן להוסיף לאינדקס

השלבים הבאים

יצירת מחבר למעבר בין צמתים בגרף באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה של המחבר

הטמעה של הממשק Repository

אחזור פרמטרים של הגדרה בהתאמה אישית

ביצוע מעבר בין צמתים בגרף

שליחת מזהי פריטים וערכי hash

שליפה וטיפול בכל פריט

טיפול בפריטים שנמחקו

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת הפריט שאפשר להוסיף לאינדקס

הוספת מזהי הצאצא לתור של ניהול האינדקס ב-Cloud Search

השלבים הבאים

יצירת מחבר תוכן באמצעות API ל-REST

קביעת אסטרטגיית המעבר

הטמעה של אסטרטגיית המעבר ופריטים לאינדקס

טיפול בשינויים במאגר

יצירת מחבר של תוכן

הטמעה של הממשק `Repository`

הטמעה של הממשק `Repository`

הטמעה של הממשק `Repository`