דף זה תורגם על ידי Cloud Translation API.

יצירת מחבר של תוכן

מחבר תוכן הוא תוכנה שמשמשת למעבר של הנתונים במאגר של הארגון ולאכלוס מקור נתונים. Google מספקת את האפשרויות הבאות לפיתוח מחברי תוכן:

ערכת ה-SDK של מחבר התוכן. זו אפשרות טובה אם אתם מתכנתים ב-Java. ה-Content Connector SDK הוא wrapper ל-API ל-REST שמאפשר ליצור מחברים במהירות. כדי ליצור מחבר תוכן באמצעות ה-SDK, קראו את המאמר יצירת מחבר תוכן באמצעות ה-SDK של Content Connector.
API ל-REST או ספריות API ברמה נמוכה. כדאי להשתמש באפשרויות האלה אם אתם לא מתכנתים ב-Java, או אם ה-codebase שלכם מתאים יותר ל-API ל-REST או לספרייה. כדי ליצור מחבר תוכן באמצעות API ל-REST, קראו את המאמר יצירת מחבר תוכן באמצעות API ל-REST.

מחבר תוכן אופייני מבצע את המשימות הבאות:

קריאה ועיבוד של פרמטרים של תצורה.
שולפת מקטעים נפרדים של נתונים שניתן להוסיף לאינדקס, שנקראים items, ממאגר התוכן של הצד השלישי.
משלבת רשימות ACL, מטא-נתונים ונתוני תוכן לתוך פריטים שאפשר להוסיף לאינדקס.
הוספת פריטים למקור הנתונים של Cloud Search לאינדקס.
(אופציונלי) מקשיבה לשינוי ההתראות ממאגר התוכן של הצד השלישי. התראות על שינויים מומרות לבקשות להוספה לאינדקס, כדי לשמור על סנכרון של מקור הנתונים של Cloud Search עם מאגר של הצד השלישי. המחבר מבצע את המשימה הזו רק אם המאגר תומך בזיהוי שינויים.

יצירת מחבר תוכן באמצעות Content Connector SDK

בקטעים הבאים מוסבר איך ליצור מחבר תוכן באמצעות ה-SDK של מחבר התוכן.

הגדרת יחסי תלות

כדי להשתמש ב-SDK, צריך לכלול יחסי תלות מסוימים בקובץ ה-build. אפשר ללחוץ על הכרטיסייה כדי לראות את יחסי התלות של סביבת ה-build שלכם:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

הגדרה של תצורת המחבר

לכל מחבר יש קובץ תצורה שמכיל פרמטרים המשמשים את המחבר, כמו מזהה המאגר שלכם. פרמטרים מוגדרים מצמדי מפתח-ערך, למשל api.sourceId=1234567890abcdef.

ה-SDK של Google Cloud Search מכיל מספר פרמטרים של הגדרה, ש-Google מספקת, שמשמשים את כל המחברים. צריך להצהיר על הפרמטרים הבאים ש-Google מספקת בקובץ התצורה:

בשביל מחבר תוכן צריך להצהיר על api.sourceId ו-api.serviceAccountPrivateKeyFile כי הפרמטרים האלה מזהים את מיקום המאגר והמפתח הפרטי שדרוש כדי לגשת למאגר.

במחבר זהויות, צריך להצהיר על api.identitySourceId כי הפרמטר הזה מזהה את המיקום של מקור הזהויות החיצוני. אם מסנכרנים משתמשים, צריך גם להצהיר על api.customerId כמזהה הייחודי של חשבון Google Workspace של הארגון.

אלא אם רוצים לשנות את ערכי ברירת המחדל של פרמטרים אחרים ש-Google מספקת, לא צריך להצהיר עליהם בקובץ התצורה. למידע נוסף על הפרמטרים של ההגדרות ש-Google מספקת, כמו איך ליצור מזהים ומפתחות מסוימים, קראו את המאמר פרמטרים של הגדרות ש-Google מספקת.

תוכלו גם להגדיר פרמטרים משלכם שספציפיים למאגר, ולהשתמש בהם בקובץ התצורה.

מעבירים את קובץ התצורה למחבר

מגדירים את מאפיין המערכת config כדי להעביר את קובץ התצורה למחבר. אפשר להגדיר את המאפיין באמצעות הארגומנט -D כשמפעילים את המחבר. לדוגמה, הפקודה הבאה מפעילה את המחבר עם קובץ התצורה MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

אם הארגומנט הזה חסר, ערכת ה-SDK תנסה לגשת לקובץ תצורה שמוגדר כברירת מחדל בשם connector-config.properties.

בחירה של אסטרטגיית המעבר

התפקיד העיקרי של מחבר תוכן הוא לחצות מאגר ולהוסיף את הנתונים שלו לאינדקס. עליכם להטמיע אסטרטגיית מעבר שמבוססת על הגודל והפריסה של הנתונים במאגר. אתם יכולים לתכנן אסטרטגיה משלכם או לבחור מבין האסטרטגיות הבאות שמוטמעות ב-SDK:

אסטרטגיית מעבר מלאה

אסטרטגיית מעבר מלאה סורקת את המאגר כולו ומוסיפה לאינדקס כל פריט בצורה עיוורת. בדרך כלל כדאי להשתמש באסטרטגיה הזו כשיש מאגר קטן והוא יכול להרשות לעצמכם את התקורה של ביצוע מעבר מלא בכל פעם שאתם מוסיפים לאינדקס.

אסטרטגיית המעבר הזו מתאימה למאגרים קטנים עם נתונים סטטיים בעיקר ולא היררכיים. כדאי להשתמש באסטרטגיית המעבר הזו גם כאשר זיהוי השינויים קשה או שאינו נתמך על ידי המאגר.

הצגת רשימה של אסטרטגיית מעבר

אסטרטגיית מעבר בין רשימות סורקת את כל המאגר, כולל את כל צומתי הצאצאים, כדי לקבוע את הסטטוס של כל פריט. לאחר מכן, המחבר מקבל מעבר שני ומוסיף לאינדקס רק פריטים חדשים או פריטים שעודכנו מאז ההוספה האחרונה לאינדקס. בדרך כלל משתמשים באסטרטגיה הזו כדי לבצע עדכונים מצטברים באינדקס קיים (במקום לבצע מעבר מלא בכל פעם שמעדכנים את האינדקס).

אסטרטגיית המעבר הזו מתאימה למקרים שבהם קשה לזהות שינויים או לכך שהמאגר לא תומך בהם, כשיש נתונים לא היררכיים ועובדים עם קבוצות נתונים גדולות מאוד.

מעבר בתרשים

אסטרטגיית מעבר בתרשים סורקת את כל צומת ההורה שקובעת את הסטטוס של כל פריט. לאחר מכן, המחבר לוקח מעבר שני ומוסיף לאינדקס רק פריטים בצומת הרמה הבסיסית (root) הם חדשים או עודכנו מאז ההוספה האחרונה לאינדקס. לבסוף, המחבר מעביר את כל מזהי הצאצאים ואז מוסיף לאינדקס פריטים חדשים או שעודכנו בצמתים הצאצאים. המחבר ממשיך באופן רקורסיבי דרך כל צומתי הצאצא עד שכל הפריטים מטופלים. מעבר כזה משמש בדרך כלל למאגרים היררכיים שבהם לא ניתן לפרט את כל המזהים.

האסטרטגיה הזו מתאימה אם יש לכם נתונים היררכיים שצריך לסרוק, כמו סדרה של ספריות או דפי אינטרנט.

כל אחת מאסטרטגיות המעבר האלה מוטמעת על ידי מחלקה של מחבר תבניות ב-SDK. למרות שאפשר ליישם אסטרטגיית מעבר משלכם, התבניות האלה מזרזות משמעותית את פיתוח המחבר. כדי ליצור מחבר באמצעות תבנית, המשיכו לקטע התואם לאסטרטגיית המעבר:

יצירת מחבר מעבר מלא באמצעות מחלקה של תבנית
יצירת מחבר מעבר רשימה באמצעות מחלקה של תבניות
יצירת מחבר מעבר בגרף באמצעות מחלקה של תבניות

יצירת מחבר מעבר מלא באמצעות מחלקה של תבנית

הקטע הזה במסמכים מתייחס לקטעי קוד מהדוגמה FullTraversalSample.

הטמעת נקודת הכניסה של המחבר

נקודת הכניסה למחבר היא ה-method main(). המשימה העיקרית של השיטה הזו היא ליצור מכונה של המחלקה Application ולהפעיל את ה-method start() שלה כדי להריץ את המחבר.

לפני הקריאה ל-application.start(), צריך להשתמש במחלקה IndexingApplication.Builder כדי ליצור את התבנית FullTraversalConnector. האובייקט FullTraversalConnector מקבל אובייקט Repository שמטמיעים בו methods. קטע הקוד הבא מראה איך להטמיע את ה-method main():

FullTraversalSample.java

יצירת מחבר של תוכן

יצירת מחבר תוכן באמצעות Content Connector SDK

הגדרת יחסי תלות

Maven

Gradle

הגדרה של תצורת המחבר

מעבירים את קובץ התצורה למחבר

בחירה של אסטרטגיית המעבר

יצירת מחבר מעבר מלא באמצעות מחלקה של תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק של Repository

אחזור פרמטרים מותאמים אישית של הגדרות אישיות

ביצוע מעבר מלא

הגדרת ההרשאות לפריט

הגדרת מטא-נתונים של פריט

יצירת פריט שניתן להוסיף לאינדקס

צריך לארוז כל פריט שניתן להוספה לאינדקס באיטרטור

השלבים הבאים

יצירת מחבר מעבר של רשימה באמצעות מחלקה של תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק של Repository

אחזור פרמטרים מותאמים אישית של הגדרות אישיות

ביצוע המעבר בין הרשימות

דחיפת מזהי פריטים וערכי גיבוב (hash)

מאחזרים כל פריט ומטפלים בו

טיפול בפריטים שנמחקו

טיפול בפריטים שלא השתנו

הגדרת ההרשאות לפריט

הגדרת מטא-נתונים של פריט

יצירת פריט שניתן להוסיף לאינדקס

השלבים הבאים

יצירת מחבר מעבר גרף באמצעות מחלקה של תבנית

הטמעת נקודת הכניסה של המחבר

הטמעת הממשק של Repository

אחזור פרמטרים מותאמים אישית של הגדרות אישיות

בצעו את המעבר בגרף

דחיפת מזהי פריטים וערכי גיבוב (hash)

מאחזרים כל פריט ומטפלים בו

טיפול בפריטים שנמחקו

הגדרת ההרשאות לפריט

הגדרת מטא-נתונים של פריט

יצירת פריט שניתן להוסיף לאינדקס

למקם את מזהי הצאצאים בתור ליצירת אינדקס ב-Cloud Search

השלבים הבאים

יצירה של מחבר תוכן באמצעות API ל-REST

בחירה של אסטרטגיית המעבר

ישמו את אסטרטגיית המעבר ואת הפריטים באינדקס

טיפול בשינויים במאגר

הטמעת הממשק של `Repository`

הטמעת הממשק של `Repository`

הטמעת הממשק של `Repository`