פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך מיועד לאדמינים של Google Cloud Search Norconex HTTP Collector, כלומר לכל מי שאחראי על הורדה, פריסה, הגדרה ותחזוקה של הפלאגין ליצירת אינדקס. במדריך אנחנו מניחים שאתם מכירים את מערכות ההפעלה Linux, את היסודות של סריקת אינטרנט, את ה-XML ואת Norconex HTTP Collector.

המדריך הזה כולל הוראות לביצוע משימות מרכזיות שקשורות לפריסת יישומי פלאגין של אינדקס:

  • הורד את תוכנת הפלאגין של Indexer
  • הגדרת Google Cloud Search
  • הגדרה של Norconex HTTP Collector וסריקת אינטרנט
  • התחל את סריקת האינטרנט והעלה תוכן

לא מופיע במדריך הזה מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע כדי למפות את Google Cloud Search לפלאגין של Norconex HTTP Collector. למידע על המשימות האלה, ראו ניהול מקורות נתונים של צד שלישי.

סקירה כללית על הפלאגין של Cloud Search Norconex HTTP Collector

כברירת מחדל, Cloud Search יכול למצוא תוכן ממוצרי Google Workspace, להוסיף אותם לאינדקס ולהציג תוכן מהם, כמו Google Docs ו-Gmail. תוכלו להרחיב את פוטנציאל החשיפה של Google Cloud Search כך שיכלול הצגת תוכן מהאינטרנט למשתמשים על ידי פריסת הפלאגין של האינדקס עבור Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.

קובצי מאפיינים של הגדרות אישיות

כדי לאפשר לפלאגין ליצירת אינדקס לבצע סריקות אינטרנט ולהעלות תוכן לממשק ה-API של ההוספה לאינדקס, אתם, כאדמין של הפלאגין לאינדקס, מספקים מידע ספציפי במהלך שלבי התצורה שמתוארים במסמך זה בשלבי הפריסה.

כדי להשתמש בפלאגין האינדקס, עליך להגדיר מאפיינים בשני קובצי תצורה:

  • {gcs-crawl-config.xml}-- מכיל הגדרות עבור Norconex HTTP Collector.
  • sdk-configuration.properties-- מכיל הגדרות עבור Google Cloud Search.

המאפיינים בכל קובץ מאפשרים לפלאגין האינדקס של Google Cloud Search ול-Norconex HTTP Collector לתקשר זה עם זה.

סריקת אינטרנט והעלאת תוכן

אחרי אכלוס קובצי התצורה, יש לכם את ההגדרות הדרושות כדי להתחיל את סריקת האינטרנט. Norconex HTTP Collector סורק את האינטרנט, מגלה תוכן מסמכים שקשור להגדרה שלו ומעלה גרסאות בינאריות (או טקסט) מקוריות של תוכן המסמך ל-Cloud Search Index API, שבו הוא נוסף לאינדקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

את הפלאגין של Google Cloud Search Norconex HTTP Collector יש להתקין ב-Linux.

הגרסה הנתמכת של Norconex HTTP Collector

הפלאגין של Google Cloud Search Norconex HTTP Collector תומך בגרסה 2.8.0.

תמיכה ב-ACL

הפלאגין של הכלי לאינדקס תומך בשליטה בגישה למסמכים בדומיין Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם ברירת המחדל של רשימות ACL מופעלת בתצורת הפלאגין של Google Cloud Search (defaultAcl.mode מוגדרת לערך 'לא' none ומוגדרת באמצעות defaultAcl.*), הפלאגין של הכלי ליצירת אינדקס ינסה קודם ליצור ולהחיל ברירת מחדל של רשימת ACL.

אם ברירת המחדל של רשימות ACL לא מופעלת, הפלאגין יחזור לתת הרשאת קריאה לכל הדומיין ב-Google Workspace.

לתיאורים מפורטים של פרמטרים של הגדרות ACL, ראו פרמטרים של מחברים באספקת Google.

דרישות מוקדמות

לפני פריסת הפלאגין של האינדקס, ודאו שיש לכם את הרכיבים הנדרשים הבאים:

  • Java JRE גרסה 1.8 מותקנת במחשב שבו פועל הפלאגין של Indexer
  • המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Cloud Search לבין Norconex HTTP Collector:

    בדרך כלל, האדמין ב-Google Workspace של הדומיין יכול לספק לכם את פרטי הכניסה האלה.

שלבי הפריסה

כדי לפרוס את הפלאגין ליצירת אינדקס, בצע את השלבים הבאים:

  1. מתקינים את Norconex HTTP Collector ואת תוכנת הפלאגין של Indexer
  2. הגדרת Google Cloud Search
  3. הגדרת Norconex HTTP Collector
  4. הגדרה של סריקת אינטרנט
  5. התחלה של סריקת אינטרנט והעלאת תוכן

שלב 1: מתקינים את Norconex HTTP Collector ואת תוכנת הפלאגין של Indexer

  1. הורידו את תוכנת השמירה של Norconex מהדף הזה.
  2. מחלצים את הקבצים של התוכנה שהורדתם לתיקייה ~/norconex/
  3. שכפול הפלאגין של ה-Commit מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ולאחר מכן cd norconex-committer-plugin
  4. כדאי לבדוק את הגרסה הרצויה של הפלאגין של Conteer וליצור את קובץ ה-ZIP: git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות במהלך בניית המחבר, משתמשים ב-mvn package -DskipTests).
  5. cd target
  6. מעתיקים את קובץ ה-מאגר של הפלאגין המובנה לספריית Norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. מחלצים את קובץ ה-ZIP שיצרתם ומחלצים את הקובץ: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה- .jar של הפלאגין, ואת כל הספריות הנדרשות לספרייה של אוסף ה-http:
    1. בוצע שינוי של קובץ ה-cookie שחולץ, מתוך הדחיסה שלמעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. מפעילים את $ sh install.sh ומספקים את הנתיב המלא אל norconex/norconex-collector-http-{version}/lib כספריית היעד כשמופיעה בקשה לכך.
    3. אם יימצאו קבצים כפולים של מאגר, יש לבחור באפשרות 1 (העתקת צנצנת המקור רק אם הגרסה גדולה יותר או זהה לגרסה של צנצנת היעד לאחר שינוי השם של ה-Jar של היעד).

שלב 2: הגדרת Google Cloud Search

כדי שהפלאגין של Indexer יוכל להתחבר ל-Norconex HTTP Collector ולהוסיף לאינדקס את התוכן הרלוונטי, יש ליצור את קובץ התצורה של Cloud Search בספריית Norconex שבה מותקן Norconex HTTP Collector. Google ממליצה לתת לקובץ התצורה של Cloud Search את השם sdk-configuration.properties.

קובץ התצורה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. קובץ התצורה צריך לציין לפחות את הפרמטרים הבאים, שנחוצים כדי לגשת למקור הנתונים של Cloud Search.

הגדרה פרמטר
מזהה של מקור נתונים api.sourceId = 1234567890abcdef
חובה. מזהה המקור ב-Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות ב-Cloud Search שנוצר על ידי האדמין ב-Google Workspace לצורך נגישות של יישומי פלאגין לאינדקס.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ התצורה יכול גם להכיל פרמטרים תצורה שסופקו על ידי Google. הפרמטרים האלה יכולים להשפיע על האופן שבו הפלאגין הזה דוחף נתונים ל-Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מזהה איך המחבר משלב בקשות.

אם לא מגדירים פרמטר בקובץ התצורה, ייעשה שימוש בערך ברירת המחדל, אם הוא זמין. לתיאורים מפורטים של כל פרמטר, ראו פרמטרים של מחברים שסופקו על ידי Google.

ניתן להגדיר את הפלאגין של האינדקס כדי לאכלס מטא-נתונים ונתונים מובְנים עבור תוכן שנוסף לאינדקס. ניתן לחלץ את הערכים לאכלוס עבור שדות של מטא-נתונים ונתונים מובְנים ממטא תגים בתוכן HTML שמתווסף לאינדקס, או לציין את ערכי ברירת המחדל בקובץ התצורה.

הגדרה פרמטר
שם הסרטון itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
כברירת מחדל, הפלאגין משתמש ב-HTML title ככותרת של המסמך שנוסף לאינדקס. אם חסרה כותרת, תוכלו להפנות למאפיין המטא-נתונים שמכיל את הערך שתואם לכותרת המסמך או להגדיר ערך ברירת מחדל.
חותמת הזמן של היצירה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שנוצרים לאינדקס.
סוג אובייקט הסכימה itemMetadata.objectType=movie
סוג האובייקט שמשמש את האתר, כפי שמוגדר בהגדרות האובייקט של סכימת מקורות נתונים. המחבר לא יוסיף לאינדקס נתונים מובְנים אם המאפיין הזה לא צוין.

הערה: מאפיין התצורה הזה מפנה לערך ולא למאפיין של מטא-נתונים, ואין תמיכה בסיומות .field ו-.defaultValue.

פורמטים של תאריך ושעה

פורמטים של תאריך ושעה מציינים את הפורמטים הצפויים במאפייני המטא נתונים. אם קובץ התצורה לא מכיל את הפרמטר הזה, נעשה שימוש בערכי ברירת המחדל. הטבלה הבאה מציגה את הפרמטר הזה.

הגדרה

פרמטר

תבניות נוספות של תאריכים ושעות

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה של תבניות Java.time.format.DateTimeFormatter נוספות שמופרדות באמצעות נקודה-פסיק. נעשה שימוש בתבניות האלה כשמנתחים ערכי מחרוזות של שדות תאריך או תאריך ושעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

שלב 3: מגדירים את Norconex HTTP Collector

ארכיון ה-ZIP norconex-committer-google-cloud-search-{version}.zip כולל קובץ תצורה לדוגמה, minimum-config.xml.

Google ממליצה להתחיל את תהליך ההגדרה על ידי העתקת הקובץ לדוגמה:

  1. משנים לספרייה של Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. מעתיקים את קובץ התצורה:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. עורכים את הקובץ החדש שנוצר (בדוגמה הזו, gcs-crawl-config.xml) ומוסיפים או מחליפים צמתים קיימים של <committer> ו-<tagger>, כפי שמתואר בטבלה הבאה.
הגדרה פרמטר
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת <committer> כצאצא של צומת השורש <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. הפורמט שבו הפלאגין של ה-Indexer דוחף תוכן מסמכים אל Google Cloud Search Indexer API. הערכים החוקיים הם:
  • raw: הפלאגין ליצירת אינדקס מעביר תוכן מקורי של מסמך שלא בוצעה לו המרה.
  • text: הפלאגין ליצירת אינדקס דוחף תוכן טקסטואלי שחולץ.

ערך ברירת המחדל הוא raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
חובה אם הערך של <UploadFormat> הוא raw. במקרה הזה, הפלאגין של האינדקס צריך ששדה התוכן הבינארי של המסמך יהיה זמין.

צריך להוסיף את הצומת BinaryContentTagger <tagger> כרכיב צאצא של הצומת <importer> / <preParseHandlers>.

בדוגמה הבאה מוצג השינוי הנדרש ל- gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: מגדירים את סריקת האינטרנט

לפני שמתחילים בסריקת אינטרנט, צריך להגדיר את הסריקה כך שהיא תכלול רק מידע שהארגון שלכם רוצה שיהפוך לזמין בתוצאות החיפוש. ההגדרות החשובות ביותר לסריקת אינטרנט הן חלק מהצמתים של <crawler>, והן יכולות לכלול:

  • כתובות אתר של התחלה
  • עומק מקסימלי של הסריקה
  • מספר השרשורים

משנים את ערכי ההגדרות האישיות בהתאם לצרכים שלכם. למידע מפורט יותר על הגדרה של סריקת אינטרנט ולרשימה מלאה של הפרמטרים הזמינים של ההגדרות, קראו את הדף Configuration ב-HTTP Collector.

שלב 5: מתחילים בסריקת אינטרנט ומעלים תוכן

אחרי שמתקינים ומגדירים את הפלאגין Indexer, אפשר להריץ אותו לבד במצב מקומי.

הדוגמה הבאה מבוססת על ההנחה שהרכיבים הנדרשים נמצאים בספרייה המקומית במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחר הסורק באמצעות JEF Monitor

Norconex JEF (Job Execution Framework) הוא כלי גרפי למעקב אחרי ההתקדמות של תהליכים ומשימות של סורק האינטרנט Norconex (HTTP Collector). למדריך מלא על אופן הגדרת כלי השירות הזה, ראו מעקב אחר התקדמות הסורק באמצעות JEF Monitor.