פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לכלי לאינדקס של Google Cloud Search Norconex HTTP Collector מנהלי יישומי פלאגין, כלומר כל מי שאחראי על ההורדה, פריסה, הגדרה ותחזוקה של הפלאגין של האינדקס. המדריך מניח שאתם מכירים, מערכות ההפעלה Linux, יסודות האינטרנט סריקה, XML ו Norconex HTTP Collector

המדריך הזה כולל הוראות לביצוע משימות מרכזיות שקשורות לכלי לאינדקס פריסת יישומי פלאגין:

  • הורדת תוכנת הפלאגין של האינדקס
  • הגדרת Google Cloud Search
  • הגדרה של Norconex HTTP Collector וסריקת אינטרנט
  • מתחילים את סריקת האינטרנט ומעלים תוכן

מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע מיפוי של Google Cloud Search לפלאגין של כלי ההוספה לאינדקס של Norconex HTTP Collector לא מופיע במדריך זה. מידע נוסף על המשימות האלה זמין במאמר ניהול מקורות נתונים של צד שלישי

סקירה כללית של הפלאגין ליצירת אינדקס ב-Cloud Search Norconex HTTP Collector

כברירת מחדל, Cloud Search יכול לגלות, להוסיף לאינדקס ולהציג תוכן מ- מוצרי Google Workspace, כמו Google Docs ו-Gmail. אפשר להרחיב של Google Cloud Search, כדי להציג למשתמשים תוכן מהאינטרנט באמצעות לפרוס את הפלאגין של האינדקס Norconex HTTP Collector, לסורק אינטרנט של הארגון בקוד פתוח.

קובצי מאפייני הגדרות

כדי לאפשר לפלאגין של כלי האינדקס לבצע סריקות אינטרנט ולהעלות תוכן אל ממשק ה-API של האינדקס, אתם, כמנהלי הפלאגין של האינדקס, מספקים לכם מידע במהלך שלבי ההגדרה שמתוארים במסמך הזה שלבי הפריסה.

כדי להשתמש בפלאגין של כלי האינדקס, צריך להגדיר מאפיינים בשני קובצי תצורה:

  • {gcs-crawl-config.xml}-- מכיל הגדרות ל-Norconex HTTP Collector.
  • sdk-configuration.properties-- מכיל הגדרות ל-Google Cloud Search.

המאפיינים בכל קובץ מפעילים את הפלאגין של Google Cloud Search לאינדקס, וגם Norconex HTTP Collector לתקשורת זה עם זה.

סריקת אינטרנט והעלאת תוכן

אחרי שתמלאו את קובצי התצורה, כדי להתחיל את סריקת האינטרנט. סריקות של Norconex HTTP Collector באינטרנט, גילוי תוכן של מסמכים שקשור לתצורה שלו מעלה לענן את הגרסאות הבינאריות (או הטקסט) המקוריות של תוכן המסמכים ממשק API להוספת חיפוש לאינדקס, שבו הוא נוסף לאינדקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

יש להתקין את הפלאגין של Google Cloud Search Norconex HTTP Collector לאינדקס ב-Linux.

גרסה נתמכת של Norconex HTTP Collector

הפלאגין של Google Cloud Search Norconex HTTP Collector לאינדקס תומך בגרסה 2.8.0.

תמיכה ברשימת ACL

הפלאגין של האינדקס תומך בשליטה בגישה למסמכים דומיין ב-Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם רשימות ACL שמשמשות כברירת מחדל מופעלות בתצורה של הפלאגין של Google Cloud Search (defaultAcl.mode מוגדר לערך שאינו none ומוגדר באמצעות defaultAcl.*), הפלאגין של האינדקס מנסה קודם ליצור רשימת ACL שמשמשת כברירת מחדל ולהחיל אותה.

אם רשימות ה-ACL שמשמשות כברירת המחדל לא מופעלות, הפלאגין יחזור להעניק הרשאת קריאה לכל הדומיין ב-Google Workspace.

לתיאורים מפורטים של פרמטרים להגדרת ACL, פרמטרים של מחבר ש-Google מספקת.

דרישות מוקדמות

לפני פריסת הפלאגין של האינדקס, צריך לוודא מהרכיבים הנדרשים:

  • התקנת Java JRE 1.8 במחשב שבו פועל הפלאגין של הכלי לאינדקס
  • המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Cloud Search ו-Norconex HTTP Collector:

    בדרך כלל, האדמין ב-Google Workspace של הדומיין יכול לספק את הפרטים האלה בשבילכם.

שלבי הפריסה

כדי לפרוס את הפלאגין של האינדקס, מבצעים את השלבים הבאים:

  1. התקנת Norconex HTTP Collector ואת תוכנת הפלאגין של כלי ההוספה לאינדקס
  2. הגדרת Google Cloud Search
  3. הגדרה של Norconex HTTP Collector
  4. הגדרת סריקת אינטרנט
  5. התחלה של סריקת אינטרנט והעלאת תוכן

שלב 1: מתקינים את Norconex HTTP Collector ואת תוכנת הפלאגין של Norconex

  1. מורידים את התוכנה Norconex Comeer מ: הדף הזה.
  2. מחלצים את התוכנה שהורדתם לתיקייה ~/norconex/
  3. משכפלים את הפלאגין של הלוקל מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git והקבוצה ואחר כך cd norconex-committer-plugin
  4. אתם צריכים לבדוק את הגרסה הרצויה של הפלאגין Comeer וליצור את קובץ ה-ZIP: git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות בזמן הבנייה את המחבר, יש להשתמש ב-mvn package -DskipTests.)
  5. cd target
  6. מעתיקים את קובץ ה-jar של הפלאגין המובנה לספרייה Norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. מחלצים את קובץ ה-ZIP שיצרתם כרגע, ולאחר מכן מחלצים את הקובץ: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה- .jar של הפלאגין ואת כל מה שצריך ספריות לספרייה של אוסף ה-http:
    1. שינוי לפריסת ה-ZIP של הפלאגין של Conversion שחולץ למעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. להפעיל את $ sh install.sh ולציין את הנתיב המלא אל norconex/norconex-collector-http-{version}/lib כיעד לספרייה כשמוצגת הנחיה לעשות זאת.
    3. אם נמצאו קובצי מאגר כפולים, בוחרים באפשרות 1 (העתקת צנצנת המקור בלבד אם היא גדולה יותר או זהה לגרסה של 'צנצנת יעד' אחרי שינוי השם של 'צנצנת היעד').

שלב 2: מגדירים את Google Cloud Search

כדי שהפלאגין של האינדקס יוכל להתחבר ל-Norconex HTTP Collector ולהוסיף לאינדקס את יש ליצור את קובץ התצורה של Cloud Search ספריית Norconex שבה מותקן HTTP Collector Google ממליצה נותנים שם לקובץ התצורה של Cloud Search. sdk-configuration.properties

קובץ התצורה הזה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. קובץ התצורה חייב לציין לפחות את הפרמטרים הבאים, שהם שנדרשים כדי לגשת למקור הנתונים של Cloud Search.

הגדרה פרמטר
מזהה מקור הנתונים api.sourceId = 1234567890abcdef
חובה. מזהה המקור ב-Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות ב-Cloud Search שנוצר על ידי האדמין ב-Google Workspace לצורך נגישות לפלאגין של הכלי לאינדקס.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ התצורה יכול גם להכיל פרמטרים של תצורה ש-Google מספקת. הפרמטרים האלה יכולים להשפיע על האופן שבו הפלאגין הזה דוחף נתונים ל-Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מזהה את האופן שבו המחבר משלב בקשות.

אם לא מגדירים פרמטר בקובץ התצורה, ערך ברירת המחדל אם קיים, נעשה בו שימוש. לתיאורים מפורטים של כל פרמטר: פרמטרים של מחבר ש-Google מספקת.

אפשר להגדיר את הפלאגין של האינדקס כדי לאכלס מטא-נתונים ונתונים מובְנים עבור של התוכן שנוסף לאינדקס. ערכים שיאוכלסו למטא-נתונים ולנתונים מובְנים ניתן לחלץ שדות ממטא תגים בתוכן HTML שנוסף לאינדקס, או ניתן לציין את ערכי ברירת המחדל בקובץ התצורה.

הגדרה פרמטר
כותרת itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
כברירת מחדל, הפלאגין משתמש ב-HTML title ככותרת של המסמך שנוסף לאינדקס. אם חסרה כותרת, אפשר להפנות אל מאפיין המטא-נתונים שמכיל את הערך שתואם לכותרת המסמך או מגדיר ערך ברירת מחדל.
חותמת הזמן שנוצרה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שנוספו לאינדקס.
סוג אובייקט Schema itemMetadata.objectType=movie
סוג האובייקט שמשמש את האתר, כפי שמוגדר בתג הגדרות אובייקטים בסכימה של מקור נתונים. המחבר לא יוסיף לאינדקס אף אחד נתונים מובְנים, אם המאפיין הזה לא צוין.

הערה: מאפיין ההגדרה הזה מפנה לערך מאשר מאפיין של מטא-נתונים, והמאפיין .field ו אין תמיכה בסיומות של .defaultValue.

פורמטים של תאריך ושעה

הפורמטים של תאריך ושעה מציינים את הפורמטים הנדרשים במאפייני המטא-נתונים. אם קובץ התצורה לא מכיל את הפרמטר הזה, ערכי ברירת המחדל הם בשימוש. הפרמטר הזה מוצג בטבלה הבאה.

הגדרה

פרמטר

תבניות נוספות של תאריכים ושעות

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה שמופרדת באמצעות נקודה-פסיק של JavaScript.time.format.DateTimeFormatter נוסף דפוסים. התבניות משמשות לניתוח של ערכי מחרוזות בכל תאריך או שעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל הפורמטים RFC 3339 ו-RFC 1123 תמיד נתמכים.

שלב 3: מגדירים את Norconex HTTP Collector

ארכיון ה-ZIP norconex-committer-google-cloud-search-{version}.zipכולל קובץ תצורה לדוגמה, minimum-config.xml.

Google ממליצה להתחיל את תהליך ההגדרה על ידי העתקת הקובץ לדוגמה:

  1. שינוי לספרייה Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. מעתיקים את קובץ התצורה:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. עורכים את הקובץ החדש שנוצר (בדוגמה הזו, gcs-crawl-config.xml) ו הוספה או החלפה של צמתים <committer> ו-<tagger> קיימים, כפי שמתואר ב בטבלה הבאה.
הגדרה פרמטר
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

זהו שדה חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת <committer> כצאצא של צומת השורש <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. הפורמט שבו הפלאגין ליצירת אינדקס דוחף תוכן מסמכים ל-Google Cloud Search Indexer API. הערכים החוקיים הם:
  • raw: הפלאגין של הכלי לאינדקס דוחף תוכן מקורי של מסמך שלא עבר המרה.
  • text: הפלאגין של הכלי לאינדקס דוחף תוכן טקסטואלי שחולץ.

ערך ברירת המחדל הוא raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
חובה אם הערך של <UploadFormat> הוא raw. במקרה כזה, הפלאגין של האינדקס צריך ששדה התוכן הבינארי של המסמך יהיה זמין.

צריך להוסיף את הצומת BinaryContentTagger <tagger> כרכיב צאצא של הצומת <importer> / <preParseHandlers>.

בדוגמה הבאה ניתן לראות שינוי ל- gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרה של סריקת האינטרנט

לפני שתתחיל סריקת אינטרנט, עליך להגדיר את הסריקה כך שהיא כולל מידע שהארגון שלך רוצה להציג בחיפוש תוצאות. ההגדרות החשובות ביותר לסריקת אינטרנט הן חלק מ<crawler> צמתים יכולים לכלול:

  • כתובות URL להתחלה
  • עומק מקסימלי של הסריקה
  • מספר השרשורים

משנים את ערכי ההגדרות האישיות בהתאם לצרכים שלכם. לקבלת פרטים נוספים מידע על הגדרת סריקת אינטרנט, וכן רשימה מלאה של הכלים הזמינים את הפרמטרים האישיות של HTTP Collector הגדרה הדף הזה.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

לאחר ההתקנה וההגדרה של הפלאגין של הכלי ליצירת אינדקס, ניתן להריץ אותו על במצב מקומי.

בדוגמה הבאה ההנחה היא שהרכיבים הנדרשים ממוקמים במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

מוניטור Norconex JEF (Job Execution Framework) הוא כלי גרפי עבור מעקב אחר ההתקדמות של תהליכי סורק האינטרנט של Norconex (HTTP Collector) ומשרות. למדריך המלא על אופן ההגדרה של כלי השירות הזה, אפשר להיכנס לכתובת עוקבים אחרי התקדמות הסורק בעזרת JEF Monitor.