הטמעת נתונים בכמות גדולה

הפידים של הנתונים מאפשרים להפוך את המסעדה, השירותים והתפריט שלכם לזמינים ב'הזמנות מקצה לקצה'.

במסמך הזה מוסבר איך לארח את מלאי שטחי הפרסום והמלאי של ארגז החול בסביבת הייצור ולהשתמש בהטמעת נתונים באצווה כדי לעדכן את המלאי שלכם ב'הזמנות מקצה לקצה'.

סביבות של פיד נתונים

יש שלוש סביבות של פיד נתונים הזמינות לפיתוח השילוב שלכם:

סביבת הפיד תיאור הטמעת נתונים באצווה
ארגז חול סביבת הבדיקה לפיתוח הפיד. חובה
ייצור סביבת הייצור של המלאי שרוצים להשיק. חובה

אירוח פידים של נתונים

כדי שההזמנה מקצה לקצה תעבד את פיד הנתונים של ארגז החול ושל סביבת הייצור לפי אצווה בהטמעת נתונים, צריך לארח את קובצי פיד הנתונים ב-Google Cloud Storage, ב-Amazon S3 או ב-HTTPS באמצעות ב-sitemap.

מומלץ לארח את הפידים של הנתונים עבור סביבות ה-Sandbox וסביבות הייצור בנפרד. הגישה הזו מאפשרת לכם לבצע פיתוח ובדיקה בסביבת הפיד של Sandbox לפני פריסת השינויים בסביבת הייצור.

לדוגמה, אם אתם משתמשים ב-Google Cloud Storage כאפשרות אירוח, תקבלו את הדברים הבאים נתיבים:

  • פיד Sandbox: gs://foorestaurant-google-feed-sandbox/
  • פיד ייצור: gs://foorestaurant-google-feed-prod/

כדי לארח את מלאי שטחי הפרסום, מבצעים את הפעולות הבאות:

  1. יוצרים את הקבצים של פיד הנתונים.
  2. בוחרים פתרון אירוח.
  3. מארחים את הפידים של הנתונים.
  4. לוודא שקובצי פיד הנתונים מתעדכנים באופן קבוע. צריך לעדכן פידים של נתוני ייצור בכל יום.

לקבלת פרטים נוספים על יצירת פיד מלאי, אפשר לעיין במסמכים של Restaurant Service, ו-Menu וגם את המודלים יצירת פיד נתונים .

הנחיות לגבי קובצי פיד נתונים

כל קובץ, שיכול להכיל כמה ישויות, לא יכול לחרוג מ- 200MB. ברמה העליונה הישויות Restaurant, Service ו-Menu, יחד עם ישויות צאצא, לא לחרוג מ-4MB יחד.

בחירת פתרון אירוח

בטבלה הבאה מפורטות האפשרויות לאירוח הפידים של הנתונים, ואופן הפעולה של המארחים האלה. מזמינים מקצה לקצה:

Amazon S3 Google Cloud Storage HTTPS עם sitemap
פרטי כניסה וגישה

עליכם לספק ל-Google את הפרטים הבאים:

  • מזהה מפתח הגישה
  • מפתח גישה סודי
  • הנתיבים לספריות S3 של סביבת הייצור וארגז החול ול-marker.txt חדש. הנתיב חייב להתחיל ב-s3://.

הקטגוריה של S3 צריכה לכלול את המידע הבא:

  • קובצי פיד למלאי.
  • marker.txt, שמכיל חותמת זמן שמשמשת לאחזור.

קובץ marker.txt לדוגמה: 2018-12-03T08:30:42.694Z

לספק ל-Google את הנתיבים לספריות הקטגוריות של סביבת הייצור וארגז החול, וגם קובץ marker.txt. הנתיבים חייבים להתחיל ב-gs://.

מוסיפים את חשבון השירות שסופק על ידי היועץ שלכם ב-Google כקורא של חשבון Google קטגוריה של Cloud Storage.

מידע נוסף על בקרה על הגישה ל-Google Cloud Storage (GCS) זמין במאמר Google Cloud Platform Console: הגדרת הרשאות לקטגוריה.

הקטגוריה של GCS צריכה לכלול את המידע הבא:

  • קובצי פיד למלאי.
  • marker.txt, שמכיל חותמת זמן שמשמשת לאחזור.

קובץ marker.txt לדוגמה: 2018-12-03T08:30:42.694Z

עליכם לספק ל-Google את הפרטים הבאים:

  • פרטי כניסה לאימות הבסיסי שלך.
  • הנתיב לנתיבים של sitemap בסביבת הייצור ובארגז החול. הנתיב חייב להתחיל ב-https://.
  • פרוטוקול: צריך להגדיר את קובצי הפיד כזמינים ב-HTTPS ולא ב-HTTP.
  • אבטחה: Google ממליצה מאוד להגן על קובצי הפיד המתארחים באמצעות אימות בסיסי.
איך Google יודעת אילו קבצים צריך לאחזר הצגת רשימה של כל הקבצים בקטגוריה. הצגת רשימה של כל הקבצים בקטגוריה. כתובות URL נפרדות של קבצים שרשומים ב-sitemap.
איך Google יודעת שהקבצים מוכנים לאחזור אחרי שמסיימים ליצור את הפידים של הנתונים, צריך לעדכן את הקובץ marker.txt עם חותמת הזמן העדכנית ביותר. אחרי שמסיימים ליצור את הפידים של הנתונים, צריך לעדכן את הקובץ marker.txt עם חותמת הזמן העדכנית ביותר. אחרי שמסיימים ליצור את הפידים של הנתונים, צריך לעדכן את כותרת התגובה last-modified של sitemap.xml עם חותמת הזמן העדכנית ביותר.
מגבלות קבצים

מספר קבצים מקסימלי: 100,000.

בקטגוריה של Amazon S3 צריכים להיות פחות מ-100,000 קבצים בסך הכול.

מספר קבצים מקסימלי: 100,000.

בקטגוריה של Google Cloud Storage יכולים להיות פחות מ-100,000 קבצים בסך הכול.

מספר קבצים מקסימלי: 100,000.

מספר נתיבי הקבצים בקובץ ה-XML של ה-Sitemap חייב להיות קטן מ-100,000.

קישור הפידים של הנתונים להטמעת נתונים באצווה

אחרי שמארחים את הפידים, צריך לחבר אותם לפרויקט ב-Actions Center. ההגדרה הראשונית של פידים בסביבת הייצור מתבצעת בדף משימות הדרכה. מאוחר יותר כל משתמשי פורטל שיש להם גישה לפורטל, יכולים תמיד לעדכן את הגדרת הפידים של סביבת הייצור ושל ארגז החול דרך הדף הגדרות > פידים. בתפקיד מנהלי מערכת. סביבת ה-Sandbox משמשת למטרות פיתוח ובדיקה, ואילו הפידים של סביבת הייצור מוצגים למשתמשים.

אם אתם מארחים את הפידים של הנתונים ב-Amazon S3

  1. ב-Actions Center, עוברים אל Configuration > פידים.
  2. לוחצים על עריכה וממלאים את הטופס עדכון הפיד:

    • Feed delivery method:מגדירים ל-Amazon S3.
    • קובץ סמנים: מספקים את כתובת ה-URL של הקובץ marker.txt.
    • קובצי נתונים: מספקים את כתובת ה-URL של קטגוריית S3 שמכילה את הפידים של הנתונים.
    • מזהה גישה: מזינים את מזהה מפתח הגישה של IAM עם הרשאות לקריאה מ-S3 המשאבים.
    • מפתח גישה: מזינים את מפתח הגישה הסודי של IAM, שיש לו הרשאות לקריאה מ-S3 המשאבים.
  3. לוחצים על שליחה.
  4. לאחר שעה או שעתיים, בודקים אם הטמעת נתונים בכמות גדולה מאחזרת את קובצי הפיד.

אם אתם מארחים את הפידים של הנתונים ב-Google Cloud Storage

  1. ב-Actions Center, עוברים אל Configuration > פידים.
  2. לוחצים על עריכה וממלאים את הטופס עדכון הפיד:

    • שיטת העברת הפיד: מוגדרת ל-Google Cloud Storage.
    • קובץ סמנים: מספקים את כתובת ה-URL של הקובץ marker.txt.
    • קובצי נתונים: מספקים את כתובת ה-URL של קטגוריית GCS שמכילה את הפידים של הנתונים.
  3. לוחצים על שליחה.
  4. המערכת יוצרת חשבון שירות כדי לגשת לקטגוריה שלכם ב-GCS. שם החשבון נמצא ב- הגדרה > פידים אחרי משימות ההצטרפות שהושלמו. לחשבון השירות הזה צריך להיות התפקיד 'קריאת אובייקטים באחסון מדור קודם'. התפקיד הזה יכול תוענק לחשבון השירות בדף IAM שבמסוף Google Cloud.
  5. לאחר שעה או שעתיים, בודקים אם הטמעת נתונים בכמות גדולה מאחזרת את קובצי הפיד.

אם אתם מארחים את הפידים של הנתונים באמצעות HTTPS

  1. ב-Actions Center, עוברים אל Configuration > פידים.
  2. לוחצים על עריכה וממלאים את הטופס עדכון הפיד:

    • שיטת העברת הפיד: מגדירים ל-HTTPS.
    • קובץ sitemap: יש לציין את כתובת ה-URL של הקובץ sitemap.xml.
    • שם משתמש: מזינים את פרטי הכניסה של שם המשתמש כדי לגשת לשרת ה-HTTPS.
    • סיסמה: מזינים את הסיסמה כדי לגשת לשרת ה-HTTPS.
  3. לוחצים על שליחה.
  4. לאחר שעה או שעתיים, בודקים אם הטמעת נתונים בכמות גדולה מאחזרת את קובצי הפיד.

נתיבים לדוגמה

הטבלה הבאה מכילה נתיבים לדוגמה לכל אחת מאפשרויות האירוח:

Amazon S3 Google Cloud Storage HTTPS עם sitemap
נתיב s3://foorestaurant-google-feed-sandbox/ gs://foorestaurant-google-feed-sandbox/ https://sandbox-foorestaurant.com/sitemap.xml
קובץ סמן s3://foorestaurant-google-feed-sandbox/marker.txt gs://foorestaurant-google-feed-sandbox/marker.txt לא רלוונטי

קובצי Sitemap לאירוח HTTPS

כשמגדירים קובצי Sitemap, יש לפעול לפי ההנחיות הבאות:

  • הקישורים ב-sitemap חייבים להפנות לקבצים עצמם.
  • אם ה-sitemap שלכם כולל הפניות לספק שירותי ענן במקום לשם דומיין שלכם, לוודא שההתחלה של כתובות ה-URL, כמו https://www.yourcloudprovider.com/your_id, יציבים וייחודיים למשימה באצווה.
  • הקפידו לא להעלות קובצי Sitemap חלקיים (למשל, במקרה של העלאת נתונים חלקית). ביצוע כתוצאה מכך Google תטמיע רק את הקבצים שב-sitemap, וזה יגרום למלאי שטחי הפרסום שלכם רמות שונות, ועלולות לגרום לחסימת הטמעת הנתונים של הפיד.
  • חשוב לוודא שהנתיבים לקבצים שב-sitemap מפנים אליהם לא משתנים. לדוגמה, לא מומלץ יש הפניה ל-sitemap באתר https://www.yourcloudprovider.com/your_id/10000.json היום אבל אז יש להתייחס אל https://www.yourcloudprovider.com/your_id/20000.json מחר.
Sitemap לדוגמה

קובץ sitemap.xml לדוגמה שמציג קובצי פיד נתונים:

דוגמה 1: ישויות שמקובצות לפי מוכרים (מומלץ).

XML

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_1.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_2.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_3.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
</urlset>

דוגמה 2: ישויות שמקובצות לפי סוגים.

XML

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>https://your_fulfillment_url.com/restaurant.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/menu.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/service.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
</urlset>

עדכון הפידים של הנתונים

אחרי שמקשרים את הפידים של הנתונים, Google בודקת אם יש עדכונים פעם בשעה, אבל אנחנו מטמיעים רק את הנתונים את כל הפידים של הנתונים כשהקבצים marker.txt או sitemap.xml שונה. כדי למנוע מצב שבו מלאי לא פעיל, אנחנו מצפים לעדכן את הפידים של הנתונים פעם ביום.

כדי לציין שהפידים של הנתונים השתנו והם מוכנים להטמעת נתונים בכמות גדולה, צריך לעדכן את שדה מטא-נתונים של אובייקט last-modified בקובץ marker.txt (ל-GCP ו- S3) או כותרת התגובה last-modified של הקובץ sitemap.xml. Google משתמשת בערכים האלה כדי לקבוע את מידת העדכניות של פיד הנתונים.

בזמן הטמעת הפיד באצווה,

  • ישויות חדשות שלא קיימות במלאי 'הזמנות מקצה לקצה' הנוכחי ואין להן יוכנסו שגיאות.
  • ישויות שכבר קיימות במלאי שאין בהן שגיאות בהטמעת הנתונים ויש להם dateModified נתונים עדכניים יותר ברשומה הנוכחית או במקרה של אין dateModified, שעת ההתחלה של הטמעת הנתונים של הפיד עדכנית יותר מהרשומה הנוכחית שבה הם היו יכולים מעודכנים, אחרת הם יסומנו כמיושנים.
  • ישויות שהיו חלק מפיד קודם שכבר לא כלולות בפיד הפיד המעובד שנמצא בעיבוד יימחק, בתנאי שאין קובץ רמת השגיאות בפיד.

צריך לעדכן את חותמת הזמן או את כותרת התשובה last-modified רק אחרי כל הנתונים קובצי הפיד נוצרים ומעודכנים. הגבלת המשימות באצווה שמעדכנות את הפידים של הנתונים כך שיפעלו רק פעם ביום. לחלופין, מומלץ לשמור על מרווח של לפחות שלוש שעות בין כל משימה באצווה. אחרת לבצע את השלבים האלה, יכול להיות ש-Google תאחזר קבצים לא פעילים.