פיצוי על הרחבות, פרשנויות ואופטימיזציות ברירת מחדל

ל-Google Cloud Search יש כמה הרחבות, פרשנויות ואופטימיזציות שמוגדרות כברירת מחדל ומשפיעות על תוצאות החיפוש. אם אתם רואים תוצאות לא צפויות משאילתות חיפוש, כדאי לעיין במדריך הזה לפני שפונים לתמיכה של Cloud Search.

הרחבות שמוגדרות כברירת מחדל

נניח שמשתמש מחפש באמצעות מחרוזת, כמו [Joe’s PDFs], אבל חלק מהתוצאות שמוחזרות מכילות מילים מודגשות, כמו 'documents', במקום 'PDFs'. למה התוצאות כוללות את המילים המודגשות שלא הופיעו בשאילתת החיפוש?

כברירת מחדל, Google Cloud Search, כמו חיפוש האינטרנט של Google, לא מחפש רק את המילים המדויקות בשאילתה. במקום זאת, Cloud Search מרחיב את השאילתה כך שתכלול מילים נרדפות וצורות בסיסיות של מילים (גם אם לא הטמעתם מילים נרדפות משלכם). ההרחבה הזו מתבצעת כדי לאחזר מסמכים שתואמים באופן כללי לרעיון ולכוונת השאילתה. אחרי שנבחרה קבוצה רחבה של מסמכים, אלגוריתמי הדירוג פועלים כדי לוודא שההתאמות הטובות ביותר יופיעו בראש קבוצת התוצאות.

כשהמשתמש חיפש [Joe’s PDFs], ‏ Cloud Search סיפק את המילים הבאות כמילים נוספות שמתאימות לחיפוש:

  • במקרה של [Joe’s], יכול להיות ש-Cloud Search יתאים גם את המחרוזת 'joe' (הרחבה של שורש) ואת המחרוזת 'joes' (מילה נרדפת שמבוססת על סימני פיסוק).
  • במקרה של [קובצי PDF], יכול להיות ש-Cloud Search יתאים גם ל'מסמכים' (הרחבת מילים נרדפות) וגם ל'pdf' (הרחבת שורש).

כברירת מחדל, מילים נרדפות לא בהכרח פועלות בשני הכיוונים. לדוגמה, אם משתמש מחפש את המונח 'פישינג', יכול להיות ש-Cloud Search יתאים את המונח 'פישינג' כהרחבה של מילה נרדפת. עם זאת, אם המשתמש יחפש את המונח "פישינג", יכול להיות ש-Google לא תתאים את המונח "פישינג" כהרחבה.

הרחבות למילים עם מקף לעומת מילים ללא מקף

כשמשתמש מחפש מילים עם מקף לעומת מילים בלי מקף, כמו [walk-in closet] ו-[walk in closet], ‏ Cloud Search מתייחס לשאילתות האלה באופן שונה.

בנוסף, נעשה שימוש באופטימיזציות שונות למילים עם מקף ולמילים עם קו תחתון, כמו [walk-in] ו-[walk_in].

פיצוי על הרחבות ברירת מחדל

כברירת מחדל, אין ערובה להרחבה כלשהי. אם רוצים לוודא שהמערכת תתייחס למילים נרדפות בשני הכיוונים או להרחבות של מילים נרדפות שספציפיות לדומיין, צריך ליצור קבוצה משלכם של מילים נרדפות שספציפיות לדומיין. מידע נוסף על הטמעת מילים נרדפות זמין במאמר הגדרת מילים נרדפות.

פרשנויות ברירת מחדל

בנוסף, Cloud Search מספק תרגום לשפה טבעית, שמתרגם את האובייקטים, המאפיינים וערכי השדות שמשמשים בשאילתה בהתאם לסכימה שהועלתה למקור נתונים מסוים. למידע נוסף על הפרשנות של השפה הטבעית, אפשר לעיין במאמר יצירת מבנה לסכימה כדי לקבל פרשנות אופטימלית של שאילתות.

השבתת פרשנויות של שפה טבעית

כדי להשבית את הפרשנויות של שפה טבעית בשאילתה ספציפית, צריך להגדיר את הפרמטר QueryInterpretationOptions.disableNlInterpretation לערך true בבקשת החיפוש.

אופטימיזציות ברירת מחדל

‫Cloud Search מספק גם את האופטימיזציות הבאות כברירת מחדל:

  • שילוב תוצאות שמתקבלות מתיקון שגיאות איות. לדוגמה, אם מחרוזת השאילתה הייתה [corpoate benefits], ‏ Cloud Search יתאים את המילה corpoate לאיות הנכון של corporate.

  • לשאילתות שמניבות אפס או מעט תוצאות, Cloud Search משתמש במערכת מתירנית יותר של מונחים קשורים, רחבה יותר ממילים נרדפות ישירות, כשמתאימים תוצאות. מידע נוסף זמין במאמר בנושא טיפול בתוצאות משניות.

נרמול מסמכים ושאילתות

נרמול הוא תהליך של סטנדרטיזציה של מילים או ביטויים מסוימים לפני או אחרי שליחת שאילתה. כדי לקבל תשובות עקביות יותר לשאילתות, כדאי לנרמל את המסמכים (לפני או במהלך יצירת האינדקס) ואת השאילתות (אחרי שהמשתמש הגיש את השאילתה) בדרכים הבאות:

  • כדי לנרמל מסמכים:

    1. בוחרים איות קנוני למילים חשובות שמופיעות במסמכים במאגרים.
    2. כדי שהאיות יהיה זהה לאיות הקנוני, צריך לתקן את האיות במסמכים במאגר המקור או במהלך הוספת התוכן לאינדקס.
  • כדי לנרמל שאילתות:

    1. ליירט שאילתות של משתמשים לפני שהן נשלחות ל-Cloud Search.
    2. לשכתב מילים בשאילתות של משתמשים כדי להתאים לאיות הנפוץ ביותר במקור הנתונים המאונדקס.
    3. שליחת השאילתה ל-Cloud Search.

השבתת ההרחבות, הפרשנויות והאופטימיזציות לכל השאילתות

כדי להשבית את ההרחבות, הפרשנויות והאופטימיזציות לשאילתה ספציפית, צריך להגדיר את QueryInterpretationOptions.enableVerbatim Mode ל-true בבקשת החיפוש.