חומר עזר בנושא שפה של סימון דיבור (SSML) (בטא)

פלטפורמת Actions on Google תומכת בכמה תכונות של SSML Beta פעולות ברכיבי SSML רגילים של Google.

סיכום של תכונות הבטא של SSML שנתמכות:

  • <phoneme>: התאמה אישית של ההגייה של מילים ספציפיות.
  • <say-as interpret-as="duration">: ציון משך הזמן.
  • <voice>: מעבר בין קולות באותה בקשה.
  • <lang>: שימוש במספר שפות באותה בקשה.
  • נקודות זמן: משתמשים בתג <mark> כדי להחזיר את נקודת הזמן של פריט שצוין בתמליל.

<phoneme>

אפשר להשתמש בתג <phoneme> כדי ליצור הגיות מותאמות אישית למילים בתוך השורה. השירות Actions on Google מקבל את IPA ו- X-SAMPA אותיות פונטיות. לצפייה דף טלפוניה לקבלת רשימה של תכונות נתמכות ובשפות שונות.

כל אפליקציה של התג <phoneme> מנהלת את ההגייה של word:

  <phoneme alphabet="ipa" ph="ˌmænɪˈtoʊbə">manitoba</phoneme>
  <phoneme alphabet="x-sampa" ph='m@"hA:g@%ni:'>mahogany</phoneme>

סמני מתח

התמליל יכול לכלול עד שלוש רמות של מתח:

  1. מתח ראשי: מצוין באמצעות ˈ ב-IPA ו-" ב-X-SAMPA.
  2. מתח משני: מצוין באמצעות ˌ ב-IPA ו-% ב-X-SAMPA.
  3. לא מודגש: לא מסומן באמצעות סמל (באף אחד מהסימונים).

שפות מסוימות עשויות לכלול פחות משלוש רמות או שלא ניתן לציין מיקום של מתח בכלל. אפשר לראות זאת בדף הטלפונים את רמות הלחץ הזמינות בשפה שלכם. סמני מתח ממוקמים ההתחלה של כל הברה מודגשת. לדוגמה, באנגלית ארה"ב:

מילה לדוגמה IPA X-SAMPA
מים ˈwɑːtɚ "wA:t@`
תת-מימי ˌʌndɚˈwɑːtɚ %Vnd@"wA:t@

תמלילים רחבים לעומת צרים

ככלל, כדאי שהתמלילים יהיו רחבים יותר ויתנו אופי פונטי. לדוגמה, באנגלית אמריקאית, יש לתמלל הודעות קוליות t (במקום להשתמש ב מקישים):

מילה לדוגמה IPA X-SAMPA
חמאה ˈbʌtɚ במקום ˈbʌɾɚ "bVt@` במקום "bV4@`

יש מקרים שבהם השימוש בייצוג הפונטי הופך את הטקסט לדיבור לא נשמעות טבעיות כמו תוצאות החיפוש (לדוגמה, אם רצף הפונטים שקשה מבחינה אנטומית להגייה).

אחת הדוגמאות לכך היא הטמעה של s באנגלית. במקרה הזה היא צריכה להשתקף בתמליל:

מילה לדוגמה IPA X-SAMPA
חתולים ˈkæts "k{ts
כלבים ˈdɑːgz במקום ˈdɑːgs "dA:gz במקום "dA:gs

הפחתה

כל הברה חייבת להכיל תנועה אחת (ורק אחת). כלומר, אתם צריכים להימנע מעוצרים של ברות, ובמקום זאת לתמלל אותם עם תנועה מופחתת. לדוגמה:

מילה לדוגמה IPA X-SAMPA
חתלתול ˈkɪtən במקום ˈkɪtn "kIt@n במקום "kitn
קומקום ˈkɛtəl במקום ˈkɛtl "kEt@l במקום "kEtl

ההברה

אפשר גם לציין גבולות של הברה באמצעות .. כל הברה חייבת לכלול תנועה אחת (ורק אחת). לדוגמה:

מילה לדוגמה IPA X-SAMPA
קריאות ˌɹiː.də.ˈbɪ.lə.tiː %r\i:.d@."bI.l@.ti:

משכי זמן

פלטפורמת Actions on Google תומכת ב-<say-as interpret-as="duration"> כדי: לקרוא את פרקי הזמן. לדוגמה, הדוגמה הבאה תיקרא "חמש שעות ו-30 דקות":

<say-as interpret-as="duration" format="h:m">5:30</say-as>

מחרוזת הפורמט תומכת בערכים הבאים:

קיצור ערך
שע' שעות
m דקות
שנ' שניות
ms אלפיות שנייה

<voice>

התג <voice> מאפשר להשתמש ביותר מקול אחד ב-SSML יחיד בקשה. בדוגמה הבאה, הקול שמוגדר כברירת מחדל הוא קול של גבר באנגלית. כל המילים יסוננו בקול הזה, למעט qu'est-ce qui t'amène ici", שתאמר בקול בצרפתית באמצעות קול נשי שפת ברירת המחדל (אנגלית) ומגדר (זכר).

<speak>And then she asked, <voice language="fr-FR" gender="female">qu'est-ce qui
t'amène ici</voice><break time="250ms"/> in her sweet and gentle voice.</speak>

לחלופין, אפשר להשתמש בתג <voice> כדי לציין קול ספציפי ( השם הקולי שמופיע על דף הקולות והשפות הנתמכים) במקום לציין language ו/או gender:

<speak>The dog is friendly<voice name="fr-CA-Wavenet-B">mais la chat est
mignon</voice><break time="250ms"/> said a pet shop
owner</speak>

כשמשתמשים בתג <voice>, הפעולות ב-Actions on Google מצפה לקבל name ( שם הקול שרוצים להשתמש בהם) או בשילוב של המאפיינים הבאים. כל השלוש הם אופציונליים, אבל צריך לספק לפחות אחד אם לא מספקים name

  • gender: אחד מתוך male, female או neutral.
  • variant: משמש כשובר שוויון במקרים שבהם יש מספר האפשרויות של איזה קול להשתמש בהתאם להגדרות שלכם.
  • language: השפה הרצויה. ניתן לציין רק שפה אחת בכל שנתתם לו תג <voice>. יש לציין את השפה בפורמט BCP-47. טיפים נוספים לאופטימיזציה מפורטים את קוד BCP-47 לשפה שלך בעמודה language code (קוד שפה) דף הקולות והשפות הנתמכים

אפשר גם לשלוט בעדיפות היחסית של כל אחד מהgender, variant, ו-language באמצעות שני תגים נוספים: required ו-ordering.

  • required: אם מאפיין מסווג כ-required ולא מוגדר כראוי, הבקשה תיכשל.
  • ordering: כל המאפיינים שמופיעים אחרי התג ordering נחשבים כמאפיינים מאפיינים מועדפים ולא חובה. SSML מתייחס יצירת מאפיינים מועדפים על בסיס הטוב ביותר לפי הסדר שבו הם מוצגים. אחרי התג ordering. אם הוגדרו מאפיינים מועדפים באופן שגוי, פעולות ב-Google עשויות עדיין להחזיר קול תקין, אבל ושחררת את ההגדרות האישיות השגויות.

דוגמאות להגדרות אישיות באמצעות התגים required ו-ordering:

<speak>And there it was <voice language="en-GB" gender="male" required="gender"
ordering="gender language">a flying bird </voice>roaring in the skies for the
first time.</speak>
<speak>Today is supposed to be <voice language="en-GB" gender="female"
ordering="language gender">Sunday Funday.</voice></speak>

<lang>

אפשר להשתמש ב-<lang> כדי לכלול טקסט בכמה שפות באותו SSML בקשה. כל השפות יסוננו באותו הקול, אלא אם תשתמשו <voice> תג כדי לשנות את הקול באופן מפורש. המחרוזת xml:lang חייבת להכיל שפת היעד בפורמט BCP-47 (הערך הזה מופיע בתור 'קוד שפה' הקולות הנתמכים בטבלה). בדוגמה הבאה, "chat" יוקרא בצרפתית במקום שפת ברירת המחדל (אנגלית):

<speak>The french word for cat is <lang xml:lang="fr-FR">chat</lang></speak>

פלטפורמת Actions on Google תומכת בתג <lang> על בסיס הפתרון האפשרי הטוב ביותר. לא הכול שילובי שפות מניבים אותן תוצאות איכות אם מציינים אותם בקשת SSML. במקרים מסוימים, שילוב שפות עשוי ליצור אפקט אבל ניתן לזיהוי, אבל עדין או נתפס כשלילי. בעיות מוכרות:

  • התג <lang> לא תומך ביפנית עם תווי קאנג'י. הוא יתומלל וייקרא כתווים סיניים.
  • שפות שמיות כגון ערבית, עברית ופרסית אינן נתמכות על ידי את התג <lang>, והתוצאה תהיה השתקה. אם רוצים להשתמש באחד מהכלים האלה שפות שמומלץ להשתמש בתג <voice> כדי להחליף לקול מדבר בשפה הרצויה (אם קיימת).