مرجع لغة ترميزية لتركيب الكلام (SSML) (إصدار تجريبي)

تدعم منصة "المهام مع مساعد Google" عددًا من ميزات SSML التجريبية بالإضافة إلى الإجراءات على عناصر SSML العادية من Google:

ملخص ميزات الإصدار التجريبي من SSML المتوافقة:

  • <phoneme>: تخصيص طريقة لفظ كلمات معيّنة
  • <say-as interpret-as="duration">: تحديد المُدد
  • <voice>: التبديل بين الأصوات في الطلب نفسه
  • <lang>: استخدام لغات متعددة في الطلب نفسه
  • النقاط الزمنية: استخدم العلامة <mark> لعرض النقطة الزمنية المحددة في النص.

<phoneme>

يمكنك استخدام العلامة <phoneme> لنطق كلمات مخصّصة. تضمين. يقبل "المهام مع مساعد Google" IPA الأحرف الأبجدية الصوتية في X-SAMPA. يمكنك الاطّلاع على صفحة الهواتف للحصول على قائمة بالأرقام المتوافقة واللغات والصوتيات.

يؤدي كل تطبيق من علامات <phoneme> إلى توجيه طريقة لفظ كلمة واحدة الكلمة:

  <phoneme alphabet="ipa" ph="ˌmænɪˈtoʊbə">manitoba</phoneme>
  <phoneme alphabet="x-sampa" ph='m@"hA:g@%ni:'>mahogany</phoneme>

علامات الإجهاد

هناك ما يصل إلى ثلاثة مستويات من الإجهاد يمكن وضعها في النص المحوَّل من صوت:

  1. الإجهاد الأساسي: يُشار إليه بـ ˈ في IPA و" بتنسيق X-SAMPA.
  2. الإجهاد الثانوي: يُشار إليه بـ ˌ في IPA و% في X-SAMPA.
  3. بدون ضغط: لا يُرمز له برمز (في أي من صيغتَي الترميز).

قد تحتوي بعض اللغات على أقل من ثلاثة مستويات أو لا تشير إلى موضع الإجهاد على الإطلاق. انتقِل إلى صفحة الهواتف للاطّلاع على مستويات الإجهاد المتاحة بلغتك. يتم وضع علامات الإجهاد في بداية كل مقطع مُجهَد. على سبيل المثال، في اللغة الإنجليزية الأمريكية:

مثال على الكلمة IPA X-SAMPA
ماء ˈwɑːtɚ "wA:t@`
تحت الماء ˌʌndɚˈwɑːtɚ %Vnd@"wA:t@

عمليات تحويل الصوت إلى نص واسعة في مقابل ضيقة

كقاعدة عامة، يجب أن تكون النصوص التي تكتبها أكثر اتساعًا وذات طبيعة صوتية. على سبيل المثال، في اللغة الإنجليزية الأمريكية، حوِّل الصوت إلى نص باللغة t المتبادلة (بدلاً من استخدام ):

مثال على الكلمة IPA X-SAMPA
زبدة ˈbʌtɚ بدلاً من ˈbʌɾɚ "bVt@` بدلاً من "bV4@`

هناك بعض الحالات التي يؤدي فيها استخدام التمثيل الصوتي إلى تحويل النص إلى كلام تبدو النتائج غير طبيعية (على سبيل المثال، إذا كان تسلسل الصوت يصعب لفظها من الناحية التشريحية).

وأحد الأمثلة على ذلك هو التعبير عن استيعاب s باللغة الإنجليزية. وفي هذه الحالة في النص المُحوَّل من صوت:

مثال على الكلمة IPA X-SAMPA
قطط ˈkæts "k{ts
كلاب ˈdɑːgz بدلاً من ˈdɑːgs "dA:gz بدلاً من "dA:gs

تقليل

يجب أن يحتوي كل مقطع على حرف متحرك واحد (وواحد فقط). هذا يعني أنه يجب عليك تجنب حروف الساكنة اللفظية ونسخها بدلاً من ذلك باستخدام حرف متحرك مُخفَّض. بالنسبة مثال:

مثال على الكلمة IPA X-SAMPA
هرّة صغيرة ˈkɪtən بدلاً من ˈkɪtn "kIt@n بدلاً من "kitn
غلّاية ˈkɛtəl بدلاً من ˈkɛtl "kEt@l بدلاً من "kEtl

الشرح

يمكنك اختياريًا تحديد حدود المقاطع باستخدام .. يجب أن أن يحتوي على حرف متحرك واحد (وواحد فقط). على سبيل المثال:

مثال على الكلمة IPA X-SAMPA
سهولة القراءة ˌɹiː.də.ˈbɪ.lə.tiː %r\i:.d@."bI.l@.ti:

الفترات

تتيح منصة "المهام مع مساعد Google" تنفيذ <say-as interpret-as="duration"> ومدد القراءة. على سبيل المثال، سيتم شرح المثال التالي لفظيًا على أنه "خمسة ساعة وثلاثين دقيقة":

<say-as interpret-as="duration" format="h:m">5:30</say-as>

تتيح سلسلة التنسيق استخدام القيم التالية:

الاختصار القيمة
ساعة ساعة
م دقائق
s ثانية
ms مللي ثانية

<voice>

تسمح لك العلامة <voice> باستخدام أكثر من صوت في لغة SSML واحدة. طلبك. في المثال التالي، الصوت التلقائي هو صوت ذكر إنجليزي. سيتم تركيب كل الكلمات في هذا الصوت باستثناء "qu'est-ce qui tamène". "ice"، والتي سيتم تفسيرها لفظيًا باللغة الفرنسية باستخدام صوت أنثوي بدلاً من اللغة الافتراضية (الإنجليزية) والجنس (ذكور).

<speak>And then she asked, <voice language="fr-FR" gender="female">qu'est-ce qui
t'amène ici</voice><break time="250ms"/> in her sweet and gentle voice.</speak>

ويمكنك بدلاً من ذلك استخدام علامة <voice> لتحديد صوت واحد (أي اسم الصوت على صفحة الأصوات واللغات المتوافقة) بدلاً من تحديد language و/أو gender:

<speak>The dog is friendly<voice name="fr-CA-Wavenet-B">mais la chat est
mignon</voice><break time="250ms"/> said a pet shop
owner</speak>

عند استخدام العلامة <voice>، تتوقع "المهام مع مساعد Google" تلقّي أيّ منهما name (الـ اسم الصوت الذي تريد نريد استخدامها) أو مجموعة من السمات التالية. الثلاثة اختيارية، ولكن يجب تقديم سمة واحدة على الأقل إذا لم تقدِّم name

  • gender: أحد الخيارات male أو female أو neutral
  • variant: يُستخدم ككسر التعادل في الحالات التي يتوفر فيها العديد من الإمكانيات التي يمكن استخدامها بناءً على الإعدادات التي تختارها.
  • language: اللغة المطلوبة يمكن تحديد لغة واحدة فقط في العلامة <voice> المحددة. حدِّد لغتك بتنسيق BCP-47. يمكنك الاطّلاع على رمز BCP-47 للغتك في عمود رمز اللغة ضمن صفحة الأصوات واللغات المتوافقة.

ويمكنك أيضًا التحكّم في الأولوية النسبية لكل من gender أو variant وlanguage باستخدام علامتين إضافيتين: required وordering.

  • required: إذا تم تحديد السمة على أنّها required ولم يتم ضبطها بشكل صحيح، يفشل الطلب.
  • ordering: أي سمات مُدرَجة بعد العلامة ordering تُعتبر كسمة السمات المفضلة بدلاً من كونها مطلوبة. تأخذ SSML في الاعتبار السمات المفضلة وفقًا لأفضل جهد ممكن بالترتيب الذي تم إدراجها فيه بعد العلامة ordering. في حال إعداد أي سمات مفضّلة بشكل غير صحيح، قد تظل خدمة "المهام مع مساعد Google" تعرض صوتًا صالحًا ولكن مع تجاهل التكوين غير الصحيح.

أمثلة على الإعدادات التي تستخدم العلامتَين required وordering:

<speak>And there it was <voice language="en-GB" gender="male" required="gender"
ordering="gender language">a flying bird </voice>roaring in the skies for the
first time.</speak>
<speak>Today is supposed to be <voice language="en-GB" gender="female"
ordering="language gender">Sunday Funday.</voice></speak>

<lang>

يمكنك استخدام <lang> لتضمين نص بلغات متعددة ضمن SSML نفسها طلبك. سيتم تجميع كل اللغات في الصوت نفسه إلا إذا استخدمت <voice> لتغيير الصوت بشكل صريح. يجب أن تحتوي السلسلة xml:lang على اللغة المستهدفة بتنسيق BCP-47 (يتم إدراج هذه القيمة كـ "رمز اللغة" في الأصوات المتوافقة ). في المثال التالي "chat" سيتم لفظها لفظيًا باللغة الفرنسية بدلاً من اللغة الافتراضية (الإنجليزية):

<speak>The french word for cat is <lang xml:lang="fr-FR">chat</lang></speak>

تتيح منصّة "المهام مع مساعد Google" استخدام علامة <lang> مع بذل قصارى جهدها. قد لا يتلقّى مجموعات اللغات تنتج نفس نتائج الجودة إذا تم تحديدها في طلب SSML. وفي بعض الحالات، قد ينتج عن استخدام تركيبة من اللغة تأثير يمكن اكتشافها ولكنها خفية أو يُنظر إليها على أنها سلبية. المشاكل المعروفة:

  • اللغة اليابانية التي تستخدم أحرف كانجي غير متوافقة مع علامة <lang>. تشير رسالة الأشكال البيانية يتم تحويل الإدخال الصوتي وقراءته كأحرف صينية.
  • لا تتوفّر اللغات السامية، مثل العربية والعبرية والفارسية في العلامة <lang> وسيؤدي ذلك إلى كتم الصوت. إذا كنت ترغب في استخدام أي من هذه اللغات التي ننصح بها باستخدام العلامة <voice> للتبديل إلى صوت باللغة التي تريدها (إذا كانت متاحة).