대화형 작업이 2023년 6월 13일에 지원 중단되었습니다. 자세한 내용은 대화 작업 지원 중단을 참고하세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

SSML (Dialogflow)

Google 어시스턴트에 응답을 반환할 때 응답의 음성 합성 마크업 언어 (SSML) 작성자: SSML을 사용하면 대화의 응답을 보다 자연스럽게 할 수 있습니다. 있습니다. 다음은 SSML 마크업의 예와 SSML 마크업이 SSML 마크업을 어떻게 다시 읽는지 보여줍니다. Google 어시스턴트를 탭합니다.

</ph> <ph type="x-smartling-placeholder">

</ph>

SSML

function saySSML(conv) {
  const ssml = '<speak>' +
    'Here are <say-as interpret-as="characters">SSML</say-as> samples. ' +
    'I can pause <break time="3" />. ' +
    'I can play a sound <audio src="https://www.example.com/MY_WAVE_FILE.wav">your wave file</audio>. ' +
    'I can speak in cardinals. Your position is <say-as interpret-as="cardinal">10</say-as> in line. ' +
    'Or I can speak in ordinals. You are <say-as interpret-as="ordinal">10</say-as> in line. ' +
    'Or I can even speak in digits. Your position in line is <say-as interpret-as="digits">10</say-as>. ' +
    'I can also substitute phrases, like the <sub alias="World Wide Web Consortium">W3C</sub>. ' +
    'Finally, I can speak a paragraph with two sentences. ' +
    '<p><s>This is sentence one.</s><s>This is sentence two.</s></p>' +
    '</speak>';
  conv.ask(ssml);
}

드림

</ph>

JSON

{
  "expectUserResponse": true,
  "expectedInputs": [
    {
      "possibleIntents": [
        {
          "intent": "actions.intent.TEXT"
        }
      ],
      "inputPrompt": {
        "richInitialPrompt": {
          "items": [
            {
              "simpleResponse": {
                "textToSpeech": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can pause <break time=\"3\" />. I can play a sound <audio src=\"https://www.example.com/MY_WAVE_FILE.wav\">your wave file</audio>. I can speak in cardinals. Your position is <say-as interpret-as=\"cardinal\">10</say-as> in line. Or I can speak in ordinals. You are <say-as interpret-as=\"ordinal\">10</say-as> in line. Or I can even speak in digits. Your position in line is <say-as interpret-as=\"digits\">10</say-as>. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>"
              }
            }
          ]
        }
      }
    }
  ]
}

오디오

SSML은 작업 시뮬레이터에서는 지원되지만 Dialogflow에서는 지원되지 않습니다. 시뮬레이터입니다.

SSML의 URL

URL만 포함하는 SSML 응답을 정의할 때는 해당 URL의 앰퍼샌드가 XML 형식으로 인해 문제가 발생할 수 있습니다. URL이 제대로 &의 인스턴스를 &로 바꿉니다.

SSML 응답에 URL만 포함되어 있더라도 Actions on Google에 응답의 표시 텍스트를 지정합니다. <audio> 태그 내의 텍스트는 음성 안내가 포함된 경우 <audio> 태그가 있어야 이 요구사항을 충족할 수 있습니다. <audio> 태그 안의 텍스트는 Google의 Action on Google과 상호작용하여 을 준수해야 합니다.

다음은 문제가 있는 SSML 응답의 예입니다.

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  </audio>
</speak>

위의 예에서는 적절한 XML 형식 지정을 위해 &를 이스케이프 처리하지 않습니다.

동일한 SSML 응답의 수정된 버전은 다음과 같습니다.

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&amp;token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  text
  </audio>
</speak>

SSML 요소 지원

다음 섹션에서는 작업에 사용할 수 있는 SSML 요소와 옵션을 설명합니다.

`<speak>`

SSML 응답의 루트 요소.

speak 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

<speak>
  my SSML content
</speak>

`<break>`

단어 사이의 끊어 읽기 또는 기타 운율적 경계를 제어하는 빈 요소. 토큰 쌍 간에 <break> 사용은 선택사항입니다. 이 요소가 단어 사이에 없으면 음성 중지는 언어적 맥락에 따라 자동으로 결정됩니다.

break 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

속성

속성 설명

속성	설명
`time`	초나 밀리초 단위로 음성 중지의 길이를 설정합니다(예: '3s' 또는 '250ms').
`strength`	출력 음성의 운율적 중지의 강도를 상대적 용어로 설정합니다. 유효한 값은 'x-weak', 'weak', 'medium', 'strong', 'x-strong'입니다. 'none' 값은 운율적 중지 경계가 출력되어서는 안 됨을 나타내며, 설정된 값이 없을 경우 프로세서가 생성하는 운율적 중지를 방지하는 데 사용할 수 있습니다. 다른 값은 토큰 사이의 점증적인(단조 비감소) 중지 강도를 나타냅니다. 일반적으로 중지 경계가 뚜렷하면 끊어 읽기가 됩니다.

time

초나 밀리초 단위로 음성 중지의 길이를 설정합니다(예: '3s' 또는 '250ms').

strength

출력 음성의 운율적 중지의 강도를 상대적 용어로 설정합니다. 유효한 값은 'x-weak', 'weak', 'medium', 'strong', 'x-strong'입니다. 'none' 값은 운율적 중지 경계가 출력되어서는 안 됨을 나타내며, 설정된 값이 없을 경우 프로세서가 생성하는 운율적 중지를 방지하는 데 사용할 수 있습니다. 다른 값은 토큰 사이의 점증적인(단조 비감소) 중지 강도를 나타냅니다. 일반적으로 중지 경계가 뚜렷하면 끊어 읽기가 됩니다.

예

다음 예시는 <break> 요소를 사용하여 단계간에 일시 중지하는 방법을 보여줍니다.

<speak>
  Step 1, take a deep breath. <break time="200ms"/>
  Step 2, exhale.
  Step 3, take a deep breath again. <break strength="weak"/>
  Step 4, exhale.
</speak>

`<say‑as>`

이 요소를 사용하면 요소 내에 포함 된 텍스트 구문 유형에 대한 정보를 나타낼 수 있습니다. 또한 포함된 텍스트 렌더링의 세부 수준을 지정하는 데도 도움이 됩니다.

<say‑as> 요소에는 값을 말하는 형식을 결정하는 필수 속성인 interpret-as가 있습니다. 특정 interpret-as 값에 따라 선택적 속성 인 format 및 detail을 사용할 수 있습니다.

예시

interpret-as 속성은 다음 값을 지원합니다.

currency
다음 예시는 'forty two dollars and one cent'라고 말합니다. 언어 속성이 누락된 경우 현재 언어가 사용됩니다.
```
<speak>
 <say-as interpret-as='currency' language='en-US'>$42.01</say-as>
</speak>
 
```
telephone
W3C SSML 1.0 say-as attribute values WG 메모에서 interpret-as='telephone' 설명을 참조하세요.

다음 예시는 '18002021212'로 말합니다. 'google:style' 속성이 생략된 경우 문자 O가 0으로 표시됩니다.

'google:style='zero-as-zero' 속성은 현재 EN 언어로만 작동합니다.
```
 <speak>
 <say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as>
 </speak>
 
```
verbatim 또는 spell-out
다음 예는 한 글자씩 철자를 말합니다.
```
<speak>
 <say-as interpret-as="verbatim">abcdefg</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
date
format 속성은 일련의 날짜 필드 문자 코드입니다. format에서 지원되는 필드 문자 코드는 각각 연도, 월, 일에 해당하는 {y, m, d}입니다. 연도, 월, 일에 필드 코드가 한 번씩 표시될 경우 예상 자릿수는 각각 4자리, 2자리, 2자리입니다. 필드 코드가 반복될 경우 예상 자릿수는 코드의 반복 횟수입니다. 날짜 텍스트의 필드는 구두점 또는 공백으로 구분될 수 있습니다.

detail 속성은 날짜를 읽는 방식을 제어합니다. detail='1'의 경우 월이나 연도 필드 중 하나와 일 필드가 필수 항목이지만 월과 연도 필드 둘 다 입력해도 됩니다. 이는 3개 미만의 필드가 지정될 경우 기본값입니다. 말하는 형식은 '{몇 월}의 {며칠째 날}, {몇 년도}'(영어 기준)입니다.

다음 예는 '9월의 열째 날, 1960년' 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="date" format="yyyymmdd" detail="1">
 1960-09-10
 </say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.

다음 예는 '9월의 열째 날' 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="date" format="dm">10-9</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.

detail='2'의 경우 일, 월, 연도 필드가 필요하며, 세 필드가 모두 입력된 경우 기본값에 해당합니다. 말하는 형식은 '{몇 월} {며칠째 날}, {몇 년도}'(영어 기준)입니다.

다음 예는 '9월 열째 날, 1960년' 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="date" format="dmy" detail="2">
 10-9-1960
 </say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
characters
다음 예는 한 글자씩 말합니다.
```
<speak>
 <say-as interpret-as="characters">can</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
cardinal
다음 예시는 숫자를 기수 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="cardinal">12345</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
ordinal
다음 예는 숫자를 서수 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="ordinal">1</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
fraction
다음 예는 숫자를 분수 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="fraction">5+1/2</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
expletive 또는 bleep
다음 예시는 텍스트가 검열된 것처럼 삐 소리가 납니다.
```
<speak>
 <say-as interpret-as="expletive">censor this</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
unit
숫자에 따라 단위를 단수 또는 복수로 변환합니다. 다음 예는 단수형 단위를 복수형으로 말합니다.
```
<speak>
 <say-as interpret-as="unit">10 foot</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.
time
다음 예는 '2시 30분 P.M.' 형식으로 말합니다.
```
<speak>
 <say-as interpret-as="time" format="hms12">2:30pm</say-as>
</speak>
 
```
브라우저에서 HTML5 Audio 요소를 지원하지 않습니다.

format 속성은 일련의 시간 필드 문자 코드입니다. format에서 지원되는 필드 문자 코드는 각각 시간, 분, 초, 시간대, 12시간제, 24시간제에 해당하는 {h, m, s, Z, 12, 24}입니다. 시간, 분, 초에 필드 코드가 한 번씩 표시될 경우 예상 자릿수는 각각 1자리, 2자리, 2자리입니다. 필드 코드가 반복될 경우 예상 자릿수는 코드의 반복 횟수입니다. 시간 텍스트의 필드는 구두점 또는 공백으로 구분될 수 있습니다. 시간, 분, 초가 이 형식으로 지정되지 않거나 일치하는 자릿수가 없을 경우 필드 값이 0으로 취급됩니다. 기본 format은 'hms12'입니다.

detail 속성은 시간을 말하는 형식을 12시간제 또는 24시간제로 지정합니다. detail='1' 또는detail이 누락되어 있고 시간 형식이 24시간인 경우 말하는 형식은 24시간제입니다. detail='2' 또는 detail이 누락되어 있고 시간 형식이 12시간인 경우 말하는 형식은 12시간제입니다.

say-as 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

`<audio>`

합성된 음성 출력과 함께 녹음된 오디오 파일의 삽입과 기타 오디오 형식의 삽입을 지원합니다.

속성

속성	필수	기본값	값
`src`	예	해당사항 없음	오디오 미디어 소스를 참조하는 URI. 지원되는 프로토콜은 `https`입니다.
`clipBegin`	아니요	0	재생 시작 지점을 결정하며, 오디오 소스의 시작 부분에 삽입되는 오프셋 값인 시간 지정. 이 값이 오디오 소스의 실제 지속 시간보다 크거나 같을 경우 오디오가 삽입되지 않습니다.
`clipEnd`	아니요	무한대	재생 종료 지점을 결정하며, 오디오 소스의 시작 부분에 삽입되는 오프셋 값인 시간 지정. 오디오 소스의 실제 지속 시간이 이 값보다 작으면 지정된 시간에 재생이 종료됩니다. `clipBegin`이 `clipEnd`보다 크거나 같으면 오디오가 삽입되지 않습니다.
`speed`	아니요	100%	정상 입력 속도 대비 출력 재생 속도의 비율을 백분율로 표현한 값. 양의 실수 다음에 %가 오는 형식입니다. 현재 지원되는 범위는 [50%(저속 - 0.5배속), 200%(고속 - 2배속)]입니다. 이 범위를 벗어나는 값은 이 범위에 맞게 조정되거나 조정되지 않을 수 있습니다.
`repeatCount`	아니요	`repeatDur`이 설정된 경우 1 또는 10	`clipBegin` 또는 `clipEnd`로 잘라낸 후 오디오를 삽입할 횟수를 지정하는 실수. 소수 반복은 지원되지 않으므로 가장 가까운 정수로 값이 반올림됩니다. 0은 유효한 값이 아니므로 지정되지 않은 것으로 취급되며 이 경우 기본값이 설정됩니다.
`repeatDur`	아니요	무한대	소스의 `clipBegin`, `clipEnd`, `repeatCount`, `speed` 속성이 처리된 후 삽입되는 오디오의 지속 시간(일반적인 재생 시간과 다름)을 제한하는 TimeDesignation. 처리된 오디오의 지속 시간이 이 값보다 작으면 지정된 시간에 재생이 종료됩니다.
`soundLevel`	아니요	+0dB	`soundLevel` 데시벨을 사용하여 오디오의 사운드 레벨을 조정합니다. 최대 범위는 +/-40dB이지만 실제 범위는 실질적으로 더 작으며, 전체 범위에서 출력 품질이 좋지 않을 수 있습니다.

다음은 현재 오디오에 지원되는 설정입니다.

형식: MP3(MPEG v2)
- 초당 24K 샘플
- 초당 24K~96K 비트, 고정 속도
형식: Ogg의 Opus
- 초당 24K 샘플(초광대역)
- 초당 24K~96K 비트, 고정 속도
형식(지원 중단됨): WAV(RIFF)
- PCM 16비트 부호 Little Endian
- 초당 24K 샘플
모든 형식에 해당:
- 단일 채널이 권장되지만 스테레오가 허용됩니다.
- 최대 지속 시간: 240초. 이보다 오랜 시간 동안 오디오를 재생하려면 미디어 응답을 구현하는 것이 좋습니다.
- 파일 크기 제한: 5MB
- 소스 URL은 HTTPS 프로토콜을 사용해야 합니다.
- 오디오를 가져올 때 UserAgent는 'Google-Speech-Actions'입니다.

<audio> 요소의 콘텐츠는 선택사항이며 오디오 파일을 재생할 수 없거나 출력 기기가 오디오를 지원하지 않는 경우에 사용됩니다. 내용에는 <desc> 요소가 포함될 수 있으며, 이 경우 해당 요소의 텍스트 내용이 화면에 표시됩니다. 자세한 내용은 응답 체크리스트의 녹음된 오디오 섹션을 참조하세요.

또한 src URL은 https URL이어야 합니다(Google Cloud Storage는 https URL의 오디오 파일을 호스팅할 수 있음).

미디어 응답을 자세히 알아보려면 응답 가이드의 미디어 응답 섹션을 참조하세요.

audio 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

<speak>
  <audio src="cat_purr_close.ogg">
    <desc>a cat purring</desc>
    PURR (sound didn't load)
  </audio>
</speak>

`,<s>`

문장과 단락 요소입니다.

p 및 s 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

<p><s>This is sentence one.</s><s>This is sentence two.</s></p>

권장사항

특히 prosody를 변경하는 SSML 요소가 포함된 경우 전체 문장을 래핑하려면 <s> ... </s> 태그를 사용합니다(예: <audio>, <break>, <emphasis>, <par>, <prosody>, <say-as>, <seq>, ).
음성 내 구분을 들을 수 있도록 충분하게 길게 하려면 <s> ... </s> 태그를 사용하여 문장 사이에 줄 바꿈을 삽입합니다.

``

alias 속성 값의 텍스트는 포함된 텍스트의 발음을 대체한다는 것을 나타냅니다.

sub 요소를 사용하여 읽기 어려운 단어의 쉬운 발음을 제공할 수도 있습니다. 마지막 예시는 이 사용 사례를 일본어 버전으로 설명합니다.

sub 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예시

<sub alias="World Wide Web Consortium">W3C</sub>

<sub alias="にっぽんばし">日本橋</sub>

``

텍스트 또는 태그 시퀀스에 마커를 배치하는 빈 요소입니다. 시퀀스의 특정 위치를 참조하거나 비동기 알림에 사용되는 출력 스트림에 마커를 삽입하는 데 사용할 수 있습니다.

참고: mark 요소를 사용할 경우 다음 가이드라인을 따르세요.

SSML의 시작 또는 끝 근처에 커스텀 표시를 추가하는 대신 START 및 END 표시를 사용합니다.
SSML에 연속 마크를 추가하지 마세요. 빠른 연속 표시는 이벤트를 생성하지 못할 수 있습니다. 또한 표시 사이에 오디오가 생성되지 않으면 이벤트가 생성되지 않습니다. 예를 들어 다음을 피하세요.
Sentence 1. Sentence 2.

참고: 편의를 위해 대화형 캔버스 응답에 START 및 END 이벤트를 자동으로 가져옵니다. 이러한 마크는 W3 사양에 포함되지 않습니다.

mark 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>

`<prosody>`

요소에 포함된 텍스트의 높낮이, 말하기 속도, 볼륨을 맞춤설정하는 데 사용됩니다. 현재 rate, pitch, volume 속성이 지원됩니다.

W3 사양에 따라 rate 및 volume 속성을 설정할 수 있습니다. pitch 속성 값을 설정하는 데 세 가지 옵션이 있습니다.

참고: <prosody> 태그는 전체 문장에서만 사용되어야 합니다. 문장 내에 단어를 포함하면 음성이 원치 않게 일시중지될 수 있습니다.

속성	설명
`name`	각 표시의 문자열 ID입니다.

옵션	설명
친척	상대 값(예: 'low', 'medium', 'high' 등)을 지정합니다. 여기서 'medium'은 기본 높낮이입니다.
반음	'+Nst' 또는 '-Nst'를 각각 사용하여 'N' 반음씩 높낮이를 올리거나 내립니다. '+/-' 및 'st'는 필수입니다.
비율	'+N%' 또는 '-N%'를 각각 사용하여 'N' 퍼센트씩 높낮이를 올리거나 내립니다. '%'는 필수이지만 '+/-'는 선택사항입니다.

prosody 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

다음 예시에서는 <prosody> 요소를 사용하여 정상보다 2반음 낮추어 느리게 말합니다.

<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>

`<emphasis>`

요소에 포함된 텍스트에서 강세를 추가하거나 제거하는 데 사용됩니다. <emphasis> 요소는 <prosody>와 유사하게 음성을 수정하지만 개별 음성 속성을 설정할 필요가 없습니다.

참고: <emphasis> 태그는 전체 문장에서만 사용되어야 합니다. 문장 내에 단어를 포함하면 음성이 원치 않게 일시중지될 수 있습니다.

이 요소는 다음의 유효한 값을 사용하여 선택적 'level' 속성을 지원합니다.

strong
moderate
none
reduced

emphasis 요소에 대한 자세한 내용은 W3 사양을 참조하세요.

예

다음 예시에서는 <emphasis> 요소를 사용하여 공지합니다.

<emphasis level="moderate">This is an important announcement</emphasis>

`<par>`

여러 미디어 요소를 한 번에 재생할 수 있게 해주는 병렬 미디어 컨테이너입니다. 유일하게 허용되는 콘텐츠는 <par>, <seq>, <media> 요소 한 개 이상으로 구성된 세트입니다. <media> 요소의 순서는 중요하지 않습니다.

하위 요소가 다른 시작 시간을 지정하지 않으면 요소의 암묵적 시작 시간은 <par> 컨테이너의 시작 시간과 동일합니다. 하위 요소의 begin 또는 end 속성에 설정된 오프셋 값이 있으면 요소의 오프셋은 <par> 컨테이너의 시작 시간을 기준으로 합니다. 루트 <par> 요소의 경우 begin 속성이 무시되며, 시작 시간은 SSML 음성 합성 프로세스에서 루트 <par> 요소(즉, 사실상 '0' 시간)의 출력 생성을 시작하는 시간입니다.

예

<speak>
  <par>
    <media xml:id="question" begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media xml:id="answer" begin="question.end+2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media begin="answer.end-0.2s" soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </par>
</speak>

`<seq>`

미디어 요소를 하나씩 재생할 수 있게 해주는 순차적 미디어 컨테이너입니다. 유일하게 허용되는 콘텐츠는 <seq>, <par>, <media> 요소 한 개 이상으로 구성된 세트입니다. 미디어 요소의 순서는 렌더링되는 순서와 같습니다.

하위 요소의 begin 및 end 속성은 오프셋 값으로 설정될 수 있습니다(아래의 시간 사양 참조). 이러한 하위 요소의 오프셋 값은 시퀀스에서 이전 요소의 끝 지점을 기준으로 합니다. 시퀀스의 첫 번째 요소의 경우 <seq> 컨테이너의 시작 지점을 기준으로 합니다.

예

<speak>
  <seq>
    <media begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media begin="2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </seq>
</speak>

`<media>`

<par> 또는 <seq> 요소 내 미디어 레이어를 나타냅니다. <media> 요소에서 허용되는 콘텐츠는 SSML <speak> 또는 <audio> 요소입니다. 다음 표에서는 <media> 요소의 유효한 속성을 설명합니다.

속성

속성	필수	기본값	값
xml:id	아니요	값 없음	이 요소의 고유한 XML 식별자. 인코딩된 항목은 지원되지 않습니다. 허용되는 식별자 값은 정규 표현식 `"([-_#]\|\p{L}\|\p{D})+"`와 일치합니다. 자세한 내용은 XML-ID를 참조하세요.
begin	아니요	0	이 미디어 컨테이너의 시작 시간. 루트 미디어 컨테이너 요소(기본값 '0'과 동일하게 취급됨)이면 무시됩니다. 유효한 문자열 값은 아래의 시간 사양 섹션을 참조하세요.
end	아니요	값 없음	이 미디어 컨테이너의 종료 시간에 대한 사양. 유효한 문자열 값은 아래의 시간 사양 섹션을 참조하세요.
repeatCount	아니요	1	미디어 삽입 횟수를 지정하는 실수. 소수 반복은 지원되지 않으므로 가장 가까운 정수로 값이 반올림됩니다. 0은 유효한 값이 아니므로 지정되지 않은 것으로 취급되며 이 경우 기본값이 설정됩니다.
repeatDur	아니요	값 없음	삽입된 미디어의 지속 시간을 제한하는 시간 지정. 미디어의 지속 시간이 이 값보다 작으면 지정된 시간에 재생이 종료됩니다.
soundLevel	아니요	+0dB	`soundLevel` 데시벨을 사용하여 오디오의 사운드 레벨을 조정합니다. 최대 범위는 +/-40dB이지만 실제 범위는 실질적으로 더 작으며, 전체 범위에서 출력 품질이 좋지 않을 수 있습니다.
fadeInDur	아니요	0초	미디어가 무음에서 시작해 선택적으로 지정된 `soundLevel`로 페이드 인하는 시간 지정. 미디어의 지속 시간이 이 값보다 작으면 재생 종료 시 페이드 인이 중지되고 사운드 레벨이 지정된 사운드 레벨에 도달하지 않습니다.
fadeOutDur	아니요	0초	미디어가 선택적으로 지정된 `soundLevel`에서 시작해 무음이 될 때까지 페이드 아웃하는 시간 지정. 미디어의 지속 시간이 이 값보다 작으면 재생 종료 시 무음에 도달할 수 있도록 사운드 레벨이 더 낮은 값으로 설정됩니다.

시간 사양

<media> 요소와 미디어 컨테이너(<par> 및 <seq> 요소)의 `begin`과 `end` 속성 값에 사용되는 시간 사양은 오프셋 값(예: +2.5s) 또는 syncbase 값(예: foo_id.end-250ms)입니다.

오프셋 값 - 시간 오프셋 값은 정규 표현식 "\s\*(+|-)?\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"와 일치하는 값을 허용하는 SMIL Timecount 값입니다.
첫 번째 숫자 문자열은 십진수의 전체 부분이고 두 번째 숫자 문자열은 십진수의 소수 부분입니다. 기본 기호(예: '(+|-)?')는 '+'입니다. 단위 값은 각각 시, 분, 초, 밀리초에 해당합니다. 단위의 기본값은 's'(초)입니다.
Syncbase 값 - syncbase 값은 정규 표현식 "([-_#]|\p{L}|\p{D})+\.(begin|end)\s\*(+|-)\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"와 일치하는 값을 허용하는 SMIL syncbase 값입니다.
숫자와 단위는 오프셋 값과 같은 방식으로 해석됩니다.

TTS 시뮬레이터

Actions 콘솔에는 SSML을 테스트하는 데 사용할 수 있는 TTS 시뮬레이터가 포함되어 있습니다. 위 요소 중 하나로 사용할 수 있습니다. 콘솔에서 TTS 시뮬레이터를 찾을 수 있습니다. 시뮬레이터 > 오디오를 선택합니다. 시뮬레이터에 텍스트와 SSML을 입력하고 업데이트 및 듣기: TTS 출력을 듣습니다.

다운로드 버튼을 클릭하여 TTS의 .mp3 파일을 저장할 수도 있습니다. 출력됩니다.

SSML (Dialogflow)

SSML의 URL

SSML 요소 지원

`<speak>`

예

`<break>`

속성

예

`<say‑as>`

예시

`<audio>`

속성

예

`<p>,<s>`

예

권장사항

`<sub>`

예시

`<mark>`

예

`<prosody>`

예

`<emphasis>`

예

`<par>`

예

`<seq>`

예

`<media>`

속성

시간 사양

TTS 시뮬레이터

SSML (Dialogflow) 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

SSML의 URL

SSML 요소 지원

<speak>

예

<break>

속성

예

<say‑as>

예시

<audio>

속성

예

<p>,<s>

예

권장사항

<sub>

예시

<mark>

예

<prosody>

예

<emphasis>

예

<par>

예

<seq>

예

<media>

속성

시간 사양

TTS 시뮬레이터

SSML (Dialogflow)

`<speak>`

`<break>`

`<say‑as>`

`<audio>`

`<p>,<s>`

`<sub>`

`<mark>`

`<prosody>`

`<emphasis>`

`<par>`

`<seq>`

`<media>`