SIP CallerSIP Caller
Tabla de Contenidos
    Descripción General
    Comandos SSML clave
    <speak>
    <break>
    <emphasis>
    <prosody>
    <say-as>
    <sub>
    <p> y <s>
    Consejos Rápidos
    Nota especial al usar SSML con Azure Text-to-Speech

Descripción General

SSML (Lenguaje de Marcado de Síntesis de Voz) te permite controlar cómo se lee el texto en voz alta. Es posible ajustar la pronunciación, el tono, el énfasis y más, para crear mensajes de voz naturales y atractivos. A continuación, se muestran los comandos SSML más útiles que pueden utilizar con SIP Caller para personalizar tu experiencia de texto a voz.

Comandos SSML clave

<speak>

  • Propósito: El elemento raíz de todos los SSML, que garantiza que tu solicitud se procese como SSML.
  • Ejemplo:
    <speak>¡Hola! ¿Cómo puedo ayudarte hoy?</speak>

<break>

  • Propósito: Añade una pausa al mensaje. Utilízalo para crear un flujo de conversación natural.
  • Atributos:
    • time: Duración de la pausa (por ejemplo, "500ms" para milisegundos o "1s" para segundos).
  • Ejemplo:
    <speak>¡Hola! <break time="500ms"/> ¿Cómo puedo asistirte?</speak>

<emphasis>

  • Propósito: Cambia el énfasis en palabras específicas para agregar expresión.
  • Atributos:
    • level: Puede ser "strong," "moderate," o "reduced."
  • Ejemplo:
    <speak>Esto es información <emphasis level="strong">muy importante</emphasis>.</speak>

<prosody>

  • Propósito: Controla el tono, la velocidad y el volumen del texto hablado.
  • Atributos:
    • rate: Velocidad del habla (por ejemplo, "fast", "slow" o porcentajes).
    • pitch: Tono de la voz (por ejemplo, "high", "low" o "+10%").
    • volume: Nivel de volúmen (por ejemplo, "loud," "soft").
  • Ejemplo:
    <speak><prosody rate="slow" pitch="low">Por favor escucha atentamente.</prosody></speak>

<say-as>

  • Propósito: Especifica el tipo de contenido para ayudar con la pronunciación (por ejemplo, fechas, horas, direcciones).
  • Atributos:
    • interpret-as: Puede ser especificado como "date", "time", "characters", "expletive", etc.
  • Ejemplo:
    <speak>La fecha es <say-as interpret-as="date">2024-11-08</say-as>.</speak>

<sub>

  • Propósito: Lee una abreviatura o acrónimo como su forma completa.
  • Atributos:
    • alias: El texto completo para leer.
  • Ejemplo:
    <speak>SIP Caller utiliza <sub alias="Protocolo de Inicio de Sesión">SIP</sub> para conectarse con la PBX.</speak>

<p> y <s>

  • Propósito: Define párrafos (<p>) y oraciones (<s>) para estructurar indicaciones más largas para un mejor ritmo.
  • Ejemplo:
    <speak><p>Bienvenido a SIP Caller.</p><p>¿Cómo podemos asistirte hoy?</p></speak>

Consejos Rápidos

  • Prueba Variaciones: Juega con combinaciones de <break>, <emphasis> y <prosody> para encontrar los mensajes que suenen más naturales.
  • Mantenlo Claro: el uso excesivo de SSML puede hacer que los mensajes suenen robóticos. Concéntrate en la claridad y la fluidez.
  • Accesibilidad: Utiliza <say-as> para fechas, horas y pronunciaciones especiales para garantizar la precisión.

Al utilizar SSML de manera eficaz en SIP Caller, podrás ofrecer mensajes de voz claros, profesionales y atractivos que mejoren las interacciones con los clientes. Para una mayor personalización, no dudes en explorar la especificación SSML para Google o la especificación SSML para Azure completa y probar diferentes configuraciones con la función de texto a voz de SIP Caller.

Nota especial al usar SSML con Azure Text-to-Speech

Al usar SSML con Azure Text-to-Speech, ten en cuenta que Azure es muy estricto con la estructura de etiquetas SSML, especialmente en comparación con Google Cloud Text-to-Speech, que es más permisivo.

Para que Azure TTS funcione correctamente en SIP Caller, debes incluir explícitamente tanto el elemento raíz <speak> como un elemento <voice> en el texto SSML.

Además, el elemento <voice> debe especificar exactamente la misma voz seleccionada para la campaña en SIP Caller. Si la voz definida en SSML no coincide con la voz de la campaña, Azure podría rechazar la solicitud y no sintetizar el audio.

No seguir esta estructura puede provocar errores de síntesis y que el audio no se genere.

Ejemplo:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="es-US"> <voice name="es-US-PalomaNeural"> Hola. <break time="1s"/> Esta es una llamada de ACME. <break time="1s"/> Es para confirmar tu cita en el día de mañana. <break time="1s"/> Si hay algún problema con esta visita, por favor contáctanos. Muchas gracias. </voice> </speak>


SIP Caller
© 2026 Easy Caller LLC Todos los Derechos Reservados
LinkedinYou Tube