Saiba mais sobre conversas

Novo no design de conversas? Veja alguns princípios e conceitos de alto nível para você começar a escrever sua primeira caixa de diálogo de amostra.
Assista a este vídeo para ver um curso intensivo sobre como escrever um diálogo confortável, descomplicado e centrado no usuário aplicando o Princípio Cooperativo.

De acordo com o Princípio Cooperativo, uma comunicação eficiente baseia-se no pressuposto de que há uma falta de cooperação entre os participantes da conversa.

O Princípio Cooperativo pode ser compreendido em termos de quatro regras, chamadas de Maxims de Grice.

Nós cooperamos instintivamente em termos de... Maxim (ou regra)
...a verdade do que dizemos Maximização da qualidade
...a quantidade de informações que fornecemos Maximização da quantidade
...a relevância da contribuição Maximização da relevância
...da forma como nos esforçamos para nos comunicar claramente, sem obscuridade ou ambiguidade Maxim de Manner
A pesquisa mostrou que as pessoas respondem à tecnologia como responderiam a outro ser humano. Isso significa que os usuários contam com seu modelo existente de conversa entre as pessoas e seguem o Princípio cooperativo, mesmo ao interagir com o perfil de uma interface do usuário conversacional, e também esperam que ele siga o modelo.
Como os usuários cooperam, eles geralmente oferecem mais informações do que é realmente necessário.

O que fazer:

Esse usuário não apenas respondeu à pergunta sobre o tipo de calçado, mas também especificou o tamanho para tentar encontrar rapidamente o que queria. Esse tipo de comportamento é esperado de usuários recorrentes que sabem que outras perguntas serão feitas.

O que não fazer:

Aqui, o perfil esperava somente a resposta à pergunta sobre o tipo "sapato". Os usuários cooperativos ficarão frustrados por terem que repetir o tamanho do sapato novamente.

Seu perfil nem sempre conseguirá lidar com respostas cooperativas. Nesses casos, use tratamento de erros leve e conversacional para colocar a caixa de diálogo de volta de uma forma que não chame a atenção para o erro.

O que fazer:

Se seu perfil estiver esperando uma resposta numérica, respostas cooperativas ou informativas como essas não serão compreendidas. Então, resolva esse erro "Sem correspondência" com uma solicitação rápida.

O que não fazer:

Evite responder com reenvios longos quando possível. Nesse caso, a solicitação mais curta terá a mesma finalidade, sem fazer com que o usuário espere tanto.

Assim como seus usuários, seu perfil também deve ser cooperativo e informativo, oferecendo a quantidade de informações que for necessária para avançar na conversa.

O que fazer:

Esse perfil tenta encontrar opções de entrega alternativas que satisfaçam a intenção do usuário: um gesto cooperativo para avançar a conversa.

O que não fazer:

Esse perfil não tenta satisfazer a intenção do usuário e, depois de apresentar algumas notícias ruins, simplesmente encerra a interação.

Falar em excesso é tão pouco cooperativo quanto dizer pouco. Facilite a compreensão com um resumo breve e relevante do ponto de vista do usuário.

O que fazer:

Esse design é otimizado para relevância. O perfil não inclui detalhes que não são relevantes para a decisão atual.

O que não fazer:

Do ponto de vista do usuário, a maioria dessas informações é irrelevante e repetitiva. Todos esses detalhes impõem uma carga pesada sobre a memória de curto prazo do usuário enquanto ele aguarda a vez dele.

O que fazer:

Esse design é otimizado para relevância. Apenas os poucos usuários que não disserem o código de área precisarão solicitá-lo.

O que não fazer:

Esse design força todos os usuários a ouvir instruções sobre como dizer um número de telefone de uma forma que seja mais fácil para o perfil, mas não para o usuário. Além disso, presume-se incorretamente que o usuário não poderia fazer isso sem instrução, fazendo com que parecesse um prompt de erro.

Saber o que alguém disse não é o mesmo que saber o que eles querem dizer. As pessoas geralmente sugerem coisas em vez de declarar explicitamente. Nossa capacidade de "ouvir entre as linhas" é conhecida como "implicação da conversa".

Implicidade x implicação. Por implicação conversacional, "Ontem vi John em um restaurante com uma mulher" sugere que John estava com uma mulher que não era a esposa dele, porque se a mulher fosse a esposa, o orador teria dito isso. No entanto, por implicação lógica, a mulher poderia ter sido a esposa de John, já que todas as esposas são mulheres.

O que fazer:

Lembre-se de adicionar o processamento de frases como "E pronto", "Tudo isso", "Obrigado" ou "Terminei", para os quais o significado implícito geralmente é "Retirei tudo o que preciso da conversa e já terminei de falar". Tchau."

O que não fazer:

A opção "It's it" não foi adicionada à gramática. Portanto, ela gera um erro "Sem correspondência".

Naturalmente, as pessoas evitam ambiguidade e obscuridade da expressão em uma conversa. O uso de palavras e frases conhecidas ajuda a reduzir a carga cognitiva. Quando se trata de escolha de palavras, se você não dirá isso, sua identidade também não deve.

Quando não for possível decidir entre alguns termos semelhantes, use o Google Trends para descobrir qual termo as pessoas mais pesquisaram e o Visualizador de N-gramas do Google Livros para descobrir qual é o mais publicado.

O que fazer:

O usuário pode ter cometido um erro de digitação ou ter se corrigido rapidamente ao falar. Então, o perfil explica o problema, em inglês simples, e pergunta novamente.

O que não fazer:

"Inválido" é muito técnico e não ajuda a reativar o usuário.

O que fazer:

Mantenha as confirmações simples. "Concluído!" também é uma boa opção.

O que não fazer:

"Transação", "solicitado" e "completo" são formais, não interativos. Além disso, esta mensagem não é relevante: não há motivo para lembrar ao usuário que ele acabou de solicitar uma transação.

O que fazer:

Confirme se a solicitação do usuário foi entendida e aponte para os resultados.

O que não fazer:

"Eventos correspondentes" é uma expressão técnica. A "correspondência" é a correlação entre o que o usuário disse e os shows disponíveis. Todos os dias, os usuários não sabem, e muito menos, o desafio de fazer a correspondência entre consultas e resultados. Além disso, os "eventos correspondentes" são ambíguos. Eles também podem significar eventos que correspondem uns aos outros, como "meias correspondentes".


Contexto

Os avanços no reconhecimento automático de fala (ASR, na sigla em inglês) significam que quase sempre sabemos exatamente o que os usuários disseram. No entanto, ainda é um desafio determinar o que os usuários querem dizer.

Geralmente, as enunciados não podem ser compreendidas isoladamente. Elas são compreendidas apenas no contexto.

Seu perfil precisa acompanhar o contexto para entender os enunciados do usuário.

Se você estiver usando o Dialogflow, acesse este link para saber mais sobre como adicionar contexto.

O que fazer:

É preciso conhecer o turno anterior para saber que "ele" se refere a NotARealDJ. E é preciso conhecer a localização geográfica do usuário para saber que "a cidade" se refere a "São Francisco".

O que não fazer:

Aqui, a pergunta do usuário não é compreendida e ocorre um erro "Sem correspondência".

Seu perfil precisa acompanhar o contexto para entender os intents de continuidade.

A menos que o usuário altere o assunto, podemos presumir que a sequência de conversas continua. Portanto, é provável que as ambiguidades no enunciado atual possam ser resolvidas com expressões anteriores.

Se você estiver usando o Dialogflow, leia a seção sobre intents de continuidade para mais detalhes.

O que fazer:

Usando intents de continuidade, o perfil consegue entender que "E aproximadamente uma meia dúzia?" é uma continuação do enunciado anterior do usuário e o interpretar como "Quanto custa um buquê de 6 rosas?"

O que não fazer:

Se a ação não conseguir interpretar as expressões no contexto conversacional mais amplo, ela interpretará incorretamente a consulta do usuário ou acabará gerando um erro. Nesse caso, um erro "Sem correspondência".

Para interações multimodais, tudo na tela faz parte do contexto da conversa. Se os usuários puderem ver, presumirão que podem se referir a ela.

O que fazer:

Prevê referências à localização de um item na tela, como "a primeira" ou como é, por exemplo, "a vermelha".

O que não fazer:

É problemático quando o perfil não tem conhecimento do que está sendo exibido na tela.


Variação

A variedade é o tempero da vida. Os usuários prestam mais atenção quando há mais. A variedade também pode impedir que a interação pareça monótona ou robótica.

Então, escolha aleatoriamente. Para qualquer solicitação, geralmente há algumas alternativas de conversa que funcionarão. Concentre seus esforços em solicitações que os usuários ouvem com frequência para que essas frases não se tornem cansativas.

Se você estiver usando o Dialogflow, será fácil adicionar diversas variações de resposta.

Considere todas as diferentes maneiras de responder à pergunta "que horas são?"

Se a ação informar aos usuários o horário, adicione todas as variações acima e as reproduza aleatoriamente nas condições em que forem aplicadas.


Por virada

Ao nos revezarem, evitamos interromper uma à outra e manter a conversa sincronizada. A conversa é sobre quem "tem o microfone": pegá-lo, segurar o microfone e entregá-lo a outro alto-falante. Para gerenciar esse processo complexo, contamos com um amplo inventário de dicas incorporadas na estrutura da frase, entonação, olhar para os olhos e linguagem corporal. Sua ação será limitada ao expressar e detectar essas dicas, mas você ainda pode escrever solicitações para ajudar o usuário a saber quando tomar a vez dele.
Seu perfil deve apresentar sinais claros quando for a vez do usuário.

O que fazer:

Faça uma frase de chamariz clara ao fazer uma pergunta.

O que não fazer:

Quando esse design é apresentado, muitos usuários não participam.

Seu perfil não deve monopolizar a conversa nem tentar apresentar todas as opções/perguntas de uma só vez.

O que fazer:

Solicitar ao usuário apenas uma pergunta por vez.

O que não fazer:

Não continue falando depois de fazer uma pergunta. Não sobrecarregue o usuário com opções e perguntas.


Recursos adicionais

  • Dê uma personalidade à VUI
  • Mover a conversa para frente
  • Seja breve e relevante
  • Aproveite o contexto
  • Direcione o foco do usuário pela ordem das palavras e estresse
  • Não ensine "comandos", falar é intuitivo.
Method Podcast, episódio 8, Margaret Urban, designer sênior de interação do Google, sobre a ciência da fala e como projetar interfaces do usuário para o Google Assistente

Alguns destaques:

  • Sobre a magia da linguagem, 3:13
  • "Sempre gostei de um idioma. Acho mágico. É como a telepatia, que, simplesmente pela vibração de uma onda sonora, posso colocar uma ideia na cabeça."
  • Como fazer computadores parecerem humanos, 2:37
  • "Como o idioma é usado no contexto social é muito importante para criar algo que pareça natural. Porque queremos que os computadores se comuniquem como as pessoas. Não queremos forçar as pessoas a falar como computadores."
The InAwesome Thing We Do while Conversations, de Ed Yong. The Atlantic. 4 de janeiro de 2016
"Quando falamos, nos revezamos em que o "direito" de falar gira entre os parceiros. Essa conversa é tão familiar e aparentemente estranha que raramente fazemos comentários sobre ela. No entanto, considere o tempo: em média, cada rodada dura cerca de dois segundos, e o intervalo típico entre eles é de apenas 200 milissegundos, o que é praticamente o tempo necessário para dizer uma sílabas. Esse número é universal. Ele existe em várias culturas, com pequenas variações. Chega de conversar em línguas de sinais."
"Quando uma pessoa faz uma pergunta a outra, leva em média 200 milissegundos para responder. Isso é tão rápido que não conseguimos ouvir a pausa. Na verdade, ela é mais rápida do que o cérebro. Leva cerca de meio segundo para recuperar as palavras e dizer algo. Isso significa que, em uma conversa, uma pessoa está se preparando para falar antes mesmo de a outra terminar. Ao ouvir o tom, a gramática e o conteúdo da fala de outra pessoa, podemos prever quando ela será feita."
A importância das pausas na conversa por Johnson. The Economist. 14 de dezembro de 2017
"A conversa, na verdade, é uma máquina bem ajustada, como Nick Enfield, linguista da Universidade de Sydney, sugere em "Como conversamos". Os humanos seguem uma regra chamada "sem lacunas, sem sobreposição", reagindo ao final de uma conversa, iniciando seu próprio em 200 milissegundos, aproximadamente o tempo que leva para um velocista responder à arma inicial. Isso é ainda mais impressionante, já que leva cerca de 600 milissegundos para alguém descobrir o que vai dizer recuperando as palavras mentalmente e organizando como elas devem ser expressas."