Skills Alexa configurações Multimodal.

Criada por EKAZA Adentimento, Modificado em Dom, 25 Mai, 2025 na (o) 10:19 PM por EKAZA Adentimento

Que a skill é um aplicativo de voz você já sabe. Mas…. a aqueles dispositivos Alexa com tela, pra que serve essa tela se as skills usam voz?

Neste artigo vamos ver o que nossas skills podem fazer com dispositivos Alexa com tela, vamos ver o que é skill multimodal e como podemos construí-los

O Que É Skill Multimodal?

As skills são basicamente aplicativos de voz, ou seja, o usuário interage com seu sistema conversando com ela.

O significado de multimodal neste contexto é a inclusão de outra forma de comunicação dentro do seu software. Neste caso, os recursos visuais.

Por Que Criar Uma Skill Multimodal?

Existem muitos dispositivos com Alexa embutida que contam com tela, como Echos e TVs. Então por que não aproveitar mais esse canal de comunicação?

Mais Detalhes Na Resposta: Podemos utilizar a tela dos dispositivos para apresentar mais detalhes na resposta de nossas skills enquanto deixamos a resposta de voz o mais sucinta possível.
Recursos Visuais: os dispositivos com tela permitem incorporar uma identidade visual a sua skill, incluindo o logo e as cores da sua marca, por exemplo.
Experiências Mais Ricas: apesar da Alexa ser direcionada para voz, algumas skills só fazem sentido por causa da resposta visual, como skills que reproduzem conteúdo em vídeo.

Alexa Presentation Language

Agora que já sabemos o que é skill multimodal e como ele melhora a experiência do nosso usuário, vamos ver o que precisamos para criar uma skill multimodal.

A APL (Alexa Presentation Language) foi projetada justamente para este fim, mostrar elementos gráficos nas telas dos dispositivos Alexa. Com a APL podemos criar estas respostas visuais sem precisar pensar em qual dispositivo o usuário está usando, pois os elementos se ajustam automaticamente a tela em que as imagens serão apresentadas.

E Como Funciona?

Ela funciona praticamente da mesma forma que uma skill normal.

A diferença fica no back end, no momento de gerar a resposta para o usuário.

Além de gerar a resposta de voz, podemos neste momento montar também uma resposta visual utilizando a APL. Claro que existe um modo de saber se o usuário está utilizando um dispositivo com tela e assim podemos decidir se o processamento desta resposta visual será necessário.

Palavras Finais

Neste artigo vimos o que é skill multimodal. São skills que utilizam imagem nos dispositivos que possuem tela.

É um tipo de skill que utiliza resposta visual para enriquecer a experiência do usuário nas nossas skills.

Podemos utilizar para enriquecer com mais detalhes a resposta de voz da Alexa.

Link fonte da informação: https://celsokitamura.com.br/o-que-e-skill-multimodal/