Usando Inteligência Artificial para decodificar as vocalizações dos cães

Usando Inteligência Artificial para decodificar as vocalizações dos cães

Você já desejou poder entender o que seu cachorro está tentando lhe dizer? Pesquisadores da Universidade de Michigan estão explorando as possibilidades da IA, desenvolvendo ferramentas que podem identificar se o latido de um cachorro transmite brincadeira ou agressão.

Os mesmos modelos também podem coletar outras informações de vocalizações de animais, como idade, raça e sexo do animal. Uma colaboração com o Instituto Nacional de Astrofísica, Óptica e Eletrônica (INAOE) do México em Puebla, o estudo descobre que modelos de IA originalmente treinados na fala humana podem ser usados ​​como um ponto de partida para treinar novos sistemas que visam a comunicação animal.

Os resultados foram apresentados na Conferência Internacional Conjunta sobre Linguística Computacional, Recursos Linguísticos e Avaliação.

“Ao usar modelos de processamento de fala inicialmente treinados na fala humana, nossa pesquisa abre uma nova janela sobre como podemos aproveitar o que construímos até agora no processamento de fala para começar a entender as nuances dos latidos de cachorro”, disse Rada Mihalcea, professora universitária de Ciência da Computação e Engenharia Janice M. Jenkins e diretora do Laboratório de IA da Universidade de Michigan, nos EUA.

“Há muito que ainda não sabemos sobre os animais que compartilham este mundo conosco. Avanços em IA podem ser usados ​​para revolucionar nossa compreensão da comunicação animal, e nossas descobertas sugerem que talvez não tenhamos que começar do zero.”

Um dos obstáculos predominantes para o desenvolvimento de modelos de IA que podem analisar vocalizações de animais é a falta de dados disponíveis publicamente. Embora existam vários recursos e oportunidades para gravar a fala humana, coletar esses dados de animais é mais difícil.

“Vocalizações de animais são logisticamente muito mais difíceis de solicitar e registrar”, disse Artem Abzaliev, autor principal e aluno de doutorado em ciência da computação e engenharia da Universidade de Michigan. “Elas devem ser registradas passivamente na natureza ou, no caso de animais domésticos, com a permissão dos donos.”

Devido a essa escassez de dados utilizáveis, técnicas para analisar vocalizações de cães têm se mostrado difíceis de desenvolver, e as que existem são limitadas pela falta de material de treinamento. Os pesquisadores superaram esses desafios ao reaproveitar um modelo existente que foi originalmente projetado para analisar a fala humana.

Essa abordagem permitiu que os pesquisadores explorassem modelos robustos que formam a espinha dorsal das várias tecnologias habilitadas para voz que usamos hoje, incluindo voz para texto e tradução de idiomas. Esses modelos são treinados para distinguir nuances na fala humana, como tom, altura e sotaque, e converter essas informações em um formato que um computador pode usar para identificar quais palavras estão sendo ditas, reconhecer o indivíduo falando e muito mais.

“Esses modelos são capazes de aprender e codificar os padrões incrivelmente complexos da linguagem e fala humana”, disse Abzaliev. “Queríamos ver se poderíamos alavancar essa habilidade de discernir e interpretar latidos de cachorro.”

Os pesquisadores usaram um conjunto de dados de vocalizações gravadas de 74 cães de raça, idade e sexo variados, em uma variedade de contextos. Humberto Pérez-Espinosa, um colaborador do INAOE, liderou a equipe que coletou o conjunto de dados. Abzaliev então usou as gravações para modificar um modelo de aprendizado de máquina — um tipo de algoritmo de computador que identifica padrões em grandes conjuntos de dados. A equipe escolheu um modelo de representação de fala chamado Wav2Vec2, que foi originalmente treinado em dados de fala humana.

Com esse modelo, os pesquisadores conseguiram gerar representações dos dados acústicos coletados dos cães e interpretar essas representações. Eles descobriram que o Wav2Vec2 não só teve sucesso em quatro tarefas de classificação; ele também superou outros modelos treinados especificamente em dados de latidos de cães, com números de precisão de até 70%.

“Esta é a primeira vez que técnicas otimizadas para a fala humana foram construídas para ajudar na decodificação da comunicação animal”, disse Mihalcea. “Nossos resultados mostram que os sons e padrões derivados da fala humana podem servir como base para analisar e entender os padrões acústicos de outros sons, como vocalizações de animais.”

Além de estabelecer modelos de fala humana como uma ferramenta útil na análise da comunicação animal — o que pode beneficiar biólogos, especialistas em comportamento animal e muito mais — esta pesquisa tem implicações importantes para o bem-estar animal. Entender as nuances das vocalizações caninas pode melhorar muito a forma como os humanos interpretam e respondem às necessidades emocionais e físicas dos cães, melhorando assim seus cuidados e prevenindo situações potencialmente perigosas, disseram os pesquisadores.

Por  Emily France / Tradução de Alice Wehrle Gomide

Fonte: Science Daily

Os comentários abaixo não expressam a opinião da ONG Olhar Animal e são de responsabilidade exclusiva dos respectivos autores.