A correspondência semântica de texto é uma tarefa no processamento de linguagem natural que envolve estimar a semelhança semântica entre dois textos. Por exemplo, se tivéssemos que quantificar a semelhança entre “sinto-me nervoso” e “sinto-me ansioso”, a maioria das pessoas concordaria que essas duas frases estão mais próximas do que “sinto-me feliz”. Um algoritmo de correspondência semântica de texto seria capaz de colocar um número na similaridade, como 79%.
Um algoritmo de correspondência semântica de texto é diferente de um algoritmo simples de similaridade de texto, que meramente examina a forma superficial de um texto. Uma correspondência semântica deve estar ciente da semelhança de significado entre “nervoso” e “ansioso”.
As principais aplicações da correspondência semântica de texto estão em áreas como pesquisa na Web ou recuperação de informações, respostas a perguntas e sistemas de recomendação. No entanto, existem outras aplicações mais específicas. Por exemplo, no projeto Harmony , estamos usando correspondência semântica de texto para harmonização de conjuntos de dados nas ciências sociais.
Um problema de correspondência semântica de texto geralmente é enquadrado como correspondência de um texto de origem para muitos textos de destino.
Em um sistema de recuperação de informações, isso significaria que os documentos a serem pesquisados devem ser indexados de forma eficiente. Portanto, se você tiver uma pergunta como “O que é harmonização de dados?” e 1000 documentos para pesquisar, você não necessariamente calcularia a similaridade semântica entre todos os pares, pois isso seria ineficiente. Mais provavelmente, você usaria uma ferramenta menos sofisticada, como correspondência em nível de texto, para gerar uma lista restrita de documentos candidatos.
No caso do Harmony , queremos medir a similaridade de cada item de um questionário com cada item de outro questionário. A maneira mais simples de fazer isso é converter cada item do questionário em uma representação semântica e, em seguida, calcular a matriz n×n de similaridades para todos os n itens.
Avanços recentes em aprendizado profundo permitiram um novo tipo de técnica de correspondência semântica de texto por meio de Modelos de transformadores , como BERT, GPT-3 e o recentemente anunciado Google BARD .
Os modelos transformadores operam em sequências de palavras e transformam sentenças inteiras em vários idiomas em uma representação vetorial no espaço de alta dimensão. Em seguida, podemos quantificar a semelhança entre as sentenças com uma métrica simples, como distância euclidiana ou cosseno. Isso nos permite medir a semelhança entre as palavras.
No desenvolvimento do Harmony , o algoritmo de melhor desempenho testado até agora foi o GPT-3, no entanto, como o campo está evoluindo tão rapidamente, é provável que fique desatualizado muito em breve. Portanto, assista ao nosso blog e, enquanto isso, você pode testar o Harmony em seus dados.
Os modelos Transformer provaram ser muito eficazes na correspondência semântica de texto. Eles também são muito eficientes em termos de recursos computacionais e podem facilmente escalar para grandes conjuntos de dados. Isso os torna uma ótima opção para aplicativos relacionados a tarefas de correspondência de texto.
Estamos felizes em compartilhar algumas novidades interessantes com você. o Harmony agora oferece suporte a pelo menos 8 idiomas: português, francês, alemão, espanhol, russo, chinês e hebraico. Isso significa que você pode usar o Harmony para comparar e harmonizar os dados do questionário em estudos escritos em idiomas diferentes. I evaluated Harmony’s ability to match the GAD-7 in 11 languages to the English version. I found that Harmony was able to achieve >95% AUC for 7 of the 11 non-English languages.
Na quinta-feira, 17 de agosto de 2023, as equipes Harmony e TIDAL se uniram para realizar um workshop na University College London para permitir que os pesquisadores experimentem suas ferramentas de software. O workshop contou com a participação de pesquisadores interessados em usar essas ferramentas para estudar a saúde mental de crianças e adolescentes e outras áreas de pesquisa em ciências sociais, desde os efeitos do vício em jogos de azar até perguntas sobre natureza versus criação em estudos de gêmeos.