Agora, mais do que nunca, a comunidade de pesquisa internacional está interessada em determinar se suas descobertas se replicam em diferentes contextos. Por exemplo, se um pesquisador descobre uma associação potencialmente importante entre duas variáveis, ele pode querer verificar se essa associação está presente em outras populações (por exemplo, países diferentes ou gerações diferentes). Em um mundo ideal, isso seria alcançado por meio da realização de estudos de acompanhamento harmonizados por projeto. Em outras palavras, exatamente as mesmas metodologias e medidas seriam usadas em uma nova amostra, a fim de determinar se as descobertas podem ser replicadas. No entanto, essa replicação direta costuma ser desafiadora, com os financiadores de pesquisa geralmente preferindo novas linhas de investigação.
Como alternativa à replicação direta, os pesquisadores podem optar por entrar em contato com outras pessoas no campo que tenham acesso ou estejam em processo de coleta de dados comparáveis. De fato, muitos pesquisadores, particularmente aqueles nas ciências sociais e da vida, rotineiramente fazem uso de grandes estudos em andamento que coletam uma variedade de dados para propósitos múltiplos (por exemplo, estudos populacionais longitudinais). Na prática, no entanto, grande parte de nossa pesquisa é projetada e realizada em silos – com diferentes grupos de pesquisa abordando questões de pesquisa semelhantes usando projetos e medidas amplamente diferentes. Mesmo que um pesquisador seja bem-sucedido na identificação de dados semelhantes ao seu trabalho original, pequenas diferenças no design ou nas medidas podem limitar a comparabilidade. O que os pesquisadores devem fazer em tais situações?
Uma opção cada vez mais popular é a harmonização retrospectiva. Isso envolve pegar dados existentes de duas ou mais fontes diferentes e transformar os dados de alguma forma para torná-los diretamente comparáveis entre as fontes. Vejamos um exemplo simples e hipotético. Digamos que um pesquisador queira examinar a relação entre nível de educação e depressão e se isso varia em dois conjuntos de dados, cada um de um país diferente. No conjunto de dados A, os participantes foram solicitados a relatar sua qualificação mais alta em uma lista de 10 opções que variavam de “sem educação formal” a “ensino de doutorado”, enquanto no conjunto de dados B havia uma pergunta simples que perguntava aos participantes se eles concluíram um diploma de bacharel (sim não). A pergunta de 10 opções no conjunto de dados A pode ser recodificado para corresponder à variável no conjunto de dados B, recolhendo todas as categorias acima e abaixo do nível de bacharel. Em muitos casos, a harmonização retrospectiva pode ser aplicada ad hoc, usando estratégias de recodificação simples e lógicas como esta.
No entanto, nem todos os construtos podem ser medidos com perguntas tão simples e categóricas. Pegue a variável de resultado acima (depressão), por exemplo. A depressão é uma experiência complexa e heterogênea, caracterizada por uma multiplicidade de sintomas que podem ser experimentados em vários graus e em diferentes combinações. Em pesquisas de larga escala, a depressão é normalmente medida com questionários padronizados – os participantes são solicitados a relatar uma série de sintomas, suas respostas recebem valores numéricos e estes são somados para formar uma “pontuação total de depressão” para cada indivíduo. Embora essa continue sendo a estratégia mais viável e plausível para medir algo tão complexo quanto a depressão, não existe um questionário “padrão-ouro” que seja universalmente adotado pelos pesquisadores. Em vez disso, existem mais de 200 escalas de depressão estabelecidas. Em uma revisão recente (McElroy et al. , 2020), notamos que o conteúdo desses questionários pode diferir acentuadamente, por exemplo, diferentes sintomas são avaliados ou diferentes opções de resposta são usadas.
Como os pesquisadores podem harmonizar medidas tão complexas? Uma opção seria padronizar as pontuações dentro de cada conjunto de dados, transformando assim a pontuação bruta de todos em uma ordem de classificação dentro de uma determinada amostra. Embora simples, esta abordagem tem uma série de fraquezas. Em primeiro lugar, você está assumindo que ambos os questionários estão medindo o mesmo constructo subjacente e o estão medindo igualmente bem. Em segundo lugar, ao padronizar uma medida dentro de uma coorte, você está removendo todas as informações sobre a média e o desvio padrão, impossibilitando a comparação do nível médio de uma construção entre conjuntos de dados.
Uma abordagem alternativa é aplicar a harmonização retrospectiva no nível do item. Embora os questionários possam diferir consideravelmente no número e na natureza das perguntas feitas, muitas vezes há uma sobreposição considerável no nível semântico/conteúdo. Voltemos ao nosso exemplo anterior de depressão. Embora existam muitos questionários diferentes que podem ser usados para avaliar essa experiência, eles geralmente fazem os mesmos tipos de perguntas. Abaixo está um exemplo de sobreposição de conteúdo em duas das medidas mais comuns de sofrimento psicológico usadas em crianças, a Escala Revisada de Ansiedade e Depressão Infantil (RCADS) e o Questionário de Humor e Sentimentos (MFQ).
Ao identificar, recodificar e testar a equivalência de subconjuntos de itens de diferentes questionários (para obter diretrizes, consulte nosso relatório anterior), os pesquisadores podem derivar subescalas harmonizadas que são diretamente comparáveis entre os estudos. Nosso grupo já usou essa abordagem para estudar tendências em saúde mental em diferentes gerações (Gondek et al., 2021) e examinar como a privação socioeconômica afetou a saúde mental de adolescentes em diferentes coortes (McElroy et al., 2022).
Um dos principais desafios para harmonizar retrospectivamente os dados do questionário é identificar os itens específicos que são comparáveis entre as medidas. No exemplo acima, usamos a opinião de especialistas para combinar os itens candidatos com base em seu conteúdo e usamos testes psicométricos para determinar o quão plausível era supor que os itens correspondentes eram diretamente comparáveis. Embora nossos resultados fossem promissores, esse processo era demorado e a confiança na opinião de especialistas introduz um elemento de viés humano – ou seja, diferentes especialistas podem discordar sobre quais itens correspondem. Como tal, estamos atualmente trabalhando em um projeto apoiado pela Wellcome, no qual pretendemos desenvolver uma ferramenta online, ‘Hamony’, que usa aprendizado de máquina para ajudar os pesquisadores a combinar itens de diferentes questionários com base em seu significado subjacente. Nosso objetivo geral é simplificar e adicionar consistência e replicabilidade ao processo de harmonização. Planejamos testar a utilidade dessa ferramenta usando-a para harmonizar medidas de saúde mental e conexão social em duas coortes de jovens do Reino Unido e do Brasil.
Siga este blog para atualizações sobre o nosso projeto Harmony !
Referências
Costello, EJ, & Angold, A. (1988). Escalas para avaliar a depressão infantil e adolescente: listas de verificação, telas e redes. Jornal da Academia Americana de Psiquiatria Infantil e Adolescente, 27(6), 726-737.
Chorpita, BF, Yim, L., Moffitt, C., Umemoto, LA e Francis, SE (2000). Avaliação dos sintomas de ansiedade e depressão do DSM-IV em crianças: uma escala revisada de ansiedade e depressão infantil. Behaviour research and therapy, 38(8), 835-855.
Gondek, D., Bann, D., Patalay, P., Goodman, A., McElroy, E., Richards, M., & Ploubidis, GB (2022). Sofrimento psicológico desde o início da idade adulta até o início da velhice: evidências das coortes britânicas de nascimento de 1946, 1958 e 1970. Medicina Psicológica, 52(8), 1471-1480.
McElroy, E., Villadsen, A., Patalay, P., Goodman, A., Richards, M., Northstone, K., … & Ploubidis, GB (2020). Harmonização e propriedades de medição de medidas de saúde mental em seis coortes britânicas. CLOSER: Londres, Reino Unido.
McElroy, E., Tibber, M., Fearon, P., Patalay, P., & Ploubidis, G. (aceito, no prelo). Desigualdades socioeconômicas e de sexo em problemas de saúde mental de adolescentes relatados pelos pais: tendências temporais em quatro coortes britânicas de nascimento. Jornal de Psicologia Infantil e Psiquiatria
Estamos felizes em compartilhar algumas novidades interessantes com você. o Harmony agora oferece suporte a pelo menos 8 idiomas: português, francês, alemão, espanhol, russo, chinês e hebraico. Isso significa que você pode usar o Harmony para comparar e harmonizar os dados do questionário em estudos escritos em idiomas diferentes. I evaluated Harmony’s ability to match the GAD-7 in 11 languages to the English version. I found that Harmony was able to achieve >95% AUC for 7 of the 11 non-English languages.
Na quinta-feira, 17 de agosto de 2023, as equipes Harmony e TIDAL se uniram para realizar um workshop na University College London para permitir que os pesquisadores experimentem suas ferramentas de software. O workshop contou com a participação de pesquisadores interessados em usar essas ferramentas para estudar a saúde mental de crianças e adolescentes e outras áreas de pesquisa em ciências sociais, desde os efeitos do vício em jogos de azar até perguntas sobre natureza versus criação em estudos de gêmeos.