Autor: Raidell Avello Martínez – Tradução: Lilian Ribeiro
Na esfera da pesquisa científica, uma transformação histórica está ocorrendo. O impulso da ciência aberta, associado ao avanço das TIC, e o grande aumento no volume de dados são elementos invariáveis para planejar, executar e comunicar os resultados da pesquisa. O gerenciamento dos dados da pesquisa surge como um novo elemento da comunicação científica que afeta pesquisadores, instâncias de publicação, indexação e avaliação da ciência. Nesse ambiente, a análise de grandes volumes de dados (bigdata) e seu valor é maior do que nunca e continua a aumentar.
Em particular, na pesquisa científica, existem diferentes tipos de dados, classificados de acordo com a metodologia aplicada para obtê-los. Entre os principais tipos estão os observacionais, que correspondem a registros históricos (eles só podem ser obtidos em um único momento e local); os dados experimentais, isto é, aqueles gerados com a aplicação de diferentes tipos de experimentos; Há também dados computacionais, que podem incluir dados de entrada ou logs de atividades do aplicativo; da mesma forma, bem como os dados de simulação gerados a partir de modelos de teste. Esses conjuntos de dados ou datasets, com frequência crescente, são publicados em repositórios de dados projetados para essa finalidade, a fim de serem acessados e citados.
Embora essa prática ainda não seja generalizada, é uma necessidade internacional que agências públicas de financiamento, universidades, fundações, periódicos etc. ofereçam esses serviços de armazenamento e exijam que os pesquisadores os publiquem. Acima de tudo, insista para que os pesquisadores, juntamente com seus documentos eletrônicos publicados, forneçam links para seus conjuntos de dados. Da mesma forma, faça com que os pesquisadores vejam o valor dos dados e seu potencial de reconhecimento de seu trabalho, tanto em seus círculos profissionais, quanto pelo aumento da citação que pode ser gerada pela consulta e reutilização.
Dada a importância que a publicação dos dados ganhou, os principais editores, como Elsevier, Springer, etc., além de instituições e universidades, criaram esse novo serviço, com níveis de organização por assunto, descritor e metadados que permitem indexar e pesquisa eficiente. Apenas para mencionar alguns dos mais populares são: Harvard Dataverse, Open Science Framework e Mendeley Data.
Recentemente, a Revista Nature publicou uma lista bastante exaustiva dos repositórios de dados recomendados “Recommended Data Repositories“, organizados por áreas da ciência, que podem ser muito úteis para os pesquisadores.
Da mesma forma, mecanismos de busca especializados em conjuntos de dados proliferaram, permitindo a busca e recuperação de conjuntos de dados associados à pesquisa científica. A seguir, duas iniciativas interessantes são comentadas:
Dataset Search de Google
A Pesquisa de conjuntos de dados do Google (https://toolbox.google.com/datasetsearch) permite que os usuários pesquisem conjuntos de dados armazenados na Internet por palavras-chave. Essa ferramenta exibe informações sobre conjuntos de dados hospedados em milhares de repositórios da Internet; dessa forma, qualquer usuário pode acessá-los e tirar proveito das informações que eles contêm. Esse projeto também terá outras vantagens, pois: a) cria um ecossistema de compartilhamento de dados que incentiva os editores a seguir as melhores práticas para armazenar e publicar dados e b) oferece aos pesquisadores uma maneira de mostrar o impacto de seus trabalho com as citações dos conjuntos de dados que eles produziram.
DataSearch de Elsevier
O DataSearch (https://datasearch.elsevier.com/) é um mecanismo de pesquisa da Elsevier, associado ao Scopus, dedicado aos dados principais de pesquisa. É o primeiro mecanismo de pesquisa que pode pesquisar não apenas na descrição ou metadados dos artigos, mas também nos próprios dados. Também é possível visualizar dados diretamente dos resultados da pesquisa, bem como baixar o conjunto de dados completo. A nova colaboração com o DataSearch significa que, quando você executa uma pesquisa no Scopus, a mesma pesquisa é executada simultaneamente no DataSearch. Se forem encontrados resultados de dados, você encontrará um link (listando o número de resultados encontrados) na página de resultados da pesquisa Scopus.
Além disso, neste site, a Elsevier propõe 10 aspectos ou etapas (recomendações) para levar em conta o gerenciamento eficaz dos dados e seu ciclo de vida, são eles:
Como conclusão, dados de ciência aberta são um tipo de dado aberto focado na publicação de observações e resultados da aplicação dos métodos científicos disponíveis e atividades científicas para qualquer um analisar e reutilizar. Um dos principais objetivos da disponibilidade de dados abertos na ciência é permitir a transparência e a verificação de alegações científicas, permitindo que outros vejam a reprodutibilidade dos resultados e permitindo que dados de muitas fontes sejam integrados para fornecer novos insights. É por isso que essa prática deve fazer parte do processo de pesquisa científica hoje.