Principais repositórios de dados para publicação

Lista dos principais repositórios de dados para publicação

By Maurício Vancine in Blog

January 3, 2025

Contextualização

Disponibilizar dados dos artigos publicados é uma ótima forma de aumentar a reprodutibilidade e acesso aos dados. Entretanto, essa é não é uma tarefa muito fácil, principalmente se a intenção a disponibilida de grandes conjuntos de dados.

Para um tabela simples com poucas linhas e colunas a tarefa pode ser realizada no GitHub, por exemplo, mas no meu caso, onde eu tinha mais de 250 GB de camadas rasters, a coisa ficou um pouco mais complicada.

Eu optei por disponibilizar os dados no Zenodo, mas antes de chegar a ele, fiz uma busca de vários repositórios de dados, os quais eu listo aqui.

Principais repositórios de dados

Fiz uma tabela com informações sobre os principais repositórios, incluindo detalhes sobre o tamanho do repositório, limites de tamanho de arquivos e quantidade de arquivos.

Repositório Descrição Limite de tamanho por arquivo Limite de tamanho por repositório Características principais
Zenodo Mantido pelo CERN; suporta dados de todas as áreas de pesquisa Até 50 GB por arquivo Limite total de armazenamento de 50 GB por repositório; máximo de 100 arquivos; mas sujeito a políticas de uso justo Integração com GitHub; atribuição de DOI; compartilhamento gratuito
Figshare Compartilhamento de dados de pesquisa; documentos; apresentações e mais Até 5 GB por arquivo para usuários gratuitos; até 20 GB para usuários institucionais Limite total de armazenamento de 20 GB para usuários gratuitos; ilimitado para usuários institucionais Fácil visualização de arquivos; suporte para muitos formatos; atribuição de DOI
Dryad Voltado para dados associados a artigos científicos Até 10 GB por arquivo; arquivos maiores podem ser considerados mediante solicitação Sem limite explícito; mas taxas adicionais podem ser aplicadas para grandes volumes de dados Focado em dados biológicos e ambientais; metadados detalhados; requer taxa para publicação em alguns casos
Open Science Framework (OSF) Repositório e plataforma colaborativa para projetos científicos Até 5 GB por arquivo Limite total de armazenamento de 50 GB para usuários gratuitos; planos pagos disponíveis para mais armazenamento Integração com ferramentas como GitHub; Google Drive e Dropbox; suporte para projetos interdisciplinares
Harvard Dataverse Parte do Dataverse Project; suporta múltiplas disciplinas Até 2 GB por arquivo; arquivos maiores podem ser carregados via API ou ferramentas especializadas Sem limite explícito para o conjunto de dados Metadados detalhados; foco em dados de pesquisa; gratuito para compartilhar
Mendeley Data Plataforma para compartilhar conjuntos de dados em diversos formatos Até 10 GB por conjunto de dados para contas pessoais; até 100 GB para contas institucionais Até 10 GB por conjunto de dados para contas pessoais; até 100 GB para contas institucionais Oferecido pela Elsevier; integração com artigos científicos publicados na plataforma
PANGAEA Repositório para dados de ciências da Terra e meio ambiente Não especificado publicamente; recomenda-se contato para dados muito grandes Sem limite explícito; mas grandes volumes devem ser discutidos com os administradores Focado em dados ambientais; integração com artigos científicos e periódicos específicos
ScienceBase Repositório para dados ambientais e geológicos; mantido pelo USGS Não especificado publicamente Não especificado publicamente Focado em dados geoespaciais; suporte para diversas áreas ambientais
Kaggle Datasets Plataforma para compartilhamento de conjuntos de dados Até 20 GB por arquivo Limite total de 100 GB por conjunto de dados Popular entre cientistas de dados; fácil acesso a dados para aprendizado de máquina e análise
DataCite Search Agregador de repositórios que utilizam DOIs para dados científicos Não aplicável Não aplicável Permite localizar conjuntos de dados em múltiplos repositórios

Fonte da imagem: freepik.