首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
Docker容器镜像管理系统数据集
叶宏杰
开发数据
开发制品
2.9 GB
2020-10-12 11:18
返回
本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,其中包含了600多万个Docker项目的约100万份Dockerfile及其元数据信息,以及根据Docker项目构建的知识图谱数据库等。 #####数据来源 该数据集收集自[Docker hub](http://hub.docker.com/ "Docker Hub")。作者使用关键词检索的方法,从Docker Hub上爬取了约600万个Docker项目,并收集项目的Dockerfile,共计约100万个。 #####数据格式 data.zip:爬取的Dockerfile以及标签推荐模型等的压缩包。其中data/dockerfile/json存储了爬取到的Dockerfile graph.db.dump:根据爬取的Docker项目构建的Docker领域知识图谱(neo4j图数据库数据) docker_manager_remote.sql:存储Docker项目和Dockerfile元数据的MySQL数据库 #####数据应用 用户可以使用该数据集探索Docker项目演化特征、获取Docker领域知识,自动生成Dockerfile和提高Dockerfile质量。 #####数据下载 服务访问地址: http://39.104.105.27:8000/