首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
程序
蔡华松
开发数据
开发制品
2022-01-12 11:30
返回
本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,其中包含了超过65万个开源软件项目的持续集成流水线描述文件(TravisCI配置文件)。 #####数据背景 [持续集成](https://docs.travis-ci.com/user/for-beginners/)方法及工具在软件开发中得到了广泛的应用.根据软件项目的需求,持续集包含自动化的代码合并、检查、编译、链接、测试、打包等诸多任务中的若干,他们通过一定的拓扑关系构成一条持续集成流水线。持续集成工具的配置文件描述了各个项目的流水线。持续集成可以大大提高软件开发迭代的速度,同时避免人力成本的上升。 #####数据来源 该数据集收集自[Github](http://example.com/ "Title")。作者选取了当时所有包含[TravisCI](https://www.travis-ci.org/ "Title")配置文件(.travis.yml)repository(非fork),从中下载了这些配置文件,共计65万8千余个(每个repository一个)。 #####数据格式 该数据集中的每个配置文件为[yaml](http://yaml.org/)格式,其中各个key的含义请参考TravisCI的[官方文档](https://docs.travis-ci.com/)。 配置文件以repository的名称命名。这些文件统一记录在repo_list_travisci.txt中,通过一级索引文件夹进行组织,文件夹以repository名称的第一个字符命名。 #####数据应用 用户可以使用该数据集探索持续集成流水线的特征、模式,帮助提高持续集成的效率。 #####数据下载 数据下载地址:https://www.trustie.net/statistics
附件:
echoserv.rar
( 3.049 KB)
蔡华松
, 2022-01-12 11:29