本数据集是什么?
本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是对GitHub上Pull-request(PR)评论的类别标注集。
本数据集为什么?
审阅者在审查PR的时候,会以评论的形式留下相关意见。在这些评论中当中往往包含评论者不同的意见。我们依据相关研究和实际调研为这些评论建立了层次化类别体系,根据这个分类体系,我们对PR的评论进行了人工标注。
本数据集有什么?
Rails的一部分PR、PR的评论以及评论的标注。具体表结构如下(采用ARFF语法):
@RELATION rails_prj_prs % pull-request表
@ATTRIBUTE id % 主键
@ATTRIBUTE title % PR在Github上的标题
@ATTRIBUTE description % PR在Github上的描述
@ATTRIBUTE comment_count % PR的评论数
@ATTRIBUTE author_name % PR提交者在Github上的用户名
@ATTRIBUTE created_at % PR的创建时间
@RELATION rails_prj_comments % pull-reqeust评论表
@ATTRIBUTE id % 主键
@ATTRIBUTE pr_id % 该评论对应的PR的id
@ATTRIBUTE author_name % 评论者在Github的用户名
@ATTRIBUTE comment_body % 评论的文本信息
@ATTRIBUTE comment_type % 评论的类型(0表示代码级评论;1表示普通评论)
@RELATION rails_label_history % 评论标注表
@ATTRIBUTE id % 主键
@ATTRIBUTE comment_id % 对应的评论id
@ATTRIBUTE label % 人工标注的类别标号
特别声明