首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
重复pull-request数据集
LiZX
开发数据
开发制品
60.0 MB
2021-10-20 10:38
返回
本数据集包含了开发者在GitHub平台上*无意识提交*的重复pull-request,具体数据条目在文件dup_prs.md中。与Pull-request相关的核心数据在数据表pullreq.sql中。其它相关数据可通过GitHub API进一步获取。 其中,数据表``pullreq.sql``的字段解释: - `repo_slug`: pull-request所属项目的标识(`用户名/仓库名`)。 - `pr_num`: pull-request在项目追踪系统中的编号。 - `pr_info`: 这是使用GitHub API采集获得的json对象,包含了pull-request的基本信息。一些常用的信息可以直接从该对象解析,例如pull-request 的标题可以通过`json_obj["title"]`获取。其它的信息需求可以通过字段所对应的链接进行二次采集,例如可以通过`json["review_comments_url"]`获取pull request的审查评论。
附件:
重复PR.zip
( 5.567 MB)
LiZX
, 2021-10-20 10:39