本次项目探究GitHub中一个project中开发者同时关注的issues数量与开发者效率之间的关系。
1、在专注度方面,我们目前只是考虑是否参与讨论,接下来考虑讨论的语义信息。
3、我们目前只考虑跨issue评论者一个维度,跨issue的行为有很多种,接下来尝试多研究几个维度,探究跨issue行为对issue解决时间等开发效率的影响。4、进一步探讨开发者进行跨项目的跨issue讨论对软件开发的影响。
大王老师:
1、不同开发者的专注度具有不同的认知倾向,下一步可以以开发者为研究对象,分析他们的心理、习惯等因素,形成开发者行为画像,从而推荐可关注的issue;
2、可以进一步分析issue讨论的时间流、讨论之间的逻辑语义关系等;
3、进一步提炼研究问题和意义:
3.1 在项目内,如何鼓励开发者在不同issue间进行交叉讨论,频度(恰当的交流讨论)对于issue解决存在怎样的影响?
3.2从群体协同的角度,如何促进开发者更好地合作,怎样引导开发者聚焦有价值的issue?
王涛老师建议:
1、提研究意义的时候是抛出一个问题,而不是抛出一个观点。
2、研究这个问题对软件开发和研究者到底有多大的意义和价值。
3、开发者的能力刻画或者特征画像的角度去考虑
4、对一个开发者去刻画他,未来做issue的任务分配,做推荐。开发者的能力画像有几个维度,是需要我去做的。比如一个人的行为特征是关注了很多issue,那么这种人适合做什么事情,还有一种人的行为特征就是在一定时间只关注一件事,那么这种人适合去做什么事情。那么未来做issue推荐,issue分配该给谁就有了依据。最终的目标是对开发者做准确地刻画,未来对issue的分配和推荐打基础。
1、TrinityCore/TrinityCore项目(repo_id=1717),表名称为iss_interval_focus_1717.csv。备注为0625_1717备注.txt
2、saltstack/salt项目(repo_id=1142),表名称为iss_interval_focus_1142.csv。备注为0626_1142备注.txt。
1、包含平均解决时间的平均跨issue的评论者信息在表multi_tag1_3562_no_mem.csv中,其中ave_multi_user_time字段值就是ave_multi_issues*60*24/interval。
2、接着,我们提取了all_user_ids>5,8,10的值导到表all_user_ids_dayu5.csv、all_user_ids_dayu8.csv、all_user_ids_dayu10.csv中。其中ratio_mul_all_user字段为multi_user_ids/all_user_ids。
3、R语言文件在r_wilcox_test.R中。
1、在1334项目中总共有6428条有评论的issues,其中有3562条issues中是有跨issue评论的users,比例为55.4%。
2、根据研究计划,本阶段先画出有跨issue评论者的issues和没有跨issue评论者的issues的解决时间的箱线图。箱线图中tag为1的代表有跨issue评论者的issues的解决时间,tag为0代表的是没有跨issue评论者的issues的解决时间。箱线图和数据表分别是附件Rplot01_no_mem.png和multi_tag1_no_mem.csv。
3、第二个计划是探究1334项目中每个issue中的user平均跨issue评论的数量对issue解决时间的影响。每个issue中的user平均跨issue评论的数量的计算方法是该issue中跨issue评论的users在该issue开始和第一次关闭时间内中在1334项目中其他issues评论的数量总和除以该issues所有users的数量。下图给出了,平均跨issue评论的数量1到10之间的箱线图,平均跨issue评论的数量1到20之间的箱线图,平均跨issue评论的数量1到30之间的箱线图,平均跨issue评论的数量1到40之间的箱线图。命名分别为Rplot_0_10.png、Rplot_0_20.png、Rplot_0_30.png、Rplot_0_40.png
The Tenth Asia-Pacific Symposium on Internetware
Internetware 2018
Beijing, China, September 16, 2018, Co-Located with CSERIS 2018
官网:https://internetware2018.github.io/index.html
Important Dates:
Submission Deadline: June 30, 2018
Notification of Acceptance: July 31, 2018
Camera-Ready Version: August 17, 2018
All authors of accepted papers of will be asked to complete an electronic ACM Copyright form and will receive further instructions for preparing their camera ready versions. All accepted contributions will be published in the of Internetware 2018 electronic proceedings and in the ACM Digital Library.Authors of selected papers will be invited to submit an extended version of their papers to Journal of Computer Science and Technology (JCST). All the extended submissions will be evaluated following the guidelines set by JCST. Only those satisfying all the criteria will be accepted for the journal publication.
1、首先根据筛选1334中符合条件的issues,即该issues是已经开闭的,且在第一次关闭时间有评论者的issues数量为7404条,而当中有跨issue评论者的issues数量为5155条,占比69.6%。
2、根据研究计划,本阶段先画出有跨issue评论者的issues和没有跨issue评论者的issues的解决时间的箱线图。箱线图中tag为1的代表有跨issue评论者的issues的解决时间,tag为0代表的是没有跨issue评论者的issues的解决时间。箱线图和数据表分别是附件Rplot01.png和count_mul_one_pro_1334_div_0.csv。
3、第二个计划是探究1334项目中每个issue中的user平均跨issue评论的数量对issue解决时间的影响。每个issue中的user平均跨issue评论的数量的计算方法是该issue中跨issue评论的users在该issue开始和第一次关闭时间内中在1334项目中其他issues评论的数量总和除以该issues所有users的数量。
得到的结果发现每个issue中的user平均跨issue评论的数量在1到10的总个数为2066个,具体数量为:
每个issue中的user平均跨issue评论的数量为1的个数为706
每个issue中的user平均跨issue评论的数量为2的个数为403
每个issue中的user平均跨issue评论的数量为3的个数为254
每个issue中的user平均跨issue评论的数量为4的个数为185
每个issue中的user平均跨issue评论的数量为5的个数为121
每个issue中的user平均跨issue评论的数量为6的个数为110
每个issue中的user平均跨issue评论的数量为7的个数为92
每个issue中的user平均跨issue评论的数量为8的个数为70
每个issue中的user平均跨issue评论的数量为9的个数为60
每个issue中的user平均跨issue评论数量在1到10的issue解决时间箱线图和数据表在附件Rplot1~10.png和ave_multi_2066xiaoyu10.csv中。
箱线图结果基本符合预期,但是我忘了洋哥上次教给我去除异常点的方法,这次见面讨论我会让洋哥检查一下我的python和R语言代码。
背景:
1. issue解决过程中,会有很多开发者参与其中;
2. 每个开发者在一个时间段内也可能参与多个issue的讨论;
3. 这种跨issue的讨论,或并行讨论,会带来怎样的影响。
问题:
1. 从整体角度来看,这种并行讨论现象是否常见?
2. 这种并行讨论带来的影响?
2.1 对于issue解决时间的影响?
2.2 。。。
方法:
1. 整体开发者参与多个issue讨论比例
2. 单个issue内部开发者同时参与其他issue讨论情况
3. 。。。
1.1、统计了rails项目(repo_id=1334)中一共具有11085条issues(SQL语句:SELECT * FROM `issues` WHERE repo_id=1334 AND pull_request=0;)。
1.2、rails项目中11085条issues一共有62704条comments(SQL语句:SELECT * FROM `issue_comments` WHERE issue_id in (SELECT id FROM issues_1334);)
1.3、62704条comments一共有9371个不同的users进行评论(SQL语句:SELECT DISTINCT user_id FROM `issue_comments_1334`; )
1.4、9371个users中有2952个users会对不同的issues进行评论。2952/9371=31.5%
2.1、统计了Khan/khan-exercises项目(repo_id=10408)中一共具有139229条issues(SQL语句:SELECT * FROM `issues` WHERE repo_id=10408 AND pull_request=0;)。
2.2、Khan/khan-exercises项目中139229条issues一共有91947条comments(SQL语句:SELECT * FROM `issue_comments` WHERE issue_id in (SELECT id FROM issues_10408);)
2.3、91947条comments一共有个688不同的users进行评论(SQL语句:SELECT DISTINCT user_id FROM `issue_comments_1334`; )
2.4、688个users中有316个users会对不同的issues进行评论。316/688=45.9%
3.1、统计了TrinityCore/TrinityCore项目(repo_id=1717)中一共具有17532条issues(SQL语句:SELECT * FROM `issues` WHERE repo_id=1717 AND pull_request=0;)。
3.2、TrinityCore/TrinityCore项目中17532条issues一共有条80067comments(SQL语句:SELECT * FROM `issue_comments` WHERE issue_id in (SELECT id FROM issues_1717);)
3.3、80067条comments一共有2788个不同的users进行评论(SQL语句:SELECT DISTINCT user_id FROM `issue_comments_1717`; )
3.4、2788个users中有1657个users会对不同的issues进行评论。1657/2788=59.4%
4.1、统计了saltstack/salt项目(repo_id=1142)中一共具有17465条issues(SQL语句:SELECT * FROM `issues` WHERE repo_id=1717 AND pull_request=0;)。
4.2、saltstack/salt项目中17465条issues一共有93205条comments(SQL语句:SELECT * FROM `issue_comments` WHERE issue_id in (SELECT id FROM issues_1142);)
4.3、93205条comments一共有5494个不同的users进行评论(SQL语句:SELECT DISTINCT user_id FROM `issue_comments_1334`; )
2.4、5494个users中有2601个users会对不同的issues进行评论。2601/5494=47.3%