一、度量的提出:
对之前的GQM模型改进,从开发者的贡献代码量、开发质量和社交活跃度三个方面评价,具体如下:
CCGN(changed lines of code):变更的代码行数。
CMT(number of commits):提交代码的次数。
IRPT(number of reports):提交的问题报告(issue report)的数量。
GBG(generated bugs):平均每行代码引入的缺陷数。
GQI(generated quality issues):平均每行引入的代码质量问题数。
CMNT(number of comments):评论的数量,包括issue、pull request和commit的评论。
AAT(average active time):平均活跃时间,即计算某个开发者相邻社交活动间隔时间的平均值。
二、实验进展
目前分析了python排名前五的三个项目(httpie,flask,requests)的开发者贡献度的指标,分析结果在附件中,目前粗略分析了开发者开发质量的两个指标GBG和GQI的相关关系,结果如下:
对三个项目分别分析:
httpie:
pearson相关系数:-0.01115682
httpie:
pearson相关系数为-0.01006093
pearson相关系数为0.268149
从这三个项目分别的分析结果可以看出,开发者在开发过程中引入的代码质量问题与引入的bug数的相关性很小,也就是说,开发者的开发水平较差不一定引入的bug就多。这与常识不太相符。
将三个项目数据合在一起做pearson相关,也得到一样的结果:
pearson相关系数为:0.1419347
下一步打算进一步分析其他指标的关系,尤其对个体开发者,以时间为维度分析其开发质量的变化