1、首先根据筛选1334中符合条件的issues,即该issues是已经开闭的,且在第一次关闭时间有评论者的issues数量为7404条,而当中有跨issue评论者的issues数量为5155条,占比69.6%。
2、根据研究计划,本阶段先画出有跨issue评论者的issues和没有跨issue评论者的issues的解决时间的箱线图。箱线图中tag为1的代表有跨issue评论者的issues的解决时间,tag为0代表的是没有跨issue评论者的issues的解决时间。箱线图和数据表分别是附件Rplot01.png和count_mul_one_pro_1334_div_0.csv。
3、第二个计划是探究1334项目中每个issue中的user平均跨issue评论的数量对issue解决时间的影响。每个issue中的user平均跨issue评论的数量的计算方法是该issue中跨issue评论的users在该issue开始和第一次关闭时间内中在1334项目中其他issues评论的数量总和除以该issues所有users的数量。
得到的结果发现每个issue中的user平均跨issue评论的数量在1到10的总个数为2066个,具体数量为:
每个issue中的user平均跨issue评论的数量为1的个数为706
每个issue中的user平均跨issue评论的数量为2的个数为403
每个issue中的user平均跨issue评论的数量为3的个数为254
每个issue中的user平均跨issue评论的数量为4的个数为185
每个issue中的user平均跨issue评论的数量为5的个数为121
每个issue中的user平均跨issue评论的数量为6的个数为110
每个issue中的user平均跨issue评论的数量为7的个数为92
每个issue中的user平均跨issue评论的数量为8的个数为70
每个issue中的user平均跨issue评论的数量为9的个数为60
每个issue中的user平均跨issue评论数量在1到10的issue解决时间箱线图和数据表在附件Rplot1~10.png和ave_multi_2066xiaoyu10.csv中。
箱线图结果基本符合预期,但是我忘了洋哥上次教给我去除异常点的方法,这次见面讨论我会让洋哥检查一下我的python和R语言代码。