项目简介

对github数据集进行学习,了解数据结构;然后对其中的pull requests 、@等内容进行研究学习。

39?1705884565
发帖时间:2014-03-26 08:55
更新时间:2014-03-26 09:21
通过上学期以及这学期前一段时间对于Github数据的分析,我发现现有的基于数据集的研究大部分都是利用现有的数据集(主要是GHtorrent和Github Archive),这种方法简单、快捷,但能得到的数据内容受限;也有自己写程序调用API,这种方法可以获取想要的,但可能很复杂且麻烦,还要考虑其它因素,例如存储。怎样尽可能地方便快捷,又获取到自己研究需要的数据呢?
回复 ︿ (1)
  • 用户头像
    张洋 10年前
    目前,关于Github研究的数据集主要来源于三个途径:Github API、Github Archive和GHTorrent,它们三种各有侧重点,我简单地总结了一下: 1、Github Archive,其本身通过Github API获取数据,用Json格式记录不同时间点的时间信息。它提供了新的统计视角:事件,数据量大,可以获取到最新数据。更多体现的是数据间的关联特性,即大部分数据内容是链接,但具体内容缺失,且需要对Json数据进行解析,还要考虑删掉重复的数据; 2、GHtorrent,利用Github API获取数据,并预处理后存入Mysql中。无需解析,查询便捷,但部分关键数据缺失,数据不够新; 3、Github API,原始的数据获取手段,数据最完整、最准确,但需要先获取数据,再解析,速度受限,条件受限,不适合大规模的数据获取。 目前,我初步的解决思路是,先利用GHTorrent提供的数据集,进行简单的统计,当考虑具体内容分析时,利用Archive和API进行补充,当然前提是筛选出小规模的projects

0?1470885445
登录后可添加回复
39?1705884565
指派给   张洋
发布时间: 2014-03-18 00:07
更新时间:2014-03-18 00:07
对解析后的数据进行关键文本内容提取,为后续的PR分析做好准备
回复 ︿
0?1470885445
登录后可添加回复
39?1705884565
指派给   张洋
发布时间: 2014-03-12 09:52
更新时间:2014-03-15 23:41
JsonParse在解析comment的body时,如果body内容为中文或者韩文等非英文,会出现解析错误,但Github上以非英文呈现的comment并不是很多,应该对后面的分析影响不大,这里只作为一个程序缺陷标记出来,后期进行完善。
回复 ︿ (1)
  • 用户头像
    张洋 10年前

    计划完成日期 被设置为 2014-03-15

    状态新增 变更为 关闭

    % 完成0 变更为 100

    预计工时 (H) 被设置为 4.00

    解析非英文时,Jackson默认是Latin文,对于中文解析会包错,我在解析Event时先对其进行编码转换,都变为Latin1的格式;此外,写入csv文件时,diff_hunk中的大量字符存在干扰,删去后就可以存入mysql数据库了,但仍然存在极少量的数据解析问题,对最终数据集的影响不大。

0?1470885445
登录后可添加回复

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×