开源社区大数据获取与分析

登录注册

曾令斌/ 开源社区大数据获取与分析

项目简介

将github的isssues信息爬取下来，然后进行分析

曾令斌 TO 开源社区大数据获取与分析 | 项目问题

【任务】本科毕业设计论文初稿正常

指派给王涛

发布时间： 2016-05-11 21:28

更新时间：2016-05-14 01:43

本科毕设论文初稿，请王涛老师帮忙把下关，提出宝贵意见，我好修改修改

上传了基于范强学长意见的修改稿

( 1.782 MB) 曾令斌, 2016-05-11 21:27

( 1.979 MB) 曾令斌, 2016-05-14 01:42

回复︿（1）▪ 赞

曾令斌 8年前

附件曾令斌_初稿_本科毕业设计论文.docx 已添加

附件曾令斌毕业设计_第一次修改.docx 已添加

描述已更新。 (查看差别)

赞回复︿

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目问题

【周报】 ~0328工作终结正常

指派给王涛

发布时间： 2016-03-28 09:19

更新时间：2016-03-28 09:19

pr代指pull request

1.获取1000多个项目的issues和pr的评论

2.获取1000多个项目的针对代码行的特定评论

3.获取1000多个项目中全部用户的信息

4.对每个项目，每个评论者的评论数量和针对评具体代码行的数量进行分析，如下图

5.对每个用户的e_mail进行合并分类，提取出前缀一样的 e_mail,并进行分析，

6.对pr下面的comments进行分类，初步如下图：

回复︿ ▪ 赞

登录后可添加回复

余跃 TO 开源社区大数据获取与分析 | 项目问题

【任务】相关文献-peer review 正常

指派给曾令斌

发布时间： 2016-03-22 10:10

更新时间：2016-03-22 20:09

可参考其中的方法

( 725.643 KB) 余跃, 2016-03-22 10:10

回复︿（2）▪ 赞

曾令斌 8年前

get

赞回复︿

余跃 8年前

@曾令斌(zenglingbin12)‍ 请阅读该论文。

赞回复︿

登录后可添加回复

余跃 TO 开源社区大数据获取与分析 | 项目问题

【任务】论文翻译正常

指派给曾令斌

发布时间： 2016-02-20 19:23

更新时间：2016-03-14 21:24

以下两篇文章，请翻译。

( 340.928 KB) 余跃, 2016-02-20 19:19

( 842.988 KB) 余跃, 2016-02-20 19:23

( 532.31 KB) 曾令斌, 2016-03-14 21:24

回复︿（9）▪ 赞（1）

展开更多

曾令斌 8年前

附件代码审阅中自动推荐审查者的系统.docx 已添加

赞回复︿

曾令斌 8年前

@尹刚(jacknudt)‍ ，据说交上去没人看，那我就

赞回复︿

曾令斌 8年前

@尹刚(jacknudt)‍ ，谢谢老师，没事的

赞回复︿

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目问题

【任务】开题报告正常

指派给王涛

发布时间： 2016-01-13 14:31

更新时间：2016-01-18 15:12

( 53.024 KB) 曾令斌, 2016-01-18 09:27

( 51.367 KB) 王涛, 2016-01-18 09:48

( 59.96 KB) 曾令斌, 2016-01-18 15:12

回复︿（13）▪ 赞（1）

展开更多

曾令斌 9年前

王涛老师，这是第二次修改

赞回复︿

曾令斌 9年前

@王涛(wangtao)‍ 收到

赞回复︿

王涛 9年前

请令斌按照我和余跃的批注认真修改。具体的包括社会化编程模式及pull-request流程可借鉴和参考余跃的开题报告相关资料

赞回复︿

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目讨论区

本周周报

发帖时间：2015-12-04 23:35

更新时间：2015-12-04 23:35

本周的情况在于完成一个多线程的爬虫，已经粗略的爬过一遍，不过较为粗略，一部分issues和comments由于超时问题和access_token耗尽的问题，而未能爬下来，未来三天打算进行查漏补缺。

下周，学习R语言，掌握R语言的基本操作和与mysql数据库的交互

回复︿（1）▪ 赞

尹刚 9年前

很好！但请用问题跟踪来介绍你的进展。论坛不适合发布工作进展，更适合发布问题或技术观点

赞

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目讨论区

这两天情况汇报

发帖时间：2015-12-01 00:28

更新时间：2015-12-01 00:28

今晚mysql服务器报错，百度上竟然没有，最后只能看英文的

，最后发现是，是由于短时间开启的线程太多，insert太频繁。最后给insert操作加了锁，才初步解决问题。进度有点慢，老师学长们多包容包容

回复︿（5）▪ 赞

展开更多

曾令斌 9年前

yuyuenudt 写到：
把你的代码传到版本库，我找人进行代码审查。
刚看到，，传上去了，最新的，名字叫做，github spider.py,谢谢学长

赞

余跃 9年前

把你的代码传到版本库，我找人进行代码审查。

赞

曾令斌 9年前

OK，get it，谢谢老师

赞

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目讨论区

周报-曾令斌

发帖时间：2015-11-30 16:10

更新时间：2015-11-30 16:10

过去一个星期，主要是指余跃学长的指导下，编写爬虫，完成了一个单线程的python爬虫，掌握了数据库的相关操作。但是单线程的爬虫速度过慢，没办法完成预期目标，所以现在正在进行多线程爬虫的编写

本周：写完多线程爬虫，并将数据爬取下来

回复︿（3）▪ 赞

尹刚 9年前

很好！这个数据非常重要！张洋师兄和余跃师兄都做过类似工作，可以经常请教。

赞

曾令斌 9年前

jacknudt 写到：
很好！目前你在爬取什么网站的什么数据板块？
github的issues的大部分内容

赞

尹刚 9年前

很好！目前你在爬取什么网站的什么数据板块？

赞

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目问题

【任务】在老师和学长的指导下前进正常

指派给曾令斌

发布时间： 2015-11-25 01:11

更新时间：2015-11-25 10:33

加油

回复︿（1）▪ 赞

尹刚 9年前

有问题请在项目讨论区中随时提问，有进展就随时在问题跟踪里发布，我们都你看到。

赞回复︿

登录后可添加回复

曾令斌 TO 开源社区大数据获取与分析 | 项目讨论区

本周工作（11.24起）

发帖时间：2015-11-24 12:23

更新时间：2015-11-24 12:23

本周任务：完成对开源社区数据的爬取，并将其转存到数据库中。

状态：进行中。

回复︿（2）▪ 赞

曾令斌 9年前

收到，好滴

赞

尹刚 9年前

很好！请在问题跟踪里面发布一个任务类型的问题，然后师兄和老师们可以对你进行指导。

另外，请把你的代码发布到版本库中。

我待会吧本项目的模式改为开发模式，请创建版本库，并提交代码。具体参见帮助中心。

赞

登录后可添加回复

Trustie(确实)
QQ群：1071514693

项目简介

头像设置