首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
Issue知识关联研究数据集
张洋
开发数据
开发过程
4.1 KB
2019-05-25 17:07
返回
本数据集是SoftwareMining@ASE2018论文《[Within-Ecosystem Issue Linking: A Large-scale Study of Rails](https://www.researchgate.net/publication/326711070_Within-Ecosystem_Issue_Linking_A_Large-scale_Study_of_Rails)》和中国科学期刊论文《[A Novel Approach for Recommending Semantically Linkable Issues in GitHub Projects](http://engine.scichina.com/publisher/scp/journal/SCIS/doi/10.1007/s11432-018-9822-1?slug=abstract)》的分析研究数据以及核心代码。 #####数据背景 [GFM技术](https://guides.github.com/features/mastering-markdown/):在GitHub上,用户所有用文字输入的功能都可以用GitHub Flavored Markdown (GFM)语法进行描述,这使得开发人员在提交Issue或PR报告、评论时能够便捷地编辑文本格式和内容。此外,它还有一个很特别的功能,就是能够将开发者输入的“@用户名”或“#编号”,自动地识别为URL链接并连接到对应用户主页或仓库内对应Issue/PR页面页面(通过输入“用户名/仓库名#编号”)。这些功能使得开发人员可以在Issue或PR的文本描述以及评论中方便地定位或提醒相关开发人员、引用相关资源或数据,使交流更加有效率。 [词嵌入模型](https://en.wikipedia.org/wiki/Word_embedding):测量两个文本的语义相似度是一类经典的研究问题,现有的解决模型也从向量空间模型(例如TF-IDF)、n-gram语言模型、主题建模(例如LDA)向更多的基于人工神经网络的语言模型发展。在2013年,Mikolov等人提出了两个基于人工神经网络的语言模型,分别是continuous bag-of-words和continuous skip-gram,并针对大规模文本数据提出了有效的负采样(negative sampling)方法。词嵌入模型(word embedding)是自然语言处理领域非常著名的深度学习模型,它主要将每个单词映射到n维的向量空间。词嵌入模型主要基于这样的假设,即出现在相似上下文的单词间通常会有相似的语义。因为表征单词的每个维度都代表着单词的语义或语法特征,因此越相似的两个单词会在向量空间中具有越近的向量距离。 #####数据来源 该数据集收集自[Github](https://github.com)。主要包括Rails生态相关项目900多个以及它们的Issue开发知识数据。 #####数据格式 1.研究数据部分 实验数据:项目基本信息数据,Issue模型数据 模型代码:Issue解决时间模型,讨论长度模型 2.自动关联方法部分 训练代码:linkModel_trains.py 测试代码:linkModel_test.py #####数据应用 用户可以使用该数据集进一步探索GitHub中Issue开发知识的关联特征、模式,优化自动Issue知识关联方法,帮助提高软件开发的效率。 #####数据下载 数据下载地址:[GitHub版本库](https://github.com/yangzhangs/ecolinking_replication)
附件:
linkModel.rar
( 4.238 KB)
张洋
, 2019-05-25 17:06