图像
02/14/2017 23:21

    github项目的别名提取在春节期间就已经开始,而且已经编写出第一版代码,今天主要分析了第一版代码的运行结果并再次查看汇总表中原始的github项目,进一步分析别名提取规则该如何设定。

    今天的主要收获是通过对测试集(约两万条数据)数据的分析,得出了具有代表性的项目集,从而在这些项目集的基础上制定别名提取规则。

    具有明显特征的数据集主要有三类:

    1.项目短名(github项目命名形式一般为A/B,B即为其短名)去除短横线、下划线或其他特殊符号后可以做为别名的,这一类占据绝大多数。

    2.项目短名能够在项目描述信息中提取到全写或缩写的。

    3.项目短名和项目描述信息具有很大相似度的

    4.其他特征,由于较为零散,有待于进一步分析,将在解决前三类问题的情况下,视提取效果再定。

   具体特征数据集见附件。


回复 (1)
11?1648889181
王涛 7年前
很好!

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×