github项目的别名提取在春节期间就已经开始,而且已经编写出第一版代码,今天主要分析了第一版代码的运行结果并再次查看汇总表中原始的github项目,进一步分析别名提取规则该如何设定。
今天的主要收获是通过对测试集(约两万条数据)数据的分析,得出了具有代表性的项目集,从而在这些项目集的基础上制定别名提取规则。
具有明显特征的数据集主要有三类:
1.项目短名(github项目命名形式一般为A/B,B即为其短名)去除短横线、下划线或其他特殊符号后可以做为别名的,这一类占据绝大多数。
2.项目短名能够在项目描述信息中提取到全写或缩写的。
3.项目短名和项目描述信息具有很大相似度的
4.其他特征,由于较为零散,有待于进一步分析,将在解决前三类问题的情况下,视提取效果再定。
具体特征数据集见附件。