我们经常需要检查两个文本文件的相似度有多高,这对於防止作弊,对比写作风格等都有一定的用处。基於空间向量法,我写了一个检查文本相似度的命令行工具 FileCompare。
由於此产品是程序抄袭作弊检测程序的副产品,所以针对英语、不需要分词的语言效果较好,对中文支持不佳(主要是没有加入较好的中文分词模块)。
程序返回的数值为两个所比较的文本文件的相似度数值。
支持的操作系统:Linux,MAC OS X,Windows 98/2000/XP/2003/Vista/7/2008(其中在 Windows Vista 以下版本需要安装 .NET Framework 2.0;在某些 Linux 发行版和 Mac OS X 中需要安装 mono 包(不包括 Ubuntu等系统)。)
有兴趣的可以去我博客看看。
由於此产品是程序抄袭作弊检测程序的副产品,所以针对英语、不需要分词的语言效果较好,对中文支持不佳(主要是没有加入较好的中文分词模块)。
程序返回的数值为两个所比较的文本文件的相似度数值。
支持的操作系统:Linux,MAC OS X,Windows 98/2000/XP/2003/Vista/7/2008(其中在 Windows Vista 以下版本需要安装 .NET Framework 2.0;在某些 Linux 发行版和 Mac OS X 中需要安装 mono 包(不包括 Ubuntu等系统)。)
有兴趣的可以去我博客看看。
