文本相似度 (Text Similarity)

范叶亮 at 
文本相似度 (Text Similarity)的配图
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。文本表示角度统计模型文本切分在中文和拉丁语系中,文本的直观表示就存在一定的差异,拉丁语系中词与词之间存在天然的分隔符,而中文则没有。I can eat glass, it doesn’t hurt me.因此针对拉丁语系的文本切分相对中文容易许多。N 元语法 N-gram (N 元语法) 是一种文本表示方法,指文中连续出现的 $n$ 个词语。N-gram 模型是基于 $n-1$……