说明: 在文本分割的基础上, 确定片段主题, 进而总结全文的中心主 题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准 确, 利用LDA(Latent dirichlet allocation) 为语料库及文本建模, 以 Clarity 度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的 香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主 题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下
<liaoxp426> 上传 | 大小:380kb