什么是中文分词? 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。 目前主流的中文分词算法有: 1、 基于字符串匹配的分词
本文实例讲述了php实现根据词频生成tag云的方法。分享给大家供大家参考。具体如下:
这里给定一段文本,分析文本的词频分布,生成tag云
<?php
/**
* Tag cloud demo based on word frequency
* author: unknown
* since: 2007-02-27
*/
// Store frequency of words in an array
$freqData = array();
// Random words
$lor