如何能一段中文内容进行词语频率统计并排序?

有人讲了这样一个故事:一位西藏朋友忽然失去了一切,但过年时他怕内地去的朋友寂寞,仍邀请大家到他家做客。朋友们到了他家才发现,他家已家徒四壁,仅有两件奢侈品:一个是泡沬软坐垫,另一个是收音机。真正的友情就是这样,即使一无所有也惦记着别人

比如对上面一段文字进统计,如何知道有多少个词并按出现的频率排序?
使用语言PHP+mysql

想要进行词频统计,你要多的第一部是要得到里面有多少个词。也就是首先你要对全文进行切分,按照词性 动词、名词、语气词等多种词性区分开,显然,如果你想从0开始这么做,你还需要有一个词典,这个词典应当包括了多有的词,然后挨个字去字典里找匹配,才能分开。
对于个人开发者来说这很难。但好在有很多大的云计算服务商他们已经将这种事情给我们做好了,虽然并非那么完美,你有需要的话 可以搜索一下 新浪SAE所提供的分词服务。追问

谢谢,我想问一下如何用新浪的sae,对词的频率如何进行统计

追答

注册个sae的账号,他们有详细的文档介绍

温馨提示:答案为网友推荐,仅供参考
相似回答