如何使用nltk进行中文分词

如题所述

中文里没有分词的说法,只有英文、法语、德语等有分词的说法。
分词是动词的三种非限定形式之一,分为两种:现在分词和过去分词。现在分词一般有四种形式,基本形式为“动词原形+-ing”,完成式为having加过去分词,一般被动式为being加过去分词,完成被动式为having
been加过去分词,而过去分词只有一种形式,规则动词的过去分词由动词原形加-ed构成,不规则动词需要单独记忆。
现在分词一般式的构成如下:
动词的现在分词,一般在词尾加-ing,但以-e结尾的字则去-e加-ing:laugh—laughing、live--living。但是,-e前为元音,-e要保留。Hoe—hoeing、agree—agreeing,toe—toeing、dye—dyeing、shoe—shoeing、singe—singeing。
以重读闭音节结尾的动词,末尾只有一个辅音字母(x除外),双写末尾的辅音字母加-ing:plan—planning、occur—occurring。非重读闭音节结尾的动词,则不要双写,如:travel—traveling。
以辅音字母c结尾的动词,c后加k再加-ing:traffic—trafficking、picnic—picnicking。
不规则动词的现在分词要逐个记忆:lie—lying、die—dying、tie—tying、vie—vying。
规则动词的过去分词,一般在词尾加-ed,但以-e结尾的字则只加-d:laugh—laughed、live—lived、age—aged、curse—cursed、learn—learned、crook—crooked、bless—blessed。
以辅音字母加y结尾的动词,变y为I加-ed。如:hurry—hurried、try—tried。
以重读闭音节结尾的动词,末尾只有一个辅音字母(x除外),双写末尾的辅音字母加-ed:plan—planned、occur—occurred、dog—dogged 。但:humbug—humbugged、zigzag—zigzagged。非重读闭音节结尾的动词,则不要双写,如:travel—traveled。
以辅音字母c结尾的动词,c后加k再加-ed:traffic—trafficked、picnic—picnicked。
不规则动词的过去分词须单独记忆:get—got—gotten、sink—sank—sunk、strike—struck—struck、bear—bore—borne、rot—rotted—rotten、hang—hung—hung。
温馨提示:答案为网友推荐,仅供参考