nodejs 如何刷选出文本中的所有中文

如题所述

通常使用JavaScript正则表达式进行匹配提取。基本处理步骤为:

    处理编码类型(可能需要转码处理)。node.js不能很好处理字符编码问题(默认UTF8),而在Windows中文区,一般文件内容编码大部分为GBK、GB2312之类的,你要转码为UTF8。(如果不存在编码问题,自然不必处理)

    读取文本内容。

    进行正则匹配中文部分。

    最后进行处理(获取中文、或者替换为其他之类的)。

// 举个例子
let reg = /[\u4e00-\u9fa5]/g;
let str = "中文123Abc";
let regResult = str.match(reg);

console.log(regResult)

温馨提示:答案为网友推荐,仅供参考