python中，把‘&#’ ‘&#x开头的字符串转换成中文

如题所述

第1个回答 2022-07-01

(一)

爬虫时经常遇到'/u'开头的unicode编码的字符串，这时通过decode()来解决.

但偶尔也会遇到以‘&#’ 或者‘&#x’开头的字符串，这是HTML、XML 等 SGML 类语言的转义序列（escape sequence）。它们不是「编码」。

如果以‘&#‘ 开头，后接十进制数字，

如果以‘&#x’开头，后接十六进制数字。

在python中的解决方法是：

importhtml

a ='外观'

print(html.unescape(a))

# 输出：外观

希望对你有用

(二)

Python中escape和unescape

Python处理HTML转义字符

在抓网页数据经常遇到例如>或者这种HTML转义符，抓到字符串里很是烦人。

比方说一个从网页中抓到的字符串

p ='<abc>'

用Python可以这样处理：

import html

p ='<abc>'txt= html.unescape(p)print(txt)

#这样就得到了txt= ''

如果还想转回去，可以这样：

import cgi

q = cgi.escape(html)print(q)

#这样又回到了 html = '<abc>'

相似回答

以&# 开头的字符串转中文答：在开发中，遇到不支持中文的情况，返回的字符串是以&#开头，网上查阅了，此类编码是这叫HTML Entities。在这里不再赘述概念。如果有深究的朋友，请自行查阅！笔者前端小菜鸡，遇到不愿意处理的后端同事，前端可自行处理。方法如下：

如何用python转运汉字?答：如果您是想将汉字进行转码或者编码处理，可以使用Python中的标准库urllib中的parse模块来实现。以下是一个简单的转换示例：pythonCopy codefrom urllib import parsetext = '你好，世界！' # 要转换的文本encoded_text = parse.quote(text) # 将文本进行URL编码decoded_text = parse.unquote(encoded_te...

大家正在搜

python开头编码 python中文 nginx python python rindex python exp pythonmax python hex函数 python index python中