本文介绍: 爬网页又遇到一个坑,老是出现â乱码,查看html出现的是&#数字;这样的。网上相关的“Python字符中出现&#的解决办法”又没有很好的解决,自己继续冲浪,费了一番功夫解决了。这算是又加深了一下我对这些iso、Unicode编码的理解。故分享。
前言
爬网页又遇到一个坑,老是出现â乱码,查看html出现的是&#数字;这样的。
网上相关的“Python字符中出现&#的解决办法”又没有很好的解决,自己继续冲浪,费了一番功夫解决了。
这算是又加深了一下我对这些iso、Unicode编码的理解。故分享。
问题
用Python的lxml解析html时,调用text()输出出来的结果带有â这样的乱码:
原因
排查与解决
总结
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。