`
csstome
  • 浏览: 1543054 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

解决HtmlAgilityPack中文乱码

阅读更多

Html Agility Pack是用C#写的开源Html Parser。

在抓取163首页(http://www.163.com)代码如下:


不过有点问题是抓取的Code乱码了。

通过跟踪代码发现通过修改HtmlWeb.cs 中的第1466行(1.4.0.0版) 文件可以解决这个问题。

方法名为:

privateHttpStatusCodeGet(Uriuri,stringmethod,stringpath,HtmlDocumentdoc,IWebProxyproxy, ICredentialscreds)

原始实现源代码:

修改后的代码:


重新编译一下,就不会中文乱码了...

分享到:
评论
1 楼 liuweihug 2014-04-08  
.Net解析html文档类库HtmlAgilityPack完整使用说明--采集软件开发尤其好用 - 项目实战 - IT工作生活这点事。Just Such So!
http://www.suchso.com/projecteactual/netpausehtmldocumentclasslibHtmlAgilityPackcaiji.html

相关推荐

    HtmlAgilityPack.rar

    这个压缩包文件"HtmlAgilityPack.rar"包含了一个使用VB.NET编写的项目,该项目演示了如何利用HtmlAgilityPack来抓取网页数据并解决中文乱码问题。在2020年9月发布的这个版本中,开发者可能已经对库的功能进行了优化...

    C# webclient中文乱码问题解决方法

    本文将深入探讨如何解决使用WebClient类抓取远程页面时遇到的中文乱码问题。 首先,我们要理解乱码的根源。乱码通常发生在两种情况之一:一是数据在传输过程中编码不一致,二是解码时使用的编码与实际编码不符。在...

    将html转换为XML的控件HtmlAgilityPack

    HtmlAgilityPack提供了解决这个问题的功能。它支持识别和处理各种字符编码,包括UTF-8、GBK等,能够在解析HTML时正确地识别和转换中文字符,避免出现乱码情况,确保了中文内容的可读性。 HtmlAgilityPack的主要特性...

    powershell网络蜘蛛解决乱码问题

    因此,对于更复杂的情况,可能需要更全面的解决方案,比如检测并转换网页的编码,或者使用第三方库如`HtmlAgilityPack`,以处理各种HTML结构和编码问题。 总的来说,通过理解PowerShell中的网络请求机制和字符编码...

    抓取方法标题和内容取出(包括乱码问题

    通过上述步骤,我们可以有效地从网页中抓取所需的数据,并解决了常见的乱码问题。需要注意的是,在实际应用中还需考虑其他因素,比如网站的反爬措施、请求频率限制等。此外,为了提高代码的健壮性和灵活性,建议使用...

    itextsharp操作html转pdf

    - **字体缺失**:如果PDF中出现乱码,可能是因为缺少所需的字体。确保在PDF中使用的字体在目标机器上也存在,或者在代码中嵌入字体。 - **样式丢失**:HTML中的CSS样式可能不会完全转换到PDF中。可以尝试将CSS内联...

Global site tag (gtag.js) - Google Analytics