`
hipeace87
  • 浏览: 173602 次
  • 性别: Icon_minigender_1
  • 来自: 山东菏泽
社区版块
存档分类
最新评论

HttpWebRequest采集(二)-- C#解析html

阅读更多

上次说到了用HttpWebRequest来采集网站信息

然而对于采集下来的html源码怎么来解析呢,这个问题网上很多人都说采用正则来实现,这个的要求是高的,也会很烦锁。

 

相对于一个简单的页面来说这个方法还行,如果要采集的数据很多的话就要写N多个正则,N*M次的判断来取得自己想要的数据,这个工作量是很大的,并且对采集的功能上也会有影响。

 

有人会问有没有方法可以像解析xml那样来解析html呢,答案是肯定的。

 

http://www.codeplex.com/ 上有一个Project名字叫

Html Agility Pack

 

 

具体的可以到Project主页去下载相关的版本,对应相应的.net framework

示例代码如下

 

     string html = WebTask.GetHtmlFromUrl(url);
      HtmlDocument doc = new HtmlDocument();
      doc.LoadHtml(html);
      Console.WriteLine(doc.DocumentNode.SelectSingleNode("/table/tr[3]/td[2]").InnerHtml);

 对于这个xpath可以使用firebug来获取,不用再这么麻烦来使用,详细可看图

 

 


当然还有一个工具TPAssistant 获取更精确,更方便

 

 

本来打算快点把post分页的也快点写出来的,结果试了几个相应的网站,成功率不是很高,代码还在优化

等完成后会尽快发出给大家分享。 

技术交流群:199703615

注明:javaeye采集。

 

 

  • 大小: 79.8 KB
1
1
分享到:
评论

相关推荐

    C#(Csharp)多线程HTTP并发请求(HttpWebRequest)采集蜘蛛

    5. **异步请求处理**:在RequestState类中,可以定义回调方法,用于处理HttpWebRequest的完成事件,这包括读取响应数据、解析HTML、提取新的链接以及调度后续请求。 6. **同步与锁**:在多线程环境中,访问共享资源...

    C#源码做的新浪博客采集器,仅供C#学习用

    标题中的"C#源码做的新浪博客采集器"指的是一个使用C#编程语言编写的程序,其功能是自动抓取和处理新浪博客上的信息。这样的工具通常用于数据分析、内容挖掘或者研究目的,它可以帮助用户批量获取博客文章的内容、...

    文章自动采集系统,C#程序,CSHARP软件

    《C#实现的文章自动采集系统详解》 在IT行业中,数据采集是一项重要的任务,尤其对于内容丰富的网站,如新闻站点、论坛或者博客等,自动化的文章采集系统能极大地提高工作效率,减少人工操作的繁琐。本篇文章将深入...

    C# 商圈数据采集代码

    C#通过HttpWebRequest或HttpClient类可以实现网络请求,获取商圈相关的网页内容。然后,利用正则表达式或HTML Agility Pack等库解析HTML,提取出关键信息,如店铺名称、地址、评价等。这些数据可以进一步转化为结构...

    C#采集软件源码

    【C#采集软件源码】是一种基于C#编程语言编写的网络数据采集工具,它能够自动从互联网上抓取特定信息并进行处理。C#,全称CSharp,是微软公司推出的面向对象的编程语言,它具有现代编程语言的诸多特性,如类型安全、...

    数据采集 打包资源5个 c# .net sharp

    在数据采集领域,C#可以构建高效的数据爬虫,利用.NET Framework提供的类库如HttpClient来发送网络请求,使用HtmlAgilityPack或AngleSharp解析HTML文档。 3. **.NET**:.NET是微软开发的一个全面的开发框架,支持...

    [C#图文教程]c#从0开始写采集软件 源码

    【C# 图文教程:从零开始编写采集软件 源码详解】 ...总结,编写C#采集软件涉及网络请求、HTML解析、多线程或异步编程等多个技术环节。通过不断学习和实践,你可以创建出高效、稳定的采集工具,满足各种数据抓取需求。

    开源数据采集-DotNet写的

    C#语言具有现代编程语言的特性,如面向对象、类型安全和垃圾回收,使得它在数据采集这样的任务中表现出色。 数据采集,又称为Web抓取或网络爬虫,是自动从互联网上获取大量信息的过程。在 DotNet 开源项目中,...

    信息采集,c#.net能够抓取页面中的数据

    C#.NET允许通过HttpWebRequest或HttpClient配置代理,实现匿名抓取。 8. **Cookie管理**:有些网站需要登录才能访问特定数据,这时需要处理Cookie。C#.NET提供了CookieContainer类来管理Cookie,确保请求带有正确的...

    asp.net(C#) 数据采集、抓取

    ASP.NET(C#)数据采集与抓取是一个关键的IT技术领域,主要涉及从网络上获取和处理非结构化或半结构化的数据。在本文中,我们将深入探讨这个主题,了解如何利用C#编程语言和ASP.NET框架进行高效的数据采集和抓取。 ...

    c#网页文字采集的例子.zip

    本篇文章将详细探讨如何使用C#进行网页文字采集,并以提供的"网页文字采集的例子.zip"为例进行解析。 首先,我们要了解网页采集的基本流程。它通常包括以下几个步骤: 1. **发送HTTP请求**:使用C#的`System.Net....

    C sharp 仿codefans自动采集系统

    总的来说,"C# 仿CodeFans自动采集系统"项目涵盖了C#编程、网络爬虫技术、HTML解析、数据处理与存储等多个方面的知识。通过这个项目,开发者不仅可以提升C#编程技能,还能深入了解网络爬虫的工作原理和实现细节。...

    基于C#的数据采集,并上传平台

    C#提供了强大的字符串处理和正则表达式功能,能够方便地解析二进制或文本格式的数据。 4. **多线程编程**:为了提高性能,数据采集通常在多个线程中进行,以并行处理来自不同设备的数据。C#的`System.Threading`...

    新闻自动采集系统

    在新闻采集系统中,C#的强大功能和丰富的类库可以用于网络请求、HTML解析、数据存储等多个关键模块。 1. **网络请求**:C#中的`System.Net`命名空间提供了HTTP请求的相关类,如`HttpWebRequest`和`HttpWebResponse`...

    .net 内容采集源码

    总结来说,.NET内容采集源码涵盖了网络请求、HTML解析、数据处理、多线程、异步编程、数据库操作以及异常和日志管理等多个方面。理解并熟练运用这些知识点,可以构建出高效、稳定的网络爬虫系统。在实际开发中,还...

    登陆爬虫 C# 代码

    虽然C#没有直接的Session类,但可以通过设置HttpClient的CookieContainer或使用第三方库如HttpWebRequest来实现。 5. **解析HTML**:获取到登录后的页面后,我们需要解析HTML内容。C#中可以使用HtmlAgilityPack库,...

    采集软件 .net 采集插件

    在.NET环境下,数据采集通常通过HTTP请求获取网页内容,然后使用HTML解析库(如HtmlAgilityPack或AngleSharp)解析网页结构,提取所需数据。这些插件可能还利用正则表达式或XPath表达式进行数据匹配和提取。描述中...

    数据采集、蜘蛛程序制作资料

    6. **HTML解析**:"ASP.NET实现数据采集.doc"和"用C#2.0实现网络蜘蛛(WebSpider)[图].doc"可能包含了如何解析HTML,提取所需信息,例如使用正则表达式、HTML Agility Pack或者AngleSharp库。 7. **ASP.NET应用**:...

    数据采集代码集合.zip

    2. **HTML解析**:采集到的网页数据通常是HTML格式,解析这些数据是提取所需信息的关键。C#中,可以使用第三方库如HtmlAgilityPack或AngleSharp来解析HTML文档。这些库提供了方便的API,帮助开发者遍历DOM树,查找和...

Global site tag (gtag.js) - Google Analytics