0 0

Nokogiri 用xpath,css选择器都抓不到数据5



url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'
xpath="//p[@class='housetitle']/a"

    # get the nokogiri document  
    doc = Nokogiri::HTML(open(url))
 
	 doc.xpath(xpath).each do |link|    # doc.css("p.housetitle").each do |link|
	    puts link.content
	   puts link['href']
	     end

2012年2月12日 20:23

4个答案 按时间排序 按投票排序

0 0

应该是我错了  郁闷,新买的带小红点的键盘有点小问题了

2012年2月20日 10:10
0 0

好吧 你错了
   直接看open的源码,有html,估计是解析器的问题,换个试试

2012年2月20日 10:09
0 0

用wget抓取没有这个问题,估计你得伪造User-Agent等,尽可能看起来像个浏览器用户

2012年2月20日 10:06
0 0

你把doc写到一个文件,发现它是不是根本就没有html标签,估计用js处理过

  采集量不大的话,用watir-webdriver,大的话只能分析其页面的js了

2012年2月20日 10:03

相关推荐

    Instant Nokogiri

    CSS选择器是一种在Web开发中广泛使用的简单查询机制,而XPath提供了一种更为强大的基于路径的查询方式。 3. 性能优化:Nokogiri被设计成一个性能出色的库,它在处理大型文档或者需要快速执行的场景中表现良好。这...

    Ruby中使用Nokogiri包来操作XML格式数据的教程

    CSS选择器则类似于网页样式表中的选择器,方便按元素名称、类名等选择节点: ```ruby doc.css("book title") ``` 一旦找到节点,你可以修改它们的内容或结构。例如,改变第一个`title`元素的内容: ```ruby title...

    ruby,xml

    Nokogiri是一个强大的解析器,可以解析XML和HTML文档,并提供XPath和CSS选择器来方便地查找和操作文档节点。REXML是Ruby的标准库之一,它提供了一个简单的API来读取、写入和修改XML文档。 在实际开发中,使用Ruby...

    爬虫20220803pm

    4. CSS选择器与XPath:两种常用的网页元素定位工具,CSS选择器用于选取HTML中的特定元素,XPath则基于XML路径语言,适用于更复杂的选取场景。 二、常用爬虫工具与框架 1. Python爬虫库:如BeautifulSoup、Scrapy等...

    ruby写的网络蜘蛛

    通过使用Nokogiri,你可以使用XPath或CSS选择器来定位你需要的信息。 2. Mechanize:Mechanize库是专门针对网站交互设计的,它可以模拟浏览器行为,比如点击按钮、填写表单和处理cookies。这对于那些需要登录或执行...

    ruby_webscraping_talk_source:Ruby的Web抓取对话

    Nokogiri支持CSS选择器,使得我们可以根据元素的ID、类名、属性等轻松地找到所需的数据。 4. **XPath表达式**:XPath是另一种定位XML或HTML节点的语言。虽然比CSS选择器稍微复杂,但它能提供更精细的控制,特别是在...

    Ruby-RubyRetriever异步Web爬虫

    4. **HTML解析**:为了提取网页数据,RubyRetriever可能会使用Nokogiri库,它提供了一种高效的方式来解析HTML和XML文档,通过XPath或CSS选择器选取需要的数据。 5. **数据存储**:抓取到的数据通常需要存储到文件...

    ruby-scraping:一堆为@LeWagon 学生抓取的 ruby​​ 脚本

    2. **HTML解析**:Nokogiri库是Ruby中非常流行的HTML和XML解析器,它允许通过XPath或CSS选择器提取数据。例如,你可以使用它来查找特定的HTML元素,如`<div>`, `<a>`标签等。 3. **数据提取与处理**:在获取HTML...

    seiya:像scrapy-python这样的Ruby蜘蛛

    seya通常使用诸如Nokogiri这样的HTML解析库,允许开发者通过XPath或CSS选择器提取所需数据。此外,它支持定义回调函数,以处理解析出的特定元素,进一步处理数据或执行后续操作。 4. **Item与Item Pipeline** 在...

    dividendscrape:从aspion.com刮擦股票信息

    1. **Nokogiri库**:Nokogiri是Ruby中解析HTML和XML文档的利器,它允许开发者通过XPath或CSS选择器找到特定的元素。在dividendscrape项目中,Nokogiri可能被用来定位aspion.com网页上的股息信息部分,提取出关键数据...

    spidey-web-crawlers:Ruby 中的网络爬虫

    Nokogiri是Ruby中用于解析HTML和XML文档的库,它提供了强大的XPath和CSS选择器来查找和提取网页元素。通过Nokogiri,开发者可以轻松地解析网页结构,获取所需的数据。例如,你可以使用以下代码片段从一个HTML文档中...

    baidu_spider.zip_搜索引擎_Others_

    `Nokogiri`允许你通过CSS选择器或XPath表达式方便地定位和提取所需信息。 3. **正则表达式**:在某些情况下,可能需要使用正则表达式(Regexp)对特定格式的数据进行匹配和提取,尤其是在HTML解析后仍需进一步处理...

Global site tag (gtag.js) - Google Analytics