Nokogiri 用xpath,css选择器都抓不到数据 - ITeye问答

问答首页 → 移动开发技术

0 0

Nokogiri 用xpath,css选择器都抓不到数据5



url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'
xpath="//p[@class='housetitle']/a"

    # get the nokogiri document  
    doc = Nokogiri::HTML(open(url))
 
	 doc.xpath(xpath).each do |link|    # doc.css("p.housetitle").each do |link|
	    puts link.content
	   puts link['href']
	     end

2012年2月12日 20:23

yakczh
1
0 0 4

4个答案按时间排序按投票排序

0 0

应该是我错了郁闷,新买的带小红点的键盘有点小问题了

2012年2月20日 10:10

cxh116
203
0 0 9

添加评论

0 0

好吧你错了
直接看open的源码,有html,估计是解析器的问题,换个试试

2012年2月20日 10:09

cxh116
203
0 0 9

添加评论

0 0

用wget抓取没有这个问题,估计你得伪造User-Agent等,尽可能看起来像个浏览器用户

2012年2月20日 10:06

cxh116
203
0 0 9

添加评论

0 0

你把doc写到一个文件,发现它是不是根本就没有html标签,估计用js处理过

采集量不大的话,用watir-webdriver,大的话只能分析其页面的js了

2012年2月20日 10:03

cxh116
203
0 0 9

添加评论

相关推荐

Instant Nokogiri: CSS选择器是一种在Web开发中广泛使用的简单查询机制，而XPath提供了一种更为强大的基于路径的查询方式。 3. 性能优化：Nokogiri被设计成一个性能出色的库，它在处理大型文档或者需要快速执行的场景中表现良好。这...

Ruby中使用Nokogiri包来操作XML格式数据的教程: CSS选择器则类似于网页样式表中的选择器，方便按元素名称、类名等选择节点： ```ruby doc.css("book title") ``` 一旦找到节点，你可以修改它们的内容或结构。例如，改变第一个`title`元素的内容： ```ruby title...

ruby,xml: Nokogiri是一个强大的解析器，可以解析XML和HTML文档，并提供XPath和CSS选择器来方便地查找和操作文档节点。REXML是Ruby的标准库之一，它提供了一个简单的API来读取、写入和修改XML文档。在实际开发中，使用Ruby...

爬虫20220803pm: 4. CSS选择器与XPath：两种常用的网页元素定位工具，CSS选择器用于选取HTML中的特定元素，XPath则基于XML路径语言，适用于更复杂的选取场景。二、常用爬虫工具与框架 1. Python爬虫库：如BeautifulSoup、Scrapy等...

ruby写的网络蜘蛛: 通过使用Nokogiri，你可以使用XPath或CSS选择器来定位你需要的信息。 2. Mechanize：Mechanize库是专门针对网站交互设计的，它可以模拟浏览器行为，比如点击按钮、填写表单和处理cookies。这对于那些需要登录或执行...

ruby_webscraping_talk_source:Ruby的Web抓取对话: Nokogiri支持CSS选择器，使得我们可以根据元素的ID、类名、属性等轻松地找到所需的数据。 4. **XPath表达式**：XPath是另一种定位XML或HTML节点的语言。虽然比CSS选择器稍微复杂，但它能提供更精细的控制，特别是在...

Ruby-RubyRetriever异步Web爬虫: 4. **HTML解析**：为了提取网页数据，RubyRetriever可能会使用Nokogiri库，它提供了一种高效的方式来解析HTML和XML文档，通过XPath或CSS选择器选取需要的数据。 5. **数据存储**：抓取到的数据通常需要存储到文件...

ruby-scraping:一堆为@LeWagon 学生抓取的 ruby 脚本: 2. **HTML解析**：Nokogiri库是Ruby中非常流行的HTML和XML解析器，它允许通过XPath或CSS选择器提取数据。例如，你可以使用它来查找特定的HTML元素，如`<div>`, `<a>`标签等。 3. **数据提取与处理**：在获取HTML...

seiya:像scrapy-python这样的Ruby蜘蛛: seya通常使用诸如Nokogiri这样的HTML解析库，允许开发者通过XPath或CSS选择器提取所需数据。此外，它支持定义回调函数，以处理解析出的特定元素，进一步处理数据或执行后续操作。 4. **Item与Item Pipeline** 在...

dividendscrape:从aspion.com刮擦股票信息: 1. **Nokogiri库**：Nokogiri是Ruby中解析HTML和XML文档的利器，它允许开发者通过XPath或CSS选择器找到特定的元素。在dividendscrape项目中，Nokogiri可能被用来定位aspion.com网页上的股息信息部分，提取出关键数据...

spidey-web-crawlers:Ruby 中的网络爬虫: Nokogiri是Ruby中用于解析HTML和XML文档的库，它提供了强大的XPath和CSS选择器来查找和提取网页元素。通过Nokogiri，开发者可以轻松地解析网页结构，获取所需的数据。例如，你可以使用以下代码片段从一个HTML文档中...

baidu_spider.zip_搜索引擎_Others_: `Nokogiri`允许你通过CSS选择器或XPath表达式方便地定位和提取所需信息。 3. **正则表达式**：在某些情况下，可能需要使用正则表达式（Regexp）对特定格式的数据进行匹配和提取，尤其是在HTML解析后仍需进一步处理...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics