论坛首页 Java企业应用论坛

JS实现的爬虫,你觉得有用不

浏览 17469 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (6)
作者 正文
   发表时间:2011-01-21  
首先澄清一下,JS实现的爬虫是指用JS实现解析逻辑的爬虫,大概的想法就是把某个页面的内容下载下来,像IE或者Firefox那样把HTML的内容解析成DOM树,然后用JS解析页面的内容,得到自己想要的东西。

为什么要用JS呢?一是会JS的人基本都是搞WEB相关的东西的,DOM什么的都是熟人熟路;二是JS里面像CSS selector、jquery这样方便的东西,用起来应该是很爽的。

如果有这么个东西,大家以后没事爬爬数据的时候还是很方便的。

大家觉得这个主意怎么样?要是觉得好的人多,我打算找人一起弄个比较成熟的包出来 。
   发表时间:2011-01-21  
JS如何跨域抓取数据?
0 请登录后投票
   发表时间:2011-01-21  
不错有想法
1L的问题可以通过修改浏览器的源代码实现
0 请登录后投票
   发表时间:2011-01-22  
我想请教下 你如何把别人的HTML网页用JS转换成DOM对象?
0 请登录后投票
   发表时间:2011-01-22  
hackwaly 写道
不错有想法
1L的问题可以通过修改浏览器的源代码实现


有什么用?你改完浏览器的源代码,然后呢?就你自己一个人自娱自乐?还是拿出¥来推广你这浏览器?
0 请登录后投票
   发表时间:2011-01-22  
kyfxbl 写道
hackwaly 写道
不错有想法
1L的问题可以通过修改浏览器的源代码实现


有什么用?你改完浏览器的源代码,然后呢?就你自己一个人自娱自乐?还是拿出¥来推广你这浏览器?


目的是为了实现爬虫,不是黑客吧。
本来就是自用的,不需要改别人的浏览器啊
0 请登录后投票
   发表时间:2011-01-22  
有必要用JS做这个事情吗?
0 请登录后投票
   发表时间:2011-01-22  
这个首要条件是需要解决JS跨域问题。
0 请登录后投票
   发表时间:2011-01-23  
用js的唯一目的可能就是解析dom方便吧,但是效率应该很低,因为是要通过浏览器先显示成html,然后再析出dom模型供js调用,应该说意义 不是很大

参考一下这个博客园的网友的作品:
Jumony入门(一)从这里开始
http://www.cnblogs.com/Ivony/archive/2010/12/19/jumony-guide-1.html
0 请登录后投票
   发表时间:2011-01-23  
js爬虫?要把网页解析成dom树,我觉得面临最大的问题是,如果面对各种不规范的html,看你有啥办法!!!!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics