0

1

回答

1945 浏览

JAVA + jsoup + httpUnit 爬虫报错[已解决]0

String sinaLoginUrl="http://apps.evozi.com/apk-downloader"; WebClient client=new WebClient(); client.getOptions().setCssEnabled(false); client.getOptions().setJavaScriptEnabled(true);//设置成tru ...

2015年1月04日 21:07
0

1

回答

1903 浏览

java抓取雪球数据时连接老是失败,不知道是否被屏蔽还是参数不对[已解决]25

尝试了好多参数,都是一样的 Server returned HTTP response code: 400 for URL,不知道是不是雪球有限制,但是对照浏览器的请求,一模一样的做了设置也不行,多谢! 也用jsoup做同样的事情,还是同样的错误。 Java代码 收藏代码 package com.test; import java.io.BufferedReader; import java.io. ...

2014年12月01日 19:09
0

2

回答

1191 浏览

java 求Js网页如何爬取[已解决]5

http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取,我一般就是看页面上请求后台数据 的地址,然后获取JSON数据, 但就是这个网页,怎么爬,获取后台请求的JSON都获取不到啊

2014年9月24日 12:46
0

5

回答

2676 浏览

能否用Java爬取电商网站的商品价格信息[已解决]5

能否用Java编写一个小程序用来爬取淘宝、京东等电商网站的商品价格信息

2014年8月27日 17:42
0

5

回答

30725 浏览

Java_爬虫,如何抓取Js动态生成数据的页面?[已解决]5

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。 String ...

2014年7月25日 17:44
0

3

回答

2982 浏览

爬虫抓取携程或者去那[已解决]0

那位大虾分析出来过 携程或者去那 那分机票查询的方法,我想伪造给请求去查询,列入成都到北京 某某时间 分析了半天 没看出他们post方法是那个 他们隐藏得太好了……

2014年6月19日 15:46
0

1

回答

557 浏览

如何做好爬虫[已解决]5

做爬虫有一段时间了,请问一下这个资源网站 http://www.ququshe.com/videoInfo/VMTIxNjc1NTc1K.htm的多资源爬取除了HttpClient、Jsoup、Htmlunit 技术之外,对于视频链接如何获取? 还想问一下,对于多线程爬虫大家有什么见解和心得,共享一下。

2013年11月09日 14:49
0

3

回答

4828 浏览

java网络爬虫获取跳转后的URL[已解决]5

Java网络爬虫,爬取Bai**du的搜索结果,例如访问的URL是http://www.baidu.com/link?url=U3WEcAaa55vMH_mnafZHZyCoofvQ7IdiFW6WOSwL3PCBtaeDKKqHnretlAa-uzQ4,其对应原始的URL是:http://data.tiexue.net/mil/j202110/,在Java中如何得到这个原始的URL?

2013年10月27日 10:50
0

0

回答

1364 浏览

htmlunit 调试,如何获取js提交的form表单[已解决]5

loginButton是一个htmlbutton 不是input="submit" 而是 button onclick="return doLogin()" 当调用loginButton.click(); form 被js提交,该如何获取form提交的参数 (form是https post 提交的) htmlunit 2.12

2013年9月19日 17:19
0

0

回答

198 浏览

菜鸟求个爬虫软件,网上看见一些很好看的网站,先把他的web代码爬下来学习[已解决]0

菜鸟求个爬虫软件,网上看见一些很好看的网站,先把他的web代码爬下来学习 但是自己找了很多软件都木有什么效果~~~求推荐或者直接发邮箱谢谢~~~~xmj0207@163.com

2013年6月17日 11:33
0

0

回答

311 浏览

heritrix绕过去登录验证[已解决]3

heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那? 目前的想法是: 1.模拟登录,传递cookie的方式。 2.开个后门,在爬的时候不进行验证。 第一种方式需要修改源码,比较费劲。第二种方式需要修改原有的项目,也不太理想。 不知道大侠们有没有好的思路或者实现方式? 问题补充另外,heritrix1.14版本中的order.xml可以配置登录的信息, ...

2013年5月24日 09:05
0

2

回答

458 浏览

设计一个汽车信息类网站[已解决]0

如果我要设计开发这样一个网站(http://www.pcauto.com.cn/) 前提:网站开发语言是java 提问1:部分内容,最新业界消息需要抓取,并结合人工编辑,这类似一个cms系统,抓取其他网站网页并加以处理合适自己的格式,这部分大家推荐用什么框架呢?需要注意哪些点呢? 提问2:网站涉及到很多图片,在服务器性能有限时,希望能借鉴外部一些存储技术,包括试下流行的云存储(阿里云)和CDN ...

0

1

回答

184 浏览

爬虫的选取[已解决]5

大四学生一枚 最近在做毕业设计 需要使用爬虫爬中国教育在线 摘取论文关键信息,用java实现。不知道用什么爬虫 Crawler? heritrix? 由于技术很差 求大神给建议 给比较。跪谢  Orz  Orz  Orz  Orz  

2013年5月07日 16:30
0

0

回答

1873 浏览

使用jdic WebBrowser如何获取解析后的网页源码[已解决]5

代码如下 import java.io.IOException; import java.net.URL; import org.jdesktop.jdic.browser.WebBrowser; import java.awt.BorderLayout; import javax.swing.JFrame; import javax.swing.JPanel; public class tttt ...

2013年2月22日 10:43
0

0

回答

220 浏览

Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5

最近公司要做漫画项目,需要爬虫技术爬网页,有用过相关技术的亲吗? 我看到晚上基本都是Heritrix,WebSPHINX,JSpider,Encog,但是没找到相关的比较,麻烦大神们分享下经验啊!

2013年1月08日 15:04
0

0

回答

575 浏览

java网页爬虫 长时间模拟浏览器爬虫,用不用清空缓存?[已解决]5

java的多线程网页爬虫程序,总是不怕任何异常的,卡在那里; 长时间模拟浏览器爬虫,用不用清空缓存?

2012年12月30日 14:05
0

0

回答

528 浏览

java网络爬虫如何嵌入javascript引擎?[已解决]0

要写一个爬虫,想内嵌一个javascript引擎来执行网页上的javascript代码来生成想要的DOM,比如V8,webkit的js引擎...有做过的兄弟能给点建议吗?我需要去了解哪些东西才能内嵌一个js引擎!!!

2012年10月10日 13:58
0

1

回答

1558 浏览

scrapy抓取到的数据使用mysql存储问题[已解决]5

打算将scrapy抓取到的数据使用mysql进行存储。现在有个问题,在下一次抓取时,对原来表中的数据做什么样的操作比较好呢?假如先清空表的话,那在新数据插入完成之前,数据查询功能就没法使用了。。。想知道有没有好的解决办法呢?

2012年7月31日 10:43
0

1

回答

925 浏览

监测web服务器运行状态,平均响应时间,选择httpClient还是snmp?[已解决]0

主要想监测全国各地用户是可以访问到指定的URL,如果不能,可以分析是电信或网通等服务商的问题,dns服务器的问题,或者交换机的问题或者web应用程序服务器宕机的问题等问题,以上是服务状态是否可用;还有就是各地访问资源平均响应时间。 请问有有经验的人士,提供一下思路吗?

2012年7月02日 11:30
0

3

回答

3369 浏览

关于HttpClient和Jsoup[已解决]0

直接用jsoup也可以得到网页的代码呀 为什么还要通过httpClient呢 菜鸟问下

2012年5月31日 11:48

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics