ITeye问答频道

票

回答

1966 浏览

JAVA + jsoup + httpUnit 爬虫报错[已解决]0

String sinaLoginUrl="http://apps.evozi.com/apk-downloader"; WebClient client=new WebClient(); client.getOptions().setCssEnabled(false); client.getOptions().setJavaScriptEnabled(true);//设置成tru ...

Java 爬虫 jsoup httpunit

2015年1月04日 21:07

msdghs
2
0 0 22

票

回答

1929 浏览

java抓取雪球数据时连接老是失败，不知道是否被屏蔽还是参数不对[已解决]25

尝试了好多参数，都是一样的 Server returned HTTP response code: 400 for URL，不知道是不是雪球有限制，但是对照浏览器的请求，一模一样的做了设置也不行，多谢！也用jsoup做同样的事情，还是同样的错误。 Java代码收藏代码 package com.test; import java.io.BufferedReader; import java.io. ...

HTTP 爬虫 jsoup 抓取雪球

2014年12月01日 19:09

xw302
10
0 0 3

票

回答

1203 浏览

java 求Js网页如何爬取[已解决]5

http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取，我一般就是看页面上请求后台数据的地址，然后获取JSON数据，但就是这个网页，怎么爬，获取后台请求的JSON都获取不到啊

Java 爬虫 java 爬虫

2014年9月24日 12:46

assasszt
17
0 0 5

票

回答

2689 浏览

能否用Java爬取电商网站的商品价格信息[已解决]5

能否用Java编写一个小程序用来爬取淘宝、京东等电商网站的商品价格信息

爬虫

2014年8月27日 17:42

hyn450
25
0 0 3

票

回答

30773 浏览

Java_爬虫，如何抓取Js动态生成数据的页面？[已解决]5

很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的，看网上说HtmlUnit，说可以获取后台js加载完后的完整页面，但是我按照文章上说的写了，都不好使。 String ...

Java HttpClient 爬虫 nutch httpunit

2014年7月25日 17:44

assasszt
17
0 0 5

票

回答

3020 浏览

爬虫抓取携程或者去那[已解决]0

那位大虾分析出来过携程或者去那那分机票查询的方法，我想伪造给请求去查询，列入成都到北京某某时间分析了半天没看出他们post方法是那个他们隐藏得太好了……

爬虫

2014年6月19日 15:46

lyuaong2010
1
0 0 3

票

回答

566 浏览

如何做好爬虫[已解决]5

做爬虫有一段时间了，请问一下这个资源网站 http://www.ququshe.com/videoInfo/VMTIxNjc1NTc1K.htm的多资源爬取除了HttpClient、Jsoup、Htmlunit 技术之外，对于视频链接如何获取？还想问一下，对于多线程爬虫大家有什么见解和心得，共享一下。

多线程 HttpClient 爬虫视频 jsoup

2013年11月09日 14:49

fireqiao
22
0 0 3

票

回答

4842 浏览

java网络爬虫获取跳转后的URL[已解决]5

Java网络爬虫，爬取Bai**du的搜索结果，例如访问的URL是http://www.baidu.com/link?url=U3WEcAaa55vMH_mnafZHZyCoofvQ7IdiFW6WOSwL3PCBtaeDKKqHnretlAa-uzQ4，其对应原始的URL是：http://data.tiexue.net/mil/j202110/，在Java中如何得到这个原始的URL？

Java 爬虫网络爬虫 Java网络爬虫

2013年10月27日 10:50

area_51
25
0 0 2

票

回答

1377 浏览

htmlunit 调试，如何获取js提交的form表单[已解决]5

loginButton是一个htmlbutton 不是input="submit" 而是 button onclick="return doLogin()" 当调用loginButton.click(); form 被js提交，该如何获取form提交的参数 (form是https post 提交的) htmlunit 2.12

软件测试爬虫 htmlunit

2013年9月19日 17:19

angviza
1
0 0 2

票

回答

206 浏览

菜鸟求个爬虫软件，网上看见一些很好看的网站，先把他的web代码爬下来学习[已解决]0

菜鸟求个爬虫软件，网上看见一些很好看的网站，先把他的web代码爬下来学习但是自己找了很多软件都木有什么效果~~~求推荐或者直接发邮箱谢谢~~~~xmj0207@163.com

爬虫

2013年6月17日 11:33

xmj0207
1
0 0 10

票

回答

318 浏览

heritrix绕过去登录验证[已解决]3

heritrix爬虫的时候，比如公司的项目都是带用户登陆的，heritrix怎么实现绕过去登录那? 目前的想法是: 1.模拟登录，传递cookie的方式。 2.开个后门，在爬的时候不进行验证。第一种方式需要修改源码，比较费劲。第二种方式需要修改原有的项目，也不太理想。不知道大侠们有没有好的思路或者实现方式？问题补充另外，heritrix1.14版本中的order.xml可以配置登录的信息， ...

Lucene 爬虫 heritrix

2013年5月24日 09:05

whoshaofeng
0
0 0 5

票

回答

466 浏览

设计一个汽车信息类网站[已解决]0

如果我要设计开发这样一个网站（http://www.pcauto.com.cn/）前提：网站开发语言是java 提问1：部分内容，最新业界消息需要抓取，并结合人工编辑，这类似一个cms系统，抓取其他网站网页并加以处理合适自己的格式，这部分大家推荐用什么框架呢？需要注意哪些点呢？提问2：网站涉及到很多图片，在服务器性能有限时，希望能借鉴外部一些存储技术，包括试下流行的云存储(阿里云)和CDN ...

Cache 爬虫 cdn 架构技术选型存储方案

2013年5月09日 12:55

xylong
0
0 0 2

票

回答

192 浏览

爬虫的选取[已解决]5

大四学生一枚最近在做毕业设计需要使用爬虫爬中国教育在线摘取论文关键信息，用java实现。不知道用什么爬虫 Crawler？ heritrix？由于技术很差求大神给建议给比较。跪谢　　Ｏｒｚ　　Ｏｒｚ　　Ｏｒｚ　　Ｏｒｚ　　

爬虫 heritrix Crawler？

2013年5月07日 16:30

xinbing107
25
0 0 3

票

回答

1884 浏览

使用jdic WebBrowser如何获取解析后的网页源码[已解决]5

代码如下 import java.io.IOException; import java.net.URL; import org.jdesktop.jdic.browser.WebBrowser; import java.awt.BorderLayout; import javax.swing.JFrame; import javax.swing.JPanel; public class tttt ...

爬虫 WebBrowser jdic 网页源码解析JS

2013年2月22日 10:43

lin358
4
0 0 14

票

回答

229 浏览

Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5

最近公司要做漫画项目，需要爬虫技术爬网页，有用过相关技术的亲吗？我看到晚上基本都是Heritrix,WebSPHINX,JSpider,Encog,但是没找到相关的比较,麻烦大神们分享下经验啊!

爬虫 heritrix WebSPHINX JSpider Encog

2013年1月08日 15:04

it158
10
0 0 4

票

回答

596 浏览

java网页爬虫长时间模拟浏览器爬虫，用不用清空缓存？[已解决]5

java的多线程网页爬虫程序，总是不怕任何异常的，卡在那里；长时间模拟浏览器爬虫，用不用清空缓存？

Java HttpClient 爬虫

2012年12月30日 14:05

manqingli
25
0 0 3

票

回答

548 浏览

java网络爬虫如何嵌入javascript引擎?[已解决]0

要写一个爬虫，想内嵌一个javascript引擎来执行网页上的javascript代码来生成想要的DOM，比如V8，webkit的js引擎...有做过的兄弟能给点建议吗？我需要去了解哪些东西才能内嵌一个js引擎!!!

webkit 爬虫 V8 Rhino 内嵌js引擎

2012年10月10日 13:58

wiki_more
2
0 0 5

票

回答

1571 浏览

scrapy抓取到的数据使用mysql存储问题[已解决]5

打算将scrapy抓取到的数据使用mysql进行存储。现在有个问题，在下一次抓取时，对原来表中的数据做什么样的操作比较好呢？假如先清空表的话，那在新数据插入完成之前，数据查询功能就没法使用了。。。想知道有没有好的解决办法呢？

MySQL Python 爬虫存储 scrapy

2012年7月31日 10:43

tianyu360
10
0 0 2

票

回答

934 浏览

监测web服务器运行状态，平均响应时间，选择httpClient还是snmp？[已解决]0

主要想监测全国各地用户是可以访问到指定的ＵＲＬ，如果不能，可以分析是电信或网通等服务商的问题，ｄｎｓ服务器的问题，或者交换机的问题或者ｗｅｂ应用程序服务器宕机的问题等问题，以上是服务状态是否可用；还有就是各地访问资源平均响应时间。请问有有经验的人士，提供一下思路吗？

Spring 爬虫

2012年7月02日 11:30

wangbz
0
0 0 2

票

回答

3380 浏览

关于HttpClient和Jsoup[已解决]0

直接用jsoup也可以得到网页的代码呀为什么还要通过httpClient呢菜鸟问下

JavaScript 爬虫

2012年5月31日 11:48

便衣城管
3
0 0 5

我的问答 FAQ | 勋章

排行榜

查看全部排名>>

JAVA + jsoup + httpUnit 爬虫报错[已解决]0

java抓取雪球数据时连接老是失败，不知道是否被屏蔽还是参数不对[已解决]25

java 求Js网页如何爬取[已解决]5

能否用Java爬取电商网站的商品价格信息[已解决]5

Java_爬虫，如何抓取Js动态生成数据的页面？[已解决]5

爬虫抓取携程或者去那[已解决]0

如何做好爬虫[已解决]5

java网络爬虫获取跳转后的URL[已解决]5

htmlunit 调试，如何获取js提交的form表单[已解决]5

菜鸟求个爬虫软件，网上看见一些很好看的网站，先把他的web代码爬下来学习[已解决]0

heritrix绕过去登录验证[已解决]3

设计一个汽车信息类网站[已解决]0

爬虫的选取[已解决]5

使用jdic WebBrowser如何获取解析后的网页源码[已解决]5

Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5

java网页爬虫长时间模拟浏览器爬虫，用不用清空缓存？[已解决]5

java网络爬虫如何嵌入javascript引擎?[已解决]0

scrapy抓取到的数据使用mysql存储问题[已解决]5

监测web服务器运行状态，平均响应时间，选择httpClient还是snmp？[已解决]0

关于HttpClient和Jsoup[已解决]0

问答分类

移动开发技术

Web前端技术

Java企业应用

编程语言技术

综合技术

入门技术

招聘求职

海阔天空

最新问题

排行榜

本周活跃投票用户

最新评论

JAVA + jsoup + httpUnit 爬虫报错[已解决]0

java抓取雪球数据时连接老是失败，不知道是否被屏蔽还是参数不对[已解决]25

java 求Js网页如何爬取[已解决]5

能否用Java爬取电商网站的商品价格信息[已解决]5

Java_爬虫，如何抓取Js动态生成数据的页面？[已解决]5

爬虫抓取携程或者去那[已解决]0

如何做好爬虫[已解决]5

java网络爬虫获取跳转后的URL[已解决]5

htmlunit 调试，如何获取js提交的form表单[已解决]5

菜鸟求个爬虫软件，网上看见一些很好看的网站，先把他的web代码爬下来学习[已解决]0

heritrix绕过去登录验证[已解决]3

设计一个汽车信息类网站[已解决]0

爬虫的选取[已解决]5

使用jdic WebBrowser如何获取解析后的网页源码[已解决]5

Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5

java网页爬虫 长时间模拟浏览器爬虫，用不用清空缓存？[已解决]5

java网络爬虫如何嵌入javascript引擎?[已解决]0

scrapy抓取到的数据使用mysql存储问题[已解决]5

监测web服务器运行状态，平均响应时间，选择httpClient还是snmp？[已解决]0

关于HttpClient和Jsoup[已解决]0

问答分类

最新问题

排行榜

本周活跃投票用户

最新评论

java网页爬虫长时间模拟浏览器爬虫，用不用清空缓存？[已解决]5