票
回答
JAVA + jsoup + httpUnit 爬虫报错[已解决]0
String sinaLoginUrl="http://apps.evozi.com/apk-downloader"; WebClient client=new WebClient(); client.getOptions().setCssEnabled(false); client.getOptions().setJavaScriptEnabled(true);//设置成tru ...
票
回答
java抓取雪球数据时连接老是失败,不知道是否被屏蔽还是参数不对[已解决]25
尝试了好多参数,都是一样的 Server returned HTTP response code: 400 for URL,不知道是不是雪球有限制,但是对照浏览器的请求,一模一样的做了设置也不行,多谢! 也用jsoup做同样的事情,还是同样的错误。 Java代码 收藏代码 package com.test; import java.io.BufferedReader; import java.io. ...
票
回答
java 求Js网页如何爬取[已解决]5
http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取,我一般就是看页面上请求后台数据 的地址,然后获取JSON数据, 但就是这个网页,怎么爬,获取后台请求的JSON都获取不到啊
票
回答
票
回答
Java_爬虫,如何抓取Js动态生成数据的页面?[已解决]5
很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。 String ...
票
回答
爬虫抓取携程或者去那[已解决]0
那位大虾分析出来过 携程或者去那 那分机票查询的方法,我想伪造给请求去查询,列入成都到北京 某某时间 分析了半天 没看出他们post方法是那个 他们隐藏得太好了……
票
回答
票
回答
java网络爬虫获取跳转后的URL[已解决]5
Java网络爬虫,爬取Bai**du的搜索结果,例如访问的URL是http://www.baidu.com/link?url=U3WEcAaa55vMH_mnafZHZyCoofvQ7IdiFW6WOSwL3PCBtaeDKKqHnretlAa-uzQ4,其对应原始的URL是:http://data.tiexue.net/mil/j202110/,在Java中如何得到这个原始的URL?
票
回答
htmlunit 调试,如何获取js提交的form表单[已解决]5
loginButton是一个htmlbutton 不是input="submit" 而是 button onclick="return doLogin()" 当调用loginButton.click(); form 被js提交,该如何获取form提交的参数 (form是https post 提交的) htmlunit 2.12
票
回答
菜鸟求个爬虫软件,网上看见一些很好看的网站,先把他的web代码爬下来学习[已解决]0
菜鸟求个爬虫软件,网上看见一些很好看的网站,先把他的web代码爬下来学习 但是自己找了很多软件都木有什么效果~~~求推荐或者直接发邮箱谢谢~~~~xmj0207@163.com
票
回答
heritrix绕过去登录验证[已解决]3
heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那? 目前的想法是: 1.模拟登录,传递cookie的方式。 2.开个后门,在爬的时候不进行验证。 第一种方式需要修改源码,比较费劲。第二种方式需要修改原有的项目,也不太理想。 不知道大侠们有没有好的思路或者实现方式? 问题补充另外,heritrix1.14版本中的order.xml可以配置登录的信息, ...
票
回答
设计一个汽车信息类网站[已解决]0
如果我要设计开发这样一个网站(http://www.pcauto.com.cn/) 前提:网站开发语言是java 提问1:部分内容,最新业界消息需要抓取,并结合人工编辑,这类似一个cms系统,抓取其他网站网页并加以处理合适自己的格式,这部分大家推荐用什么框架呢?需要注意哪些点呢? 提问2:网站涉及到很多图片,在服务器性能有限时,希望能借鉴外部一些存储技术,包括试下流行的云存储(阿里云)和CDN ...
票
回答
爬虫的选取[已解决]5
大四学生一枚 最近在做毕业设计 需要使用爬虫爬中国教育在线 摘取论文关键信息,用java实现。不知道用什么爬虫 Crawler? heritrix? 由于技术很差 求大神给建议 给比较。跪谢 Orz Orz Orz Orz
票
回答
使用jdic WebBrowser如何获取解析后的网页源码[已解决]5
代码如下 import java.io.IOException; import java.net.URL; import org.jdesktop.jdic.browser.WebBrowser; import java.awt.BorderLayout; import javax.swing.JFrame; import javax.swing.JPanel; public class tttt ...
票
回答
Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5
最近公司要做漫画项目,需要爬虫技术爬网页,有用过相关技术的亲吗? 我看到晚上基本都是Heritrix,WebSPHINX,JSpider,Encog,但是没找到相关的比较,麻烦大神们分享下经验啊!
票
回答
java网页爬虫 长时间模拟浏览器爬虫,用不用清空缓存?[已解决]5
java的多线程网页爬虫程序,总是不怕任何异常的,卡在那里; 长时间模拟浏览器爬虫,用不用清空缓存?
票
回答
java网络爬虫如何嵌入javascript引擎?[已解决]0
要写一个爬虫,想内嵌一个javascript引擎来执行网页上的javascript代码来生成想要的DOM,比如V8,webkit的js引擎...有做过的兄弟能给点建议吗?我需要去了解哪些东西才能内嵌一个js引擎!!!
票
回答
scrapy抓取到的数据使用mysql存储问题[已解决]5
打算将scrapy抓取到的数据使用mysql进行存储。现在有个问题,在下一次抓取时,对原来表中的数据做什么样的操作比较好呢?假如先清空表的话,那在新数据插入完成之前,数据查询功能就没法使用了。。。想知道有没有好的解决办法呢?
票
回答
监测web服务器运行状态,平均响应时间,选择httpClient还是snmp?[已解决]0
主要想监测全国各地用户是可以访问到指定的URL,如果不能,可以分析是电信或网通等服务商的问题,dns服务器的问题,或者交换机的问题或者web应用程序服务器宕机的问题等问题,以上是服务状态是否可用;还有就是各地访问资源平均响应时间。 请问有有经验的人士,提供一下思路吗?
票
回答
oznyang 评论了 关于oznyang发布的i18nTool工具的使用
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
26762685 评论了 SOS!session串号现象
elbert 评论了 Java怎么实现打印机监控
sandy8508 评论了 Java String.format性能如何
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
xiaojunjava 评论了 JAVA 连接打印机 打印作业属性设置无效果问题
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple