- 浏览: 1272694 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
今天,遇到一个问题,顺便把它写下来。今天在抓取一个网站的时候,看起来像一个简单的页面,人工
浏览的话,是完全没问题,一旦有程序开始抓取,问题就来了。老提示我链接错误。一开始,一头冒烟,为啥呢?
细心想了一下,难道是cookie做怪,好,那就找一下我以前用cookie提交访问页面的程序,结果不知道放到哪里去了。
花了差不多两个小时,找到了一份源代码。下面是我修改过的程序
package org.qichao.mode; import java.io.*; import org.apache.commons.httpclient.*; import org.apache.commons.httpclient.cookie.CookiePolicy; import org.apache.commons.httpclient.methods.*; import org.apache.commons.httpclient.params.HttpMethodParams; public class UR { public static void main(String[] args) { HttpClient httpClient = new HttpClient(); httpClient.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY); // 创建GET方法的实例 GetMethod getMethod = new GetMethod("http://www.51ys.com/See_Url_one.asp?operator=25041782C95478FEE686A09"); getMethod.setRequestHeader("Host","cards.360114.com"); getMethod.setRequestHeader("User-Agent","Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.8.1.20) Gecko/20081217 Firefox/2.0.0.20"); getMethod.setRequestHeader("Accept","text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5"); getMethod.setRequestHeader("Accept-Language","zh-cn,zh;q=0.5"); getMethod.setRequestHeader("Accept-Encoding","gzip,deflate"); getMethod.setRequestHeader("Accept-Charset","gb2312,utf-8;q=0.7,*;q=0.7"); getMethod.setRequestHeader("Keep-Alive","300"); getMethod.setRequestHeader("Connection","keep-alive"); getMethod.setRequestHeader("Referer","http://www.360114.com/yellowpage/query.asp?Call=77&h1=GSLANVG&Spara=3&Cpara=&h2=HSIFJTNJHIH&Tpara=&h3=EDJYLUE&h5=@GAXBXFR@R@&scall="); getMethod.setRequestHeader("Cookie","__utmz=76121879.1230526182.3.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BC%81%E4%B8%9A%E9%BB%84%E9%A1%B5%E5%A4%A7%E5%85%A8; __utma=76121879.2444684742963329000.1230517736.1230526182.1230530122.4; __utmc=76121879; ASPSESSIONIDAAATASRQ=IFDOECBAHDBKJFKKMKDOEFCP"); getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler()); try { // 执行getMethod int statusCode = httpClient.executeMethod(getMethod); if (statusCode != HttpStatus.SC_OK) { System.err.println("Method failed: " + getMethod.getStatusLine()); } // 读取内容 byte[] responseBody = getMethod.getResponseBody(); String content = new String(responseBody); // 处理内容 System.out.println(new String(responseBody)); } catch (HttpException e) { // 发生致命的异常,可能是协议不对或者返回的内容有问题 System.out.println("Please check your provided http address!"); e.printStackTrace(); } catch (IOException e) { // 发生网络异常 e.printStackTrace(); } finally { // 释放连接 // getMethod.releaseConnection(); } } }
发表评论
-
tomcat was unable to start within 45 seconds
2013-11-11 15:59 837原因一: -
Apache Commons Lang
2013-10-15 12:10 3165ArrayUtils public class Tes ... -
htmlunit form
2013-06-25 11:13 924Form提交 对于WEB应用,有着大量的表单,所以Html ... -
QQ微博登录步骤
2013-05-28 12:14 0QQ微博登录步骤: 1、验证帐号时,会访问一个地址。如下: ... -
jsoup
2013-05-22 23:37 1142import org.jsoup.Jsoup; import ... -
java 加密解密
2013-05-21 23:00 842import java.security.InvalidKey ... -
freemarket 对象应用篇(一)
2013-05-19 18:18 1042freemarket应用. 1.1:创建web工程testF ... -
中文数字转阿拉伯数字
2012-11-30 14:24 1795/** * @author loiy * ... -
标记:伪原创标题思路
2012-01-11 16:34 1287采用填词的办法进行伪 ... -
用JSmooth制作java jar文件的可执行exe文件教程(图文)
2012-01-05 01:09 8181下载完程序之后,运行 jsmoothgen.exe 1.进入“ ... -
多线程 Java.util.ConcurrentModificationException异常
2011-12-29 13:43 1525Iterator<Entry<String,B ... -
java 反序列化 抛出EOFException
2011-12-19 17:21 2253抛出这样的异常,一般情况下,是因为业务逻辑的问题。 如: 在没 ... -
一键安装双击运行——Java安装程序制作
2011-12-09 02:39 1330对于Java桌面应用来说,比较烦琐的就是安装部署问题,如:客户 ... -
只针对中英文混合分词的中文分词器
2011-12-02 17:28 4871该版本说明 1、只针对中英文混合分词 需要一些中文和英文连在 ... -
Java开源运行分析工具
2011-11-15 15:10 1884FProfiler FProfiler是一个非常快的Java ... -
cwss 按照指定的字符进行切词
2011-11-15 09:37 1211cwss 按照指定的字符进行切词 在 Utility.SEPE ... -
cwss bug 修复
2011-11-07 09:50 889修复的BUG有如下: 1、当只有中文、字母和数字,没有任何其他 ... -
java 怎么读取细胞词库scel
2011-10-24 14:28 3115private void sogou(String pa ... -
今天遇到一个奇怪的问题
2011-04-28 11:55 1186想实现一个用户访问页面,得到用户的外网地址 在公司上。程序是没 ... -
在myeclipse6.5下统一全部JSP编码更改
2011-04-07 14:47 1463在平时我们新建一个JSP页面默认编码是"ISO885 ...
相关推荐
网站抓取,也被称为网络爬虫或网页抓取,是一种技术手段,用于自动化地从互联网上获取大量数据。在某些情况下,我们可能需要抓取那些需要验证用户状态的网页,例如登录后才能访问的内容。此时,正确处理Cookie就显得...
Cookie是网站在用户浏览器上存储的小型数据文件,通常用于跟踪用户会话、存储用户偏好设置或者验证用户身份。这个工具是由VB.NET编程语言编写的,这意味着它利用了微软的.NET Framework,特别是Visual Basic .NET的...
在这个特定的场景中,爬虫需要处理登录过程,以便能够携带有效的COOKIE信息来访问受保护的网页,如题库数据。下面,我们将深入探讨如何实现这个功能,以及与MySQL数据库的结合。 首先,登录网站时通常需要发送一个...
Cookie抓取工具是一种用于捕获和分析网络浏览器中存储的Cookie数据的小型应用程序。在互联网交互中,Cookie是服务器发送到用户浏览器并存储的一小段文本信息,用于维持会话状态、个性化设置、追踪用户行为等多种目的...
Java网页抓取数据是互联网开发中的一个重要技能,它允许开发者从网页中提取所需的信息,如新闻、产品数据或用户评论,以供进一步分析或利用。本主题主要涵盖以下几个关键知识点: 1. **网络请求库**:在Java中,...
在抓取数据的过程中,我们还需要处理可能出现的反爬虫策略,比如验证码、IP限制、User-Agent检测等。有时,我们需要设置合适的User-Agent字符串,或者使用代理IP来绕过这些限制。 此外,为了确保爬虫的可扩展性和...
4. 显示Cookies:成功获取后,工具会显示抓取到的Cookies信息,通常包括Cookie名称、值、过期时间等关键数据。 5. 存储和使用:用户可以选择保存Cookies数据,以便后续在其他应用或测试中使用。 对于软件教程.txt,...
在实际应用中,还需要考虑反爬虫策略、错误处理、数据存储等多个方面,才能构建出高效稳定的数据抓取系统。而DnspodApp可能是一个与DNS解析或域名管理相关的应用示例,这需要根据具体代码来进一步分析其功能和实现...
在PHP开发中,有时我们需要获取一些需要用户登录后才能访问的网页内容,此时可以借助Curl库来模拟登录过程并抓取数据。Curl库是一个强大的URL处理工具,支持多种协议,包括HTTP、HTTPS等,它能让我们在PHP中发送HTTP...
在PHP开发中,有时我们需要从特定的网页抓取数据,尤其是那些需要用户登录后才能访问的页面。这种情况下,可以通过模拟登录,即“伪造登录”来实现数据抓取。本篇将详细介绍如何利用PHP的cURL库添加cookie来实现这个...
在IT领域,尤其是在Web开发中,获取登录后的cookie对于实现自动化测试、数据抓取或模拟用户行为等功能至关重要。本文将详细讲解如何使用C#编程语言结合CefSharp库来实现这一目标。 首先,C#是一种面向对象的编程...
总之,`httpclient`库提供了一种高效且灵活的方式来模拟用户登录并携带cookie访问其他网页,这对于自动化测试、数据抓取或需要保持登录状态的Web服务来说是非常有用的。正确地理解和使用这些技术,能够帮助开发者更...
在IT行业中,网络数据抓取是一项重要的技能,特别是在社交媒体分析和大数据研究中。本文将深入探讨如何使用Python等编程语言进行新浪微博评论的抓取。首先,我们要明确的是,抓取网页数据时需遵循网站的robots.txt...
在本篇文章中,我们将深入探讨如何使用Java HttpClient来抓取网页数据以及如何打包成jar文件。 **一、Java HttpClient简介** Java HttpClient 是 Apache HttpClient 库的一部分,它提供了丰富的功能,包括连接管理...
在IT领域,网络数据抓取是一项重要的技能,它允许我们从网页中提取所需的信息,用于数据分析、内容聚合或自动化任务。HttpClient和Jsoup是两个Java库,分别专注于HTTP通信和HTML解析,它们常被组合使用来高效地抓取...
4. 工具将自动抓取登录成功后的Cookie信息。 5. 使用获取到的Cookie进行淘宝API接口的调试工作。 值得注意的是,虽然淘号提取器简化了Cookie获取流程,但仍然需要遵循淘宝的开发者政策和用户协议,确保合法合规地...
淘宝网站的动态加载和反爬虫策略增加了挑战性,可能需要掌握如何处理JavaScript渲染、使用Selenium或Scrapy框架、设置User-Agent、处理Cookie等。 压缩包子文件的文件名称列表中: 1. "5120379053_设计文档.docx":...
4. **设置Cookie和Header**:根据登录页面的响应,设置Cookie和必要的Header,比如`User-Agent`,以模仿浏览器行为。 5. **发送登录请求**:执行POST请求,模拟用户提交登录表单。 6. **处理登录响应**:接收...
- 当COOKIES_ENABLED设置为True时,Scrapy会禁用默认的cookie策略,并使用用户自定义的cookies设置。 例如,用户可以在settings.py中这样设置: ```python COOKIES_ENABLED = True ``` 然后,在自定义的管道或...
这可能包括解析登录后的响应,提取cookie,然后使用这些cookie在后续请求中获取用户数据。 总结,这个Java抓包程序专注于处理需要cookie验证的网页,通过Java的网络编程能力实现HTTP请求的发送,处理cookie,抓取并...