- 浏览: 51067 次
- 性别:
- 来自: 火星
最新评论
-
pxlfxl2:
KeySeeker 写道博主问一下,刚刚我尝试了一下,我用的是 ...
伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序? -
KeySeeker:
博主问一下,刚刚我尝试了一下,我用的是httpclient包, ...
伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序? -
KeySeeker:
carlosfu 写道如果是第一种情况,怎么处理?
1.不带c ...
伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序? -
carlosfu:
如果是第一种情况,怎么处理?
1.不带cookie信息访问,快 ...
伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序? -
coeshare:
图文并茂~~谢谢哈
mongodb初体验
文章列表
Servlet 3.0之前的版本中,文件上传是个挺让人头疼的问题,虽然有第三方框架来实现,但使用也还是比较麻烦,在Servlet 3.0中,这些问题将不复存在,Servlet 3.0对文件上传提供了直接支持,配合Servlet 3.0中基于Annotations的配置,大大简化上传件的操作。今天做了个小demo,测试了写Servlet 3.0的文件上传功能。 1.写文件上传的服务端(Servlet ),将上传文件全都保存到指定配置的目录下面,转向上传文件列表的显示页面。
package com.neusoft.servlet3.demo;
import java.io ...
最近因为业务需要,要将豆瓣上的图书以及影视信息抓取下来,网页抓取其实很简单,很快就完成,但是系统还没上线就发现了问题,豆瓣会根据请求分析客户的行为,判断是否是机器人,如果判断为机器人,将要求输入验证码,最终导致抓取不到数据。
要解决这个问题,主要就两个思路,一个是识别验证码,当要求输入验证码时,识别图片中的验证码;另外一方案是伪装成正常访问,绕过豆瓣的分析程序。前一种方案受限于验证码识别率太低,很难满足需求,最终只能考虑第二种方案了。
通过分析豆瓣的分析判断机器人的实际情况,发现豆瓣是根据ip以及cookie信息统计访问频率来确定是否为“机器人”,有以下几种实际情况,1.不带cooki ...
mongodb初体验
如果要选出近两年最火的web技术的话,NOSQL必定为其中之一!鉴于业务量发展的压力,最近项目组也希望完全迁移至NOSQL,所以也关注下NOSQL的知识(之前也有关注,但只是看看介绍而已,没有深入了解) ...
与大多数ORM框架一样,iBatis2也是用Xml描述ORM映射信息(在annotations出现之前),那么这些XML配置信息是怎么解析呢?呵呵,大部分人看到这儿可能会说:这有啥难的,用DOM或者SAX解析xml都是很容易的事!确实iBatis解析xml的方法也无外乎这二者之一,不过仔细读过iBatis解析XML的源码,我发现iBatis解析xml的代码很值得我们学习……
iBatis中最重要的一个接口是SqlMapClient,首先看看在程序中是怎么样同过配置文件得到SqlMapClient对象的:
static {
try {
St ...
commons email 1.1有个Bug,当发送的邮件中有附件时,邮件正文也会以附件形式(.txt文件或者.html文件)发送,不过还好,这个Bug在1.2中得到修复,升级1.2就OK啦!
题目大意:移动公司需要对已经发放的所有139段的号码进行统计排序,已经发放的139号码段的文件都存放在一个文本文件中(原题是放在两个文件中),一个号码一行,现在需要将文件里的所有号码进行排序,并写入到一个新的文件中;号码可能会有很多,最多可能有一亿个不同的号码(所有的139段号码),存入文本文件中大概要占1.2G的空间;jvm最大的内存在300以内,程序要考虑程序的可执行性及效率;只能使用Java标准库,不得使用第三方工具。
这是个典型的大数据量的排序算法问题,首先要考虑空间问题,一下把1.2G的数据读入内存是不太可能的,就算把1一亿条数据,转都转换成int类型存储也要占接近40 ...