- 浏览: 2262785 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (423)
- FileNet相关 (3)
- 应用服务器相关 (22)
- Java综合 (77)
- 持久层 (24)
- struts (11)
- webservice (8)
- 虚拟机 (2)
- 光盘刻录 (0)
- AD及AD集群 (1)
- JS (33)
- F5 (0)
- loadrunner8.1 (0)
- Java 反编译工具 (2)
- DataBase (62)
- ant (1)
- 操作系统 (29)
- 我的任务 (3)
- 平台架构 (16)
- 业务规则引擎 (2)
- 模板 (1)
- EJB (5)
- spring (24)
- CMMI (1)
- 项目管理 (20)
- LDAP (13)
- JMS (10)
- JSP (19)
- JBPM (2)
- web MVC框架设计思想 (2)
- 第三方支付平台 (2)
- BUG管理工具 (1)
- 垃圾站 (2)
- php (1)
- swing (1)
- 书籍 (1)
- QQ qq (2)
- 移动互联网 (26)
- 爱听的歌曲 (0)
- hadoop (4)
- 数据库 (9)
- 设计模式 (1)
- 面试经验只谈 (1)
- 大数据 (9)
- sp (1)
- 缓存数据库 (8)
- storm (2)
- taobao (2)
- 分布式,高并发,大型互联网,负载均衡 (6)
- Apache Ignite (0)
- Docker & K8S (0)
最新评论
-
wangyudong:
新版本 Wisdom RESTClienthttps://gi ...
spring rest mvc使用RestTemplate调用 -
wangyudong:
很多API doc生成工具生成API文档需要引入第三方依赖,重 ...
spring rest mvc使用RestTemplate调用 -
zhaoshijie:
cfying 写道大侠,还是加载了两次,怎么解决啊?求。QQ: ...
spring容器加载完毕做一件事情(利用ContextRefreshedEvent事件) -
xinglianxlxl:
对我有用,非常感谢
spring容器加载完毕做一件事情(利用ContextRefreshedEvent事件) -
k_caesar:
多谢,学习了
利用maven的resources、filter和profile实现不同环境使用不同配置文件
关键字:网页爬虫抓取URL简单实现 .
//开始......
package com.ogilvy.sayes.util;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.Hashtable;
/*
Description: 爬网页用
Author : long.tang
*/
public class SearchCrawler {
public String myGetHttpFile2(String url) {
String urlSource = url;
StringBuffer htmlBuffer = new StringBuffer();
String returnStr = null;
try {
InputStream imageSource = new URL(urlSource).openStream();
int ch;
while ((ch = imageSource.read()) > -1) {
htmlBuffer.append((char) ch);
}
imageSource.close();
returnStr = new String(htmlBuffer);
returnStr = new String(returnStr.getBytes("ISO8859_1"), "GBK");
} catch (Exception e) {
System.out.println("error>>>>");
e.printStackTrace();
}
//System.out.println("@@@:" + returnStr);
if (returnStr != null) {
return returnStr;
} else {
return "nothing";
}
}
public void doit(String content, int depth) throws Exception {
depth--;
if (depth < 1) {
//System.out.println("break::::");
return;
}
SearchCrawler search = new SearchCrawler();
ArrayList list = new ArrayList();
int j = 0;
String start = "href=";
String end = "\"";
String url = "";
String type = "http";
String[] urls;
while (content.indexOf(start, j) > -1) {
url = content.substring(content.indexOf(start, j) + 6, content.indexOf(end, content.indexOf(start, j) + 6));//+6 href="
if (url.indexOf(type) > -1) {
if (url.indexOf(".css") == -1&&url.indexOf(".ico") == -1&&url.indexOf(".exe") == -1) {
System.out.println(url);
list.add(url);
if (list != null && list.size() > 0) {
for (int k = 0; k < list.size(); k++) {
doit(search.myGetHttpFile2(String.valueOf(list.get(k))), depth);
}
}
}
}
j = content.indexOf(start, j) + 1;
}
}
public static void main(String arg[]) {
SearchCrawler search = new SearchCrawler();
try {
search.doit(search.myGetHttpFile2("http://www.2345.com/"),3);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
//结束.....
发表评论
-
Dubbo Main启动方式浅析
2015-05-27 13:54 15456关键字:Dubbo Main启动方式浅析 服务容器是一个s ... -
淘宝可伸缩高性能互联网架构--整体架构介绍
2015-05-14 13:21 12681推荐综合架构交流群:JAVA开发高级群 点击入群!!! 关键 ... -
各大巨头电商提供的IP库API接口-新浪、搜狐、阿里...
2015-04-22 13:18 15913关键字:各大巨头电商提供的IP库API接口-新浪、搜狐、阿里. ... -
用Java来获取访问者真实的IP地址-超准确
2015-04-22 12:55 6259关键字:用Java来获取访问者真实的IP地址-超准确 下面分享 ... -
Shiro集成OAuth2
2015-04-21 10:31 12447关键字:Shiro集成OAuth2 参考:http://jin ... -
淘宝网架构分享总结 - 架构,分布式,淘宝,虚拟化,水平伸缩
2015-04-19 00:25 7638推荐综合架构交流群:JAVA开发高级群 点击入群!!! 关键 ... -
高可用、开源的Redis缓存集群方案
2015-04-16 12:25 3758推荐综合架构交流群:J ... -
Zookeeper 和 SASL
2015-04-16 09:29 13641关键字:Zookeeper 和 SASL 介绍 这是一个描述Z ... -
各种Nosql数据库系统对比及应用场景分析
2015-04-15 16:29 758关键字:各种Nosql数据库系统对比及应用场景分析 导读:Kr ... -
Curator-Framework开源Zookeeper快速开发框架介绍
2015-04-14 18:41 705关键字:Curator-Framework开源Zookeepe ... -
IM消息推送之Openfire
2015-04-13 13:40 2218关键字:IM消息推送之Openfire Openfire 采用 ... -
Nio框架之Mina的demo
2015-04-12 13:38 647关键字:Nio框架之Mina的demo 官网:http://m ... -
Zookeeper中ACL(访问控制列表)
2015-04-10 17:21 2828关键字:Zookeeper中ACL( ... -
Mongodb命令大全
2015-03-18 11:18 805关键字:Mongodb命令大全 他支持的数据结构非常松散,是类 ... -
安装ZooKeeper(单机、伪集群、集群)
2015-01-15 11:02 10473关键字:安装ZooKeeper(单机、伪集群、集群) 推荐 ... -
Zookeeper Api(java)入门详解与应用场景
2015-01-14 14:36 1657关键字:Zookeeper Api(java)入门详解与应用场 ... -
特大型网站技术架构
2014-10-20 17:34 4121特大型网站技术架构 ... -
OAuth2.0的Java实现 Apache Amber
2014-10-09 23:20 800关键字:OAuth2.0的Java实现 Apache Ambe ... -
图片服务器部署与缓存(淘宝)
2014-10-08 21:40 1234关键字:图片服务器部署与缓存(淘宝) http://stor ... -
淘宝网络架构
2014-09-16 21:38 1069http://image.baidu.com/i?ct=503 ...
相关推荐
在实际的网络爬虫项目中,可能还需要处理反爬虫策略(如User-Agent、验证码)、异步抓取(多线程或异步IO)、数据清洗和预处理,以及持久化爬虫状态(如已抓取URL的存储)。此外,为了不违反网站的robots.txt协议和...
对于新手来说,掌握Java爬虫抓取图片的基本步骤和技巧是十分有益的。 首先,我们需要了解HTTP协议,它是网络上数据传输的基础。在抓取图片时,我们要学会如何通过HTTP GET请求获取图片的URL,这通常涉及到对HTML...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
"Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...
总结一下,Python爬虫抓取页面图片涉及的知识点有: 1. `requests`库的使用,包括发起HTTP请求和获取响应。 2. HTML解析,如使用`BeautifulSoup`库查找图片链接。 3. 图片URL到绝对路径的转换。 4. 使用`requests`...
在Python编程领域,爬虫是一种常见的...以上就是使用Python进行网页爬虫的基本流程和关键知识点,实际应用中可能需要根据目标网站的具体结构进行调整。记得在操作前检查相关法律法规,尊重网站权益,合理使用爬虫技术。
- **pandas**:一个强大的数据分析和处理库,支持多种数据格式的读写操作,如CSV、Excel等,非常适合用于爬虫抓取的数据整理和分析。 - **SQLAlchemy**:一个SQL工具包和ORM,它提供了完整的SQL语义,支持多种关系型...
### Python爬虫抓取网页数据开发教程 #### 一、引言 随着互联网的发展,网页上的数据变得越来越有价值。为了能够高效地从网络上获取这些数据,Python爬虫技术应运而生。Python语言因其简单易学且功能强大的特点,...
5. **深度限制**:设定爬虫抓取的深度,避免无限制地遍历网页。这可以通过维护一个表示层级的变量来实现,每访问一个新链接,层级加一,超过设定值则停止。 6. **异步处理**:为了提高效率,可以考虑使用多线程或...
爬虫负责抓取互联网上的网页,索引器则将抓取的数据进行结构化处理,创建便于搜索的索引,而检索系统则根据用户的查询从索引中快速找出相关的网页。 在这个"搜索引擎大揭密"中,我们将关注如何用Java实现互联网内容...
这款"简易网页爬虫 V1.0 绿色免费版"软件提供了对网页链接的分析功能,使得用户无需编程知识即可进行基础的数据抓取。 爬虫的基本工作原理是模拟人类浏览器的行为,通过HTTP或HTTPS协议与服务器进行交互,发送请求...
本示例将探讨如何利用Python实现一个简单的网页爬虫,主要涉及的技术包括BeautifulSoup(bs4库)和requests库。 首先,requests库是Python中用于发送HTTP请求的重要工具。通过这个库,我们可以方便地向指定的URL...
在本文中,我们将深入探讨如何使用C# Winform来实现百度网页内容的抓取。Winform是.NET Framework中用于创建桌面应用程序的一种用户界面框架,而内容抓取则是从网络上提取所需信息的一种技术。 首先,我们需要理解...
通过以上步骤,你就可以使用WebMagic完成一个简单的Java爬虫,实现网页数据抓取并导出到Excel文件的功能。记得在实际使用中,根据目标网站的结构和需求调整PageProcessor的解析逻辑,以及Pipeline的数据处理方式。...
在本文中,我们将深入探讨如何使用Go语言(Golang)原生库来实现一个简单的网络爬虫。Go语言因其高效、简洁的语法和强大的并发能力,成为开发爬虫的热门选择。我们将通过一个具体的代码实例来阐述这个过程。 首先,...
静态网页爬虫,顾名思义,是专门针对不涉及动态交互、服务器端生成内容的网页进行数据抓取的工具。本项目是一个用Java编写的静态网页爬虫框架,特别适合初学者入门实践。 **Java 爬虫基础** Java作为一门面向对象...
以下是一个简单的C++网页抓取程序的概述: 1. 引入必要的库: ```cpp #include #include #include ``` 2. 使用libcurl发送HTTP GET请求: ```cpp CURL *curl; CURLcode res; curl_global_init(CURL_...