网页抓取例子 - guoyiqi - ITeye博客

`

guoyiqi

浏览: 1023198 次

最近访客更多访客>>

wry3407

zzc125

bingjava

秋天你慢慢来

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

18335864773：很多公司项目都在使用pageoffice 来操作word，e ...
用java生成word文档
Gozs_cs_dn：请问下博主, 怎样将sitemesh3.xsd绑定 sitem ...
SiteMesh3配置
Rose_06：
springside4.0quick-start.bat报错原因
ilemma：我也是刚参见工作啊,经理让自学这个,有些东西不太懂,能不能发个 ...
Apache Shiro在Web中的应用
shanbangyou：你废了
程序员上班打酱油的方法

网页抓取例子

博客分类：

jsp

阅读更多

<%@ page contentType="text/html;charset=gb2312"%>
<%

String sCurrentLine;

String sTotalString;

sCurrentLine="";

sTotalString="";
String temp="";
java.io.InputStream l_urlStream;

for(int i=14;i<=22;i++){

java.net.URL l_url = new java.net.URL

("http://www.dltcedu.org/index_5/html/994"+i+".shtml");

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection)

l_url.openConnection();

l_connection.connect();

l_urlStream = l_connection.getInputStream();

java.io.BufferedReader l_reader = new java.io.BufferedReader(new

java.io.InputStreamReader(l_urlStream));

int start=-1;
while ((sCurrentLine = l_reader.readLine()) != null)

{
if((start=sCurrentLine.indexOf("<div style=\"overflow:hidden"))!=-1){
temp=sCurrentLine.substring(start,sCurrentLine.length());
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");

break;

}
//sTotalString+=sCurrentLine;

}
while ((sCurrentLine = l_reader.readLine()) != null)

{
if((start=sCurrentLine.indexOf("</P></p></div>"))!=-1){

temp=sCurrentLine.substring(0,(start+14));
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");

break;

}

sTotalString+=sCurrentLine.replaceAll

("/UploadFile","http://www.dltcedu.org/UploadFile");;

}

}//for
out.println(sTotalString);

%>

oh.rar (619 Bytes)
下载次数: 9

分享到：

转：gbk, gb2312,big5,unicode,utf-8,utf-1 ... | 代码控管工具比较

2010-08-12 15:38
浏览 789
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

.NET 网页抓取例子（天气）: 以上就是使用.NET进行网页抓取的概述，特别针对获取天气信息的例子。通过结合HTTP请求、HTML解析、数据提取和异常处理等技术，我们可以创建一个实用的天气信息抓取程序。在实际开发中，可以进一步优化代码，例如使用...

C++网页抓取源码及例子亲测可用: 标题 "C++网页抓取源码及例子亲测可用" 提供了我们即将讨论的核心主题：使用C++语言进行网页内容的抓取。这通常涉及到网络编程和字符串处理，特别是对于解析HTML文档的部分。C++作为一门强大的系统级编程语言，能够...

HtmlPage 爬虫抓取网页新闻例子: 标签“爬虫抓取新闻网页新闻例子”进一步确认了这个示例是关于抓取网页新闻的，因此我们可以期待代码示例包括了如何定位和抓取新闻内容的具体细节。至于压缩包内的“爬虫”文件，可能是包含整个项目源码的文件夹...

网页爬虫，网页抓取，js加载后网页抓取，超简单。: 在标题和描述中提到的"超简单网页爬虫"，主要针对的是对网页抓取技术的初级学习者，特别是那些想要理解和实践如何抓取动态加载页面的用户。在现代网页设计中，很多数据不再一次性在HTML中呈现，而是通过JavaScript...

android 的网页抓取: 在Android开发中，有时我们需要从网页中获取数据，比如新闻内容、图片等，这就涉及到网页抓取技术。本文将深入探讨如何使用Jsoup库来抓取网页内容，并结合Volley库进行图片的下载。首先，Jsoup是一款强大的Java库...

网页数据抓取源码例子: <?xml version="1.0"?>  ;database=Crawl;uid=sa;password=123456"/> <!-- 设置 compilation debug="true" 可将调试符号插入到 ...C# .Net 数据抓取爬虫参考

静态页面抓取工具: 在IT行业中，网页抓取是一项重要的技术，它用于自动化地从互联网上收集信息。静态页面抓取工具就是专为此目的设计的软件，它们能够高效地下载并存储网站的静态HTML内容，以便离线查看或者进一步的数据分析。本篇文章...

c# 网页抓取工具: 【C# 网页抓取工具】 C#是一种广泛应用于开发桌面应用、Web应用以及游戏的编程语言，由微软公司推出，它以其强大的功能和易读性深受开发者喜爱。在C#中实现网页抓取，可以让我们从互联网上获取大量信息，用于数据...

Android网页抓取jar包: **Android网页抓取——jsoup详解** 在移动应用开发中，有时我们需要从网页上获取特定信息，例如新闻标题、评论内容等。这时，我们可以利用Java的库——jsoup，来进行网页抓取。jsoup是一个非常强大的HTML解析库，它...

网页动态抓取: "具体demo"可能是提供了一个实际的例子或教程，展示如何使用上述工具和技术进行网页动态抓取。通常，一个完整的示例会包括以下步骤： 1. 安装必要的库和工具，如Selenium、BeautifulSoup、Jsoup和`python-docx`。 2....

Python实现抓取HTML网页并以PDF文件形式保存的方法: 今天介绍将HTML网页抓取下来，然后以PDF保存，废话不多说直接进入教程。今天的例子以廖雪峰老师的Python教程网站为例：http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 二、...

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

htmlparser实现从网页上抓取数据（+例子）: 本教程将通过实例来讲解如何使用HTMLParser从网页上抓取数据，并简要提及Java解析XML的方法。首先，我们需要了解HTMLParser的基本工作原理。HTMLParser遵循事件驱动的模型，它会逐行读取HTML源代码，遇到特定的...

jsoup 网页信息抓取选择器: 网页抓取，也称为网络爬虫或网页抓取，是一种技术，用于自动化地从互联网上获取大量信息。jsoup特别适用于小型到中等规模的网页抓取任务，它能够高效地解析HTML，从而提取出我们需要的数据，如新闻标题、内容、作者...

delphi抓取网页信息例子【附源码哟】: 这是由delphi xe10.1写的，里面都是中文变量，应该很容易看懂我也是新手，在网上试着教程做，终于看懂了，于是自己简化和修改，让新的菜鸟们更容易上手理解。...内附程序演示以及源码分享，还有原始网页信息看代码

java利用htmlparser抓取网页数据: Java作为一种广泛应用的编程语言，提供了多种库来实现网页抓取。本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库，专门用于解析HTML文档，提取其中的数据。它的设计目标是...

java抓取网页数据实现: 网页抓取，也称为网络爬虫或网页刮取，是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到服务器，接收响应的HTML文档，然后解析文档以提取所需的数据。在Java中，我们可以使用`java.net....

网页抓取图片: 网页抓取图片是一种常见的技术，尤其在数据挖掘、网站备份或者数据分析等领域中有着广泛的应用。在C#编程环境中，我们可以利用各种库和方法来实现这一功能。本篇将详细讲解如何利用C#进行网页抓取并将其转换为图片。...

Global site tag (gtag.js) - Google Analytics