`
guoyiqi
  • 浏览: 1009540 次
社区版块
存档分类
最新评论

网页抓取例子

    博客分类:
  • jsp
阅读更多

<%@ page contentType="text/html;charset=gb2312"%>
<% 

String sCurrentLine; 

String sTotalString; 

sCurrentLine=""; 

sTotalString=""; 
String temp="";
java.io.InputStream l_urlStream; 


for(int i=14;i<=22;i++){


java.net.URL l_url = new java.net.URL

("http://www.dltcedu.org/index_5/html/994"+i+".shtml"); 

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection)

l_url.openConnection(); 

l_connection.connect(); 

l_urlStream = l_connection.getInputStream(); 

java.io.BufferedReader l_reader = new java.io.BufferedReader(new

java.io.InputStreamReader(l_urlStream)); 

int start=-1;
while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("<div style=\"overflow:hidden"))!=-1){
temp=sCurrentLine.substring(start,sCurrentLine.length());
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");


break;


}
//sTotalString+=sCurrentLine; 


while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("</P></p></div>"))!=-1){

temp=sCurrentLine.substring(0,(start+14));
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");

break;

}

sTotalString+=sCurrentLine.replaceAll

("/UploadFile","http://www.dltcedu.org/UploadFile");; 


}//for
out.println(sTotalString); 

%>

 

  • oh.rar (619 Bytes)
  • 下载次数: 9
分享到:
评论

相关推荐

    .NET 网页抓取例子(天气)

    以上就是使用.NET进行网页抓取的概述,特别针对获取天气信息的例子。通过结合HTTP请求、HTML解析、数据提取和异常处理等技术,我们可以创建一个实用的天气信息抓取程序。在实际开发中,可以进一步优化代码,例如使用...

    C++网页抓取源码及例子亲测可用

    标题 "C++网页抓取源码及例子亲测可用" 提供了我们即将讨论的核心主题:使用C++语言进行网页内容的抓取。这通常涉及到网络编程和字符串处理,特别是对于解析HTML文档的部分。C++作为一门强大的系统级编程语言,能够...

    HtmlPage 爬虫 抓取网页新闻例子

    标签“爬虫 抓取新闻 网页新闻例子”进一步确认了这个示例是关于抓取网页新闻的,因此我们可以期待代码示例包括了如何定位和抓取新闻内容的具体细节。 至于压缩包内的“爬虫”文件,可能是包含整个项目源码的文件夹...

    网页爬虫,网页抓取,js加载后网页抓取,超简单。

    在标题和描述中提到的"超简单网页爬虫",主要针对的是对网页抓取技术的初级学习者,特别是那些想要理解和实践如何抓取动态加载页面的用户。 在现代网页设计中,很多数据不再一次性在HTML中呈现,而是通过JavaScript...

    android 的网页抓取

    在Android开发中,有时我们需要从网页中获取数据,比如新闻内容、图片等,这就涉及到网页抓取技术。本文将深入探讨如何使用Jsoup库来抓取网页内容,并结合Volley库进行图片的下载。 首先,Jsoup是一款强大的Java库...

    网页数据抓取源码例子

    &lt;?xml version="1.0"?&gt; &lt;!--数据库连接字符串 --&gt; ;database=Crawl;uid=sa;password=123456"/&gt; &lt;!-- 设置 compilation debug="true" 可将调试符号插入到 ...C# .Net 数据抓取 爬虫参考

    静态页面抓取工具

    在IT行业中,网页抓取是一项重要的技术,它用于自动化地从互联网上收集信息。静态页面抓取工具就是专为此目的设计的软件,它们能够高效地下载并存储网站的静态HTML内容,以便离线查看或者进一步的数据分析。本篇文章...

    c# 网页抓取工具

    【C# 网页抓取工具】 C#是一种广泛应用于开发桌面应用、Web应用以及游戏的编程语言,由微软公司推出,它以其强大的功能和易读性深受开发者喜爱。在C#中实现网页抓取,可以让我们从互联网上获取大量信息,用于数据...

    Android网页抓取jar包

    **Android网页抓取——jsoup详解** 在移动应用开发中,有时我们需要从网页上获取特定信息,例如新闻标题、评论内容等。这时,我们可以利用Java的库——jsoup,来进行网页抓取。jsoup是一个非常强大的HTML解析库,它...

    网页动态抓取

    "具体demo"可能是提供了一个实际的例子或教程,展示如何使用上述工具和技术进行网页动态抓取。通常,一个完整的示例会包括以下步骤: 1. 安装必要的库和工具,如Selenium、BeautifulSoup、Jsoup和`python-docx`。 2....

    Python实现抓取HTML网页并以PDF文件形式保存的方法

    今天介绍将HTML网页抓取下来,然后以PDF保存,废话不多说直接进入教程。 今天的例子以廖雪峰老师的Python教程网站为例:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 二、...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    htmlparser实现从网页上抓取数据(+例子)

    本教程将通过实例来讲解如何使用HTMLParser从网页上抓取数据,并简要提及Java解析XML的方法。 首先,我们需要了解HTMLParser的基本工作原理。HTMLParser遵循事件驱动的模型,它会逐行读取HTML源代码,遇到特定的...

    jsoup 网页信息 抓取 选择器

    网页抓取,也称为网络爬虫或网页抓取,是一种技术,用于自动化地从互联网上获取大量信息。jsoup特别适用于小型到中等规模的网页抓取任务,它能够高效地解析HTML,从而提取出我们需要的数据,如新闻标题、内容、作者...

    delphi抓取网页信息例子【附源码哟】

    这是由delphi xe10.1写的,里面都是中文变量,应该很容易看懂 我也是新手,在网上试着教程做,终于看懂了,于是自己简化和修改,让新的菜鸟们更容易上手理解。...内附程序演示以及源码分享,还有原始网页信息看代码

    java利用htmlparser抓取网页数据

    Java作为一种广泛应用的编程语言,提供了多种库来实现网页抓取。本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库,专门用于解析HTML文档,提取其中的数据。它的设计目标是...

    java抓取网页数据实现

    网页抓取,也称为网络爬虫或网页刮取,是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到服务器,接收响应的HTML文档,然后解析文档以提取所需的数据。 在Java中,我们可以使用`java.net....

    网页抓取图片

    网页抓取图片是一种常见的技术,尤其在数据挖掘、网站备份或者数据分析等领域中有着广泛的应用。在C#编程环境中,我们可以利用各种库和方法来实现这一功能。本篇将详细讲解如何利用C#进行网页抓取并将其转换为图片。...

Global site tag (gtag.js) - Google Analytics