java的正则匹配网站(Spider) - dimple - ITeye博客

`

dimple

浏览: 95658 次
性别:
来自: 辽宁

最近访客更多访客>>

771280258

fredjie

pfjia

孔已己

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

docong：既不分段，也没有合适的标点符号，这种文章就设为隐身的比较好。
Apache重起的最好方法apachectl graceful

java的正则匹配网站(Spider)

阅读更多

import java.io.IOException;
import java.util.regex.*;

public class Testspider {
    public static void main(String args[]) throws IOException{
        String regex = "src=\"(/\\w{1,6}_\\w{1,5}/\\w{1,6}/\\d\\.\\w{1,3})\"/>";
//        例如:匹配         src="/games_html/images/1.gif"
        String webAddress = "http://www.shua123.com";
        String sCurrentLine;

        String sTotalString;

        sCurrentLine="";

        sTotalString="";

        java.io.InputStream l_urlStream;

        java.net.URL l_url = new java.net.URL(webAddress);

        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();

        l_connection.connect();

        l_urlStream = l_connection.getInputStream();

        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));

        while ((sCurrentLine = l_reader.readLine()) != null)

        {

        sTotalString+=sCurrentLine;

        }
        Pattern p = Pattern.compile(regex);
        Matcher m = p.matcher(sTotalString);
        while (m.find()){
            System.out.println(webAddress + m.group(1));
        }
    }

打印出:

http://www.shua123.com/games_html/images/1.gif
http://www.shua123.com/games_html/images/2.gif
http://www.shua123.com/games_html/images/3.gif
http://www.shua123.com/games_html/images/4.gif
http://www.shua123.com/games_html/images/5.gif
http://www.shua123.com/games_html/images/6.gif
http://www.shua123.com/games_html/images/7.gif
http://www.shua123.com/games_html/images/8.gif
http://www.shua123.com/games_html/images/9.gif

分享到：

控制随机率的精简算法 | 正则表达式中的特殊字符

2006-12-06 01:09
浏览 1752
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spider-Java正则表达式的学习: 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。简单来说，正则表达式就是一个很牛逼的字符串处理工具。正则表达式中有()表示分组,...

正则表达式: 最后，本书也提到了一些常见品牌的商标，例如Sun Microsystems的Java™商标、Microsoft的Internet Explorer和.NET商标、Marvel Enterprises的Spider-Man商标等。这些商标在本书中被提及，主要是为了说明在实际使用中...

Java Spider: Java库如Jsoup可以方便地解析HTML，而正则表达式则常用于匹配和提取特定格式的数据。 4. **接口设计**：描述中提到"带一个操作接口"，这意味着Java Spider可能提供了一个API供其他系统或应用调用，进行定制化的数据...

用java写的crawler（spider）网络爬虫源代码: ### Java编写的网络爬虫(Crawler/Spider)关键知识点解析 #### 一、网络爬虫(Crawler/Spider)概述网络爬虫（Web Crawler），也称为网页蜘蛛、网络机器人等，是一种按照一定的规则自动抓取万维网信息的程序或者脚本...

java搜索引擎（web spider）: - **正则表达式**：匹配URL，筛选出有效链接。 - **DOM解析**：通过DOM树结构找到链接元素。 - **robots.txt**：遵循网站爬虫指南，尊重网站隐私。 7. **反反爬策略** - **User-Agent**：模拟不同浏览器发送...

WebSpider蓝蜘蛛网页取: 这通常涉及URL匹配、CSS选择器、正则表达式等技术，以精确地定位所需信息。 2. **深度抓取**：工具支持深度优先或广度优先的爬取策略，能按照设定的层级深入网站抓取数据，实现全站或部分页面的抓取。 3. **动态...

Spider.zip: 本项目"Spider.zip"显然是一个关于使用Java进行网络爬虫开发的示例。网络爬虫是自动抓取网页内容的程序，常用于数据分析、搜索引擎索引以及信息监控等场景。在这个项目中，我们将会探讨如何使用Java的URL类来获取...

WebSpider蓝蜘蛛网页抓取 v5.1-webspider.zip: 【WebSpider蓝蜘蛛网页抓取 v5.1】是一款基于Java技术开发的高效网页抓取工具，主要用于自动化地从互联网上搜集和处理信息。这款软件以其强大的数据抓取能力和灵活性，广泛应用于数据分析、搜索引擎优化、市场研究等...

抓取网页中的邮箱地址: 本篇将详细讲解如何使用Java编程语言结合正则表达式来实现这个功能。首先，我们需要理解正则表达式（Regular Expression），它是一种强大的文本处理工具，可以用来匹配、查找、替换符合特定模式的字符串。在Java中...

jsp源码其他类别WebSpider蓝蜘蛛网页抓取v5.1-webspider: 解决方法包括更新解析规则、使用更灵活的解析方式（如正则表达式匹配）等。 - **问题3：频繁被封IP** 针对这种情况可以采取更换IP地址、设置合理的请求间隔时间、使用代理服务器等多种手段来规避风险。 #### 知识...

WHUT_Spider.zip_spider: 3. **正则表达式或解析库**：如BeautifulSoup、PyQuery等，用于高效地匹配和提取数据。 4. **数据存储**：如何将抓取到的数据存储到数据库或文件系统中。 5. **IP代理和用户代理**：用于避免被目标网站封锁，模拟...

Java网络爬虫简单实现: 2. **FunctionUtils.java** —— 提供了一系列静态工具方法，用于处理页面链接的正则表达式匹配、URL规范化、文件创建等。 3. **HrefOfPage.java** —— 用于提取页面中的链接信息。 4. **UrlDataHandling.java** ...

爬虫程序开发指南(java): - **网页存储或处理**：解析HTML并按需求存储或处理数据，可能涉及DOM解析、正则表达式匹配等技术。 - **运行期监控**：编写监控代码，收集和分析爬虫的运行数据。 5. **程序实例** 文档中提供了具体的代码示例...

JAVA 爬行BOT: - 利用正则表达式`Pattern.compile("\\w+")`匹配所有的单词。 - 遍历匹配结果，并对每个单词进行进一步处理： - 去除HTML标签； - 转换为小写； - 检查该单词是否已经存在于数据库中，如果存在，则获取其ID。 ``...

java_zhizhu.rar_java LinkFilter_抓取网页_蜘蛛_蜘蛛程序: 这个过程可能涉及到字符串处理、正则表达式匹配等技术。 5. **数据存储**：提取出来的信息通常需要存储起来，以便后续分析或展示。Java提供了多种数据存储方式，如文件系统、数据库（JDBC）、NoSQL数据库（如...

网络爬虫简易代码: - `java.util.regex`包用于处理正则表达式。 ##### 3.2 定义类与主方法 ```java public class WebSpider { public static void main(String[] args) { // 主方法实现 } } ``` - 类名为`WebSpider`。 - `main`...

基于Python的网站爬虫代码源码.zip: 从文章中的某一个页面，爬取其页面的a标签，用正则匹配将所有爬取的页面中符合http://www.liuchuo.net/articles/ 形式的链接提取为待爬取的URL，将文章页面的标题h1标签和时间time标签分别存储在data字典的title和...

itsucks-0.4.1.zip: 同时，正则表达式的使用允许用户精确匹配并提取所需内容，提高了抓取的精准度。 2. **Swing GUI**：提供了一个用户友好的图形界面，使得非程序员也能操作和监控爬虫的运行状态。用户可以在这个界面上设置爬取任务、...

基于python实现的各种小爬虫-PythonSpider.zip: 4. **正则表达式**：虽然解析库能处理大部分网页结构，但有时需要使用正则表达式进行更复杂的文本匹配和提取。Python的re模块提供了正则表达式操作功能。 5. **异步爬虫**：如果需要抓取大量网页，同步爬虫可能效率...

Java 从互联网上爬邮箱代码示例: 在Java中实现这个功能，我们可以利用基础的I/O流和正则表达式来匹配网页中的电子邮件地址。以下将详细介绍提供的代码示例以及相关的Java爬虫知识。首先，我们看到一个名为`SpiderDemo`的类，它包含了主函数`main`...

Global site tag (gtag.js) - Google Analytics