`
ssxxjjii
  • 浏览: 944861 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

java 正则表达式 抓取网页中的新闻

阅读更多

  1. package rssTest;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.IOException;  
  5. import java.io.InputStreamReader;  
  6. import java.net.HttpURLConnection;  
  7. import java.net.MalformedURLException;  
  8. import java.net.URL;  
  9. import java.net.URLConnection;  
  10. import java.util.ArrayList;  
  11. import java.util.List;  
  12. import java.util.regex.Matcher;  
  13. import java.util.regex.Pattern;  
  14.   
  15. /** 
  16.  * @author Der 
  17.  * @date   05-01 
  18.  * @E-mail uidin@163.com 
  19.  * */  
  20. public class MyRSS  
  21. {  
  22.     /** 
  23.      * 获取搜索结果的html源码 
  24.      * */  
  25.     public static String getHtmlSource(String url)  
  26.     {  
  27.           
  28.         StringBuffer codeBuffer = null;  
  29.         BufferedReader in=null;  
  30.         try  
  31.         {  
  32.             URLConnection uc = new URL(url).openConnection();  
  33.   
  34.             /** 
  35.              * 为了限制客户端不通过网页直接读取网页内容,就限制只能从浏览器提交请求. 
  36.              * 但是我们可以通过修改http头的User-Agent来伪装,这个代码就是这个作用 
  37.              *  
  38.              */  
  39.             uc.setRequestProperty("User-Agent",  
  40.                     "Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");  
  41.   
  42.             // 读取url流内容  
  43.             in = new BufferedReader(new InputStreamReader(uc  
  44.                     .getInputStream(), "gb2312"));  
  45.             codeBuffer = new StringBuffer();  
  46.             String tempCode = "";  
  47.             // 把buffer内的值读取出来,保存到code中  
  48.             while ((tempCode = in.readLine()) != null)  
  49.             {  
  50.                 codeBuffer.append(tempCode).append("\n");  
  51.             }  
  52.             in.close();  
  53.         }  
  54.         catch (MalformedURLException e)  
  55.         {  
  56.             e.printStackTrace();  
  57.         }  
  58.         catch (IOException e)  
  59.         {  
  60.             e.printStackTrace();  
  61.         }  
  62.           
  63.         return codeBuffer.toString();  
  64.     }  
  65.   
  66.     /** 
  67.      * 正则表达式 
  68.      * */  
  69.     public static String regex()  
  70.     {  
  71.         String googleRegex = "<div class=g>(.*?)href=\"(.*?)\"(.*?)\">(.*?)</a>(.*?)<div class=std>(.*?)<br>";  
  72.         return googleRegex;  
  73.     }  
  74.   
  75.     /** 
  76.      * 测试用 
  77.      * 在google中检索关键字,并抽取自己想要的内容 
  78.      *  
  79.      * */  
  80.     public static List<String> GetNews()  
  81.     {  
  82.         List<String> newsList = new ArrayList<String>();  
  83.         String allHtmlSource = MyRSS  
  84.                 .getHtmlSource("http://www.google.cn/search?complete=1&hl=zh-CN&newwindow=1&client=aff-os-maxthon&hs=SUZ&q=%E8%A7%81%E9%BE%99%E5%8D%B8%E7%94%B2&meta=&aq=f");  
  85.         Pattern pattern = Pattern.compile(regex());  
  86.         Matcher matcher = pattern.matcher(allHtmlSource);  
  87.   
  88.         while (matcher.find())  
  89.         {  
  90.             String urlLink = matcher.group(2);  
  91.             String title = matcher.group(4);  
  92.             title = title.replaceAll("<font color=CC0033>""");  
  93.             title = title.replaceAll("</font>""");  
  94.             title = title.replaceAll("<b>...</b>""");  
  95.   
  96.             String content = matcher.group(6);  
  97.             content = content.replaceAll("<font color=CC0033>""");  
  98.             content = content.replaceAll("</font>""");  
  99.             content = content.replaceAll("<b>...</b>""");  
  100.   
  101.             newsList.add(urlLink);  
  102.             newsList.add(title);  
  103.             newsList.add(content);  
  104.         }  
  105.         return newsList;  
  106.     }  
  107.   
  108.     /** 
  109.      * main方法 
  110.      * */  
  111.     public static void main(String[] args)  
  112.     {  
  113.         System.out  
  114.         .println(MyRSS  
  115.                 .getHtmlSource("http://main.house.sina.com.cn/news/zckb/index.html"));  
  116.     }  
  117. }  

分享到:
评论

相关推荐

    使用正则表达式抓取页面Email

    在IT行业中,正则表达式...总之,利用正则表达式抓取网页中的电子邮件地址是一项常见的任务,它需要结合对正则表达式、HTML解析以及网络请求的理解。在实际操作中,应根据具体需求进行调整,确保抓取的效率和准确性。

    用正则表达式提取SQL

    标题“用正则表达式提取SQL”涉及到的是在编程中如何使用正则表达式来从文本或代码中抓取SQL语句的相关知识。在IT领域,正则表达式(Regular Expression)是一种强大的文本处理工具,它能快速地匹配、查找、替换或者...

    正则表达式.rar

    本资料压缩包包含了一系列关于Java正则表达式的视频教程,旨在帮助用户深入理解和熟练运用这一技术。 1. **正则表达式简介** - 正则表达式(Regular Expression)是由特殊字符和普通字符组成的模式,用于描述一...

    java正则表达式匹配网页所有网址和链接文字的示例

    在Java编程中,正则表达式是处理文本模式匹配的强大工具,尤其在处理网页内容时,如提取网址和链接文字。这个示例展示了如何使用Java的正则表达式来匹配网页中的所有网址和链接文字。下面将详细讲解相关知识点。 1....

    精通正则表达式中文版英文版_中文版为扫描版

    正则表达式不仅用于简单的查找和替换,还能在数据验证(如电子邮件地址或电话号码格式检查)、文本分析、网页抓取等场景中发挥巨大作用。通过学习《精通正则表达式》,读者将能够编写更高效、更精确的正则表达式,...

    网页抓取 正则表达式 前台处理json对象

    综上所述,这个项目可能涉及到使用网页抓取技术获取网页数据,然后利用正则表达式清洗和解析数据。在前端部分,可能通过AJAX请求获取后端服务的JSON数据,并在页面上进行实时更新和展示。如果涉及到跨域问题,可能...

    正则表达式的妙用

    这展示了一个具体的例子,即如何利用正则表达式解析网页内容,抓取隐藏在HTML代码中的特定信息。 正则表达式的核心在于其模式匹配能力。它由一系列字符、特殊符号和操作符组成,可以匹配各种复杂的数据格式。例如,...

    精通正则表达式(第三版)简体中文版

    - **Java中的正则表达式**:Java提供了java.util.regex包来支持正则表达式的使用。 - **JavaScript中的正则表达式**:JavaScript的正则表达式对象提供了丰富的功能,包括全局匹配、忽略大小写等选项。 - **.NET框架...

    精通正则表达式电子书

    - **Java的深入探讨**:更新了全书内容,特别是增加了对Sun公司的java.util.regex包的深入探讨,这是Java中标准的正则表达式实现。 - **不同版本之间的比较**:书中还包含了对不同语言和工具版本中的正则表达式特性...

    JAVA正则表达式小程序

    本项目"JAVA正则表达式小程序"利用Java语言结合正则表达式,实现了从网页中抓取特定内容并存储为CSV(Comma-Separated Values)文件的功能。下面我们将深入探讨Java中的正则表达式以及如何与CSV文件操作相结合。 1....

    正则表达式在网页处理中的应用[借鉴].pdf

    正则表达式是一种强大的文本处理工具,常用于网页处理中,包括数据验证、内容提取等任务。在软件网络技术领域,正则表达式是程序员必备的技能之一。 首先,正则表达式允许开发者以一种简洁的方式描述字符串模式,...

    正则表达式测试工具

    "RegexTester.exe"很可能是一款正则表达式测试软件,用户可以通过它输入自定义的正则表达式,并在提供的文本输入区域中测试这个表达式是否能正确匹配目标字符串。这类工具通常具有以下功能: 1. **实时匹配反馈**:...

    达内JAVA的正则表达式

    提供的`RegexTester.exe`可能是一个用于测试和调试Java正则表达式的工具,它可以帮助开发者直观地看到正则表达式的匹配效果,理解正则表达式的运作方式。 总之,Java中的正则表达式是编程中不可或缺的一部分,掌握...

    正则表达式_正则表达式_正则_

    5. **正则表达式在编程语言中的应用** - Python的`re`模块提供了丰富的正则操作功能。 - JavaScript的`String.prototype.match()`、`String.prototype.replace()`等方法也支持正则表达式。 - Java中的`java.util....

    Java正则表达式入门 + HTMLParser使用详解.ppt

    Java正则表达式是编程语言Java中用于处理字符串的强大工具,尤其在文本处理、数据验证和数据提取等方面具有广泛的应用。正则表达式通过一种特殊的语法来定义模式,可以匹配、查找、替换和验证字符串中的特定序列。在...

    RegexTool正则表达式测试小工具

    它允许用户方便地验证和实验正则表达式,以确保它们能够按预期工作,并从文本或网页中提取所需的数据。在IT领域,正则表达式(Regex)是用于匹配字符串模式的强大工具,广泛应用于数据验证、搜索与替换、文本分析等...

    超链接正则表达式

    在网页解析、数据抓取或文本处理等场景中,掌握超链接的正则表达式技巧非常关键。 在JavaScript中,正则表达式是内置的,可以通过构造函数`RegExp`创建,或者直接在字符串中使用。例如,一个简单的超链接正则可能...

    正则表达式语法(30分钟入门)

    2. **数据提取**:在网页抓取或数据分析中,正则表达式可以用来从大量文本中提取特定信息。 3. **输入验证**:在网络表单中,使用正则表达式验证用户输入的数据格式,如密码强度、邮箱格式等。 四、学习资源 要...

    正则表达式提取html中的所有的Email地址

    在IT行业中,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本案例中,我们关注的是如何使用C#编程语言来编写正则表达式,从HTML文档中提取所有的电子邮件地址。下面将...

Global site tag (gtag.js) - Google Analytics