`

使用正则表达式来获取HTML中的链接

阅读更多

引用 http://www.javaresearch.org/article/82778.htm

 

  1. import java.io.BufferedReader;
  2. import java.io.FileNotFoundException;
  3. import java.io.FileReader;
  4. import java.io.IOException;
  5. import java.util.regex.Matcher;
  6. import java.util.regex.Pattern;
  7. public class LinkerFinder {
  8.     public static void main(String [] args)
  9.     {
  10.         String regStr="<a\\s+href\\s*=\\s*"//<a href=
  11.             +"(\"[^\"]*\"|[^\\s]*)\\s*" //URL部分
  12.             +"(target=\\s*(\"[^\"]*\"|[^\\s]*))?>";//target部分
  13.         StringBuffer sb=new StringBuffer();
  14.         
  15.         try {
  16.             FileReader fr = new FileReader("111.htm");
  17.             BufferedReader br=new BufferedReader(fr);
  18.             String line;
  19.             while((line=br.readLine())!=null)
  20.             {
  21.                 sb.append(line);
  22.             }
  23.             br.close();
  24.             fr.close();
  25.             Pattern ptn=Pattern.compile(regStr,Pattern.CASE_INSENSITIVE);
  26.             Matcher matcher=ptn.matcher(sb);
  27.             while(matcher.find())
  28.             {
  29.                 int start=matcher.start();
  30.                 int end=matcher.end();
  31.                 String url=sb.substring(start,end);
  32.                 System.out.println(url);
  33.             }
  34.         } catch (FileNotFoundException e) {
  35.             // TODO 自动生成 catch 块
  36.             e.printStackTrace();
  37.         } catch (IOException e) {
  38.             // TODO 自动生成 catch 块
  39.             e.printStackTrace();
  40.         }
  41.     }
  42. }



以上只是个例子,希望能给大家带来些启发.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics