`
wenbin151
  • 浏览: 32212 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

取URL地址,并根据地址抓下页面

 
阅读更多

/**
   *
   * 解析文件,取出URL地址
   *
   */
 public static void regexStr(){
  String input="飞机但是http://mail.Sohu.com.cn 飞机恺撒";
  Pattern p = Pattern.compile("http://[*[a-zA-Z]|w{3}].*[a-zA-Z ]");
  Matcher m = p.matcher(input);
  m.find();
  String str=m.group();
        System.out.print(str);
  
  
 }
/**
 * 根据URL,把网页保存到本地
 * @param urlStr
 * @param filename
 * @return
 */ 
 public  static  boolean  getUrlToFileInputStream(String urlStr, String filename){
   
   DataInputStream dataInputStream=null;
   try{
      URL url = new URL(urlStr);
           URLConnection conn = url.openConnection();
           dataInputStream = new DataInputStream(conn.getInputStream());
          
     }catch(Exception e){
      e.getMessage();
   
     }
     DataOutputStream dataoutputstream = null;
   if(dataInputStream !=null){
         try {
    dataoutputstream = new DataOutputStream(new BufferedOutputStream(new FileOutputStream(filename)));
   
   byte b[] = new byte[1024*10];
   int len = 0;
   while ((len = dataInputStream.read(b, 0, 1024)) != -1) {
    dataoutputstream.write(b, 0, len);
   }

   dataoutputstream.flush();
         } catch (Exception e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
   }
            return true;
   }else{
    return false;
   }
    
    
  }

分享到:
评论

相关推荐

    易语言源码易语言取真实播放地址源码.rar

    在视频网站中,为了版权保护和流量控制,往往不会直接提供视频文件的真实URL,而是通过动态生成的播放页面来实现播放。因此,"取真实播放地址"的技术就显得尤为重要。 易语言源码通常包括头文件、源代码文件和可能...

    单页面销售 单页网站

    单页面销售网站是一种独特而高效的在线营销策略,它将整个网站的信息浓缩到一...总的来说,单页面销售网站是针对特定业务需求的一种创新设计,其成功与否取决于如何巧妙地整合内容、设计和技术,以满足目标受众的需求。

    python爬虫 基于requests模块发起ajax的get请求实现解析

    用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求 这...

    WuGter

    2、99%的情况下软件可以正常使用,但根据个体机器的不同,也有可能会在某些机器上获取不到页面地址,这时软件就要带参运行,运行方法为:WuGter.exe n (n为数字,一般取1,2,3,软件默认是2)。 3、欢迎大家...

    网站地图更新步骤

    3. **自动抓取网站页面**:点击“抓爬”或“扫描”按钮后,工具将自动遍历指定URL下的所有页面,收集每个页面的URL,并根据页面的动态性决定是否加入到网站地图中。这个过程可能需要一些时间,取决于你的网站规模。 ...

    RGB颜色代码和抓屏幕颜色小工具

    "优惠充值.url"可能是一个链接,指向该软件的官方网站或者其他优惠充值页面,供用户购买正式版或者享受特定优惠。 总的来说,RGB颜色代码和抓屏幕颜色工具是设计与开发工作中的得力助手,能够提高颜色选取的效率和...

    python通过urllib2爬网页上种子下载示例

    4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子 复制代码 代码如下:import urllibimport urllib2import cookielibimport reimport sysimport ...

    C++网络爬虫项目

     爬虫通过“DNS解析” 将读到的URL转换为网站服务器的IP地址;  爬虫将网站服务器的IP地址、通信端口、网页路径等信息交给“网页下载” 器;  “网页下载”器负责从“互联网”上下载网页内容;  对于已经...

    精易模块[源码] V5.15

    2、新增“网页_是否为网页”判断地址是否为URL路径。 3、删除“窗口_取进程路径”命令,与窗口_句柄取进程路径() 功能相同。 4、删除“线程_强制结束”命令,与 线程_销毁() 功能相同。 5、修改“窗口_热键注册”...

    精易官方免费模块v3.60版

    2、改进“系统_取MAC地址”命令,感谢会员 Mr.Yang 的源码 3、改进“ 网页_取Cookie”等命令的描述歧义,感谢会员 imdong 的提醒 1、修复“时间_取中国星期几”命令无效的BUG,感谢会员 易難為易 的建议 2、修复...

    Python面试题总结.docx

    1. **初始化**:根据配置参数(如最大线程数)创建一定数量的线程并放入线程池中。 2. **提交任务**:当有新的任务提交到线程池时,这些任务会被放入任务队列。 3. **任务分配**:线程池中的空闲线程会从任务队列中...

    奉献出一个封装的curl函数 便于调用(抓数据专用)

    函数最后返回的是经过Curl会话处理后的结果,这个结果可能是一个HTML页面、JSON数据等,取决于服务器返回的数据类型。 这个封装的Curl函数可以广泛应用于需要数据抓取和网络请求的场景中,比如网络爬虫、API数据...

    QQ空间农场分析C#核心源码

    QQ空间农场是一款在中国非常流行的社交网络游戏,玩家在游戏中扮演农民,种植作物,饲养动物,并可以进行互动,如偷取朋友的农作物。这个压缩包文件包含了关于这款游戏的一些核心开发信息,特别是针对C#编程语言的源...

    2021年Python面试题总结.docx

    3. **抓包技术**:通过抓包工具捕获App与服务器之间的通信数据包,进而分析并获取所需信息。 以上是对给定文档中提到的一些Python知识点的详细解释和扩展。这些知识点涵盖了线程池的基本原理、字典的合并技巧、GUI...

    java 常见的面试题

    所有选项描述都是正确的:它可以动态更改内容,相同域名下内外部对象可互相访问,脚本可以调整大小。 3. **函数参数**:题目没有提供完整的函数,但`Arguments[2]=10;`可以改变函数的实参值,而`Alert(a);`可能不会...

    vc++ 开发实例源码包

    6.右边窗口停止抓包后显示十六进制数 hyperlink 自绘CStatic,实现超链接。 iconbutton_demo 演示了多种自绘Button。 IDocHostUIHandler Extended CHtmlView 如题。 IM_毕业设计 聊天系统,操作了数据库,有...

Global site tag (gtag.js) - Google Analytics