`
hje
  • 浏览: 288236 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

java 获取网页网址

阅读更多
package web;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.InetAddress;
import java.net.Socket;
import java.util.regex.Matcher;
import java.util.regex.Pattern;



public class TestSock {

public void TestSocket()
    {
    }
public static void main(String args[])
    {
       
        String strServer = "www.163.com";
      
        String strPage = "/";

        try
        {
           
            int port = 80;
           
            InetAddress addr = InetAddress.getByName(strServer);
           
         
            Socket socket = new Socket(addr, port);

          
            BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF-8"));
            wr.write("GET " + strPage + " HTTP/1.0\r\n");
            wr.write("HOST:" + strServer + "\r\n");
            wr.write("Accept:*/*\r\n");
            wr.write("\r\n");
            wr.flush();
           
         
            BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream(),"UTF-8"));
            String line;
          
            while ((line = rd.readLine()) != null)
            { 
    String reg = "(http\\://[a-za-z0-9]{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv)";
    //Pattern pattern = Pattern.compile("(http://|https://){1}([a-zA-Z]+)(.)(1)(.)(com|cn|com/cn|tw)");
    Pattern pattern = Pattern.compile(reg);
    Matcher matcher = pattern.matcher(line);
    StringBuffer buffer = new StringBuffer();
    while(matcher.find()){             
        buffer.append(matcher.group());       
        buffer.append("\r\n");             
        System.out.println(buffer.toString());
   
    }
            }
            wr.close();
            rd.close();
        }
        catch (Exception e)
        {
            e.printStackTrace();
        }
    }


}
分享到:
评论

相关推荐

    java 获取json网页数据

    通过以上步骤,我们就可以成功地使用Java获取并解析JSON网页数据了。在实际项目中,可能还需要处理分页、错误重试、数据缓存等问题,这需要根据具体需求进行扩展。同时,为了提高性能和灵活性,还可以考虑使用其他库...

    JAVA通过url获取网页内容

    "JAVA 通过 URL 获取网页内容" JAVA 通过 URL 获取网页内容是 Java 编程语言中的一种常见操作。通过使用 URL 类和 URLConnection 类,Java 程序可以连接到远程服务器,获取指定 URL 的内容。本文将详细介绍如何使用...

    Java源代码根据URL获取因特网网页源文件.rar

    这个RAR文件包含的"说明.txt"可能是详细的操作指南,而"根据URL获取因特网网页源文件"可能是一个Java源代码示例,用于演示如何实现这一功能。以下是对这个主题的详细讲解: 1. **网络编程基础**: 在Java中,进行...

    Java实现网页截图技术

    在Java实现网页截图时,我们首先创建一个`Robot`实例,然后使用`createScreenCapture()`方法来获取整个屏幕或特定区域的图像。此外,为了确保网页完全加载后再进行截图,通常会使用`delay()`方法来进行延时。 #### ...

    纯Java实现整个网页截图项目源代码

    3. **屏幕截图技术**: 要截取整个网页,程序需要遍历网页的所有可见部分,这通常涉及滚动条的管理。DJNativeSwing可能提供API来获取当前视口的图像,然后通过多次滚动和截图,合并成一个完整的网页图片。 4. **图像...

    java 实现整张网页快照

    总的来说,这个项目提供了一种使用Java和JWebBrowser实现网页全貌快照的方法,解决了许多现有解决方案只能截取当前视口大小的问题。通过这样的工具,开发者可以更方便地对网页进行记录和分析。不过,需要注意的是,...

    java获取网页主信息之五:测试

    标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...

    java将网页保存成mht格式文件

    这个【标题】"java将网页保存成mht格式文件"指向的是一个Java项目,其目的是将网页转换为MHT格式,以便离线查看或保存网页的原始状态。 在Java中实现这个功能,通常需要以下步骤: 1. **抓取网页内容**:首先,你...

    Java图形界面获取网页的源代码

    通过以上这些技术,我们可以构建一个功能完善的Java GUI应用,允许用户输入网址并获取相应的网页源代码。这种应用对初学者来说是一个很好的练习,因为它涵盖了Java GUI编程、网络编程和基本的多线程处理等多个核心...

    Java获取网页中url的图片资源.rar

    Java获取网页中的图片资源,启动线程,智能解析URL,加载图片资源,显示图片数据,测试时候请用IE打开useTrackedImage.html 文件,载入图像文件,并获取该图像文件。本Java例子主要是利用java.awt.MediaTracker 类来...

    Java爬虫获取网页表格数据保存到MySQL

    Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码

    java api 网页版 java api 网页版

    7. **反射机制**:`java.lang.reflect`包,允许程序在运行时动态获取类的信息并操作对象。 8. **泛型**:Java 5引入的特性,提高了代码的类型安全性和重用性。 9. **注解(Annotation)**:从Java 5开始,提供了元...

    java将网页保存成mht格式程序

    ### Java将网页保存成MHT格式程序:详细解析与实现 在互联网开发中,有时我们需要将整个网页(包括其所有资源如图片、样式表、脚本等)保存为一个单一的文件,以便于离线浏览或备份。MHT(MIME HTML)格式是一种将...

    java获取网页工程

    本项目“java获取网页工程”着重展示了如何使用Java技术来抓取和处理网页数据,包括调用新浪微博的网络接口以及对StringBuffer类的简单应用。下面我们将深入探讨这两个核心知识点。 首先,让我们关注如何在Java中...

    java api 网页版

    6. **社区支持**:很多网页版的Java API还会链接到相关的论坛或社区,开发者可以在那里提问、交流,获取更多帮助。 在“JavaAPI”这个压缩包中,可能包含了完整的Java API文档,可能包括JDK(Java Development Kit...

    Java微信网页授权登录获取信息

    Java微信网页授权登录获取信息,java版调用微信接口,授权过程

    JAVA获取网页有效邮箱地址

    ### JAVA获取网页有效邮箱地址 #### 知识点解析 本篇文章主要介绍了一种通过Java程序来抓取网页上的有效邮箱地址的方法。该程序能够接收一个网页URL作为输入,然后解析网页源代码并从中提取出所有符合标准格式的...

    java 拍照 截取图片

    在Java编程环境中,实现“拍照”和“截取图片”的功能涉及到多个技术层面,包括Web应用、设备访问、图像处理等。以下将详细介绍这些知识点: 1. **Java Web 应用**: Java Web应用程序是基于Java技术构建的,可以...

    Java抓取网页内容三种方式

    Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础,它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

Global site tag (gtag.js) - Google Analytics