`
yy_dan
  • 浏览: 64518 次
  • 性别: Icon_minigender_1
  • 来自: 湖南岳阳
最近访客 更多访客>>
社区版块
存档分类
最新评论

java 抓取页面源码

阅读更多
我要抓取的页面的完整路径为:http://www.google.cn/language_tools?hl=zh-CN

       String strServer="www.google.cn";//这里同样可以用ip来访问:203.208.35.100

       String strPage="/language_tools?hl=zh-CN";

       try {

           String hostname = strServer;

           int port = 80;

           InetAddress addr = InetAddress.getByName(hostname);

           Socket socket = new Socket(addr, port);

           BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));

           wr.write("GET " + strPage + " HTTP/1.0"r"n");

           wr.write("HOST:" + strServer + ""r"n");

           wr.write(""r"n");

           wr.flush();

           BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));

           String line;

           while ((line = rd.readLine()) != null) {

              System.out.println(line);

           }

           wr.close();

           rd.close();

       } catch (Exception e) {

           System.out.println(e.toString());

       }

分享到:
评论
1 楼 samuel0818 2013-05-14  
您好,能请教个问题吗?

相关推荐

    java抓取网页内容源代码

    ### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...

    Java抓取网页数据Demo

    这段代码会抓取页面上所有链接的`href`属性。 接下来,我们转向**抓取网页JS返回数据**。许多现代网页使用Ajax技术动态加载数据,这些数据通常不会出现在原始HTML中,而是通过JavaScript执行后生成。为了抓取这类...

    java网页数据抓取源代码

    java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。

    java抓取网页源码-ldspider:链接数据网络的爬虫

    java抓取网页源码介绍 LDSpider项目为关联数据网络提供了一个网络爬行框架。 爬取关联数据网络的要求和挑战不同于常规的网络爬行,因此 LDSpider 项目提供了一个网络爬虫,适用于从关联数据网络中遍历和收集内容。 ...

    java网页抓取demo

    这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库,包括Apache Commons Logging和HTTP Client。 Apache Commons Logging是Java的日志记录工具,它为应用程序提供...

    amazon上货关键词抓取器源码 java版

    【描述】"amazon上货抓取关键词的工具源代码,在淘宝上卖过的现在开源出来给需要的人"表明该工具曾作为商业产品在淘宝平台上出售,而现在开发者决定将其开源,为更多有需要的用户提供服务。开源软件通常促进了技术的...

    java简单抓取网页内容

    Java中的`HttpURLConnection`或`HttpClient`库可以用来发送HTTP请求,获取网页的HTML源代码。接着,我们可以利用解析库,如Jsoup,来解析HTML,提取所需信息。 1. **发送HTTP请求**: - 使用`HttpURLConnection`:...

    Java网页抓取数据

    10. **网页结构分析**:理解HTML和DOM结构,学会使用开发者工具分析网页源码,定位目标数据所在的元素,这对于编写抓取规则至关重要。 以上是Java网页抓取数据的基本知识框架,实践中还需要根据具体需求和目标网站...

    java网络爬虫抓取网页数据

    在提供的"WebCrawler"压缩包文件中,很可能包含了实现这些功能的源代码,包括使用HttpClient进行网络请求,用Jsoup解析HTML,以及可能的JDBC数据库操作。通过研究这个项目,你可以深入了解Java网络爬虫的实现细节,...

    java网络编程抓取指定网页信息--UrlHtml(java源码)

    import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...

    java 新浪网易搜狐新闻抓取源码

    总结,"java 新浪网易搜狐新闻抓取源码"项目展示了如何使用Java和HTMLParser库来实现新闻数据的抓取和处理。通过学习和实践这样的项目,开发者不仅可以掌握网页抓取的基本技能,还能深入理解HTTP协议、HTML解析以及...

    Java抓取URL/Email实例源码

    通过学习这个实例源码,开发者不仅可以掌握基础的网页抓取技术,还能了解到如何结合Java标准库和第三方库来提升效率和准确性。在实际应用中,还需要注意处理异常、设置超时、控制爬虫速度,以及可能需要的分布式爬虫...

    java根据json规则抓取(新浪新闻、百度新闻、微博动态)的网页内容源码

    java根据自定义json格式规则抓取新浪新闻、百度新闻、微博动态内容的网络爬虫源码 例子中的源码功能: 导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式抓取指定网页的内容、抓取...

    java抓取网页源码gzip-phproxy:PHP中的代理

    标题 "java抓取网页源码gzip-phproxy" 暗示了我们正在讨论一个使用Java进行Web抓取,并处理GZIP压缩的项目,而“PHP中的代理”则可能指的是使用PHP构建的代理服务器。这个项目可能涉及到如何通过Java从通过PHP代理...

    java爬虫webmagic抓取静态页面demo

    Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具,尤其对于处理静态页面,它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化,这使得我们可以灵活地组合各个组件来实现不同...

    Java爬虫实例完整源码

    Java爬虫是一个强大的工具,用于自动化地从互联网上获取数据,尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写...

    java利用json规则抓取网页内容源码(爬虫)

    Java语言在IT领域中广泛应用于各种场景,其中就包括网页数据的抓取。在这个项目中,我们使用Java来实现一个基于JSON规则的网页内容抓取器,这为应对网页结构变动提供了灵活性。JSON(JavaScript Object Notation)...

    jsp网页抓取天气预报源代码

    "jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...

    [搜索链接]Java网页蜘蛛抓取系统源码.zip

    [搜索链接]Java网页蜘蛛抓取系统源码

Global site tag (gtag.js) - Google Analytics