`

代理 下载网页,挖掘数据

    博客分类:
  • java
 
阅读更多
URL url = new URL("http://blog.csdn.net/mywait_00/article/details/1698627");

//设置代理
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("openproxy.fsfd.com", 8080));
//打开代理
URLConnection coon = url.openConnection(proxy);
//访问的时候需要设置 user-agent
coon.setRequestProperty("User-Agent","Mozila/4.0(compatible;MSIE 5.0;Windows XP;DigExt");

BufferedReader in = new BufferedReader(new InputStreamReader(coon.getInputStream()));

String inputLine; StringBuffer html = new StringBuffer();
while ((inputLine = in.readLine()) != null) {
    html.append(inputLine);
}

 

分享到:
评论

相关推荐

    Web日志挖掘数据预处理技术的研究与实现

    ### Web日志挖掘数据预处理技术的研究与实现 #### 摘要 本文旨在探讨Web日志挖掘数据预处理技术的重要性和其实现方法。Web日志挖掘是指通过对Web服务器日志进行数据分析,揭示用户访问模式及其行为特征的一种数据...

    Web挖掘中的数据预处理算法研究

    - **参考网页和用户代理**:结合用户访问过的页面以及用户的操作系统和浏览器版本等信息,进一步提高识别的准确性。 该方法通过综合考虑多个因素,提高了用户识别的准确性和鲁棒性。 ##### 3. 会话识别 会话识别...

    挖掘机1.1,网站挖掘

    网站挖掘是指通过自动化的方式,从互联网上的网页中提取有价值的信息,包括结构化数据(如表格、链接)、半结构化数据(如HTML标签)和非结构化数据(如文本内容)。这些数据可以用于各种目的,如商业智能、搜索引擎...

    电子商务中Web数据挖掘的应用研究

    电子商务中的Web数据挖掘是利用数据挖掘技术从互联网资源和用户行为中发现有价值的信息和模式,以优化电商网站的运营和提升用户体验。Web挖掘主要涉及三种类型:Web内容挖掘、Web结构挖掘和Web访问挖掘。 1. Web...

    海量代理IP一键挖掘工具 v2.3

    【描述】:“海量代理IP一键挖掘工具 v2.3.rar”是一个RAR格式的压缩文件,RAR是一种常见的文件压缩格式,用于将多个文件打包成一个单一的可下载文件。这个描述暗示用户下载后需要解压才能使用该工具,解压后将得到...

    面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用.pdf

    在网站个性化推荐系统中,关联规则可以揭示不同网页之间的关系,通过分析用户访问的网页路径,以及页面停留时间等数据,挖掘出用户的潜在兴趣。 文章中提到了概念模型设计的重要性。在数据挖掘的过程中,一个良好的...

    .net版本经典Web数据挖掘.rar.rar

    总结来说,.NET平台上的C#语言为Web数据挖掘提供了全面的工具和库支持,从网页抓取、数据解析、存储、分析到可视化,都可以通过精心设计的代码实现。随着技术的发展,.NET生态系统将持续为Web数据挖掘提供更多的可能...

    Python数据挖掘实验《基于Python语言的网络数据挖掘》实验指导书 共39页.pdf

    《基于Python语言的网络数据挖掘》实验指导书是一份详细的教学文档,旨在引导学习者掌握如何利用Python进行数据挖掘和网络数据分析。以下是该实验指导书的主要知识点: **实验项目1:Python语言的基本语法及简单...

    视频网站访问数据挖掘系统.pdf

    视频网站访问数据挖掘系统是一种专门针对视频网站用户行为进行分析的系统,旨在通过收集和分析用户的访问数据,发现用户行为的模式,以改善网站的用户体验和提高访问量。数据挖掘在视频网站中的应用,有助于内容制作...

    海量IP代理挖掘工具

    在互联网环境中,IP代理常用于数据抓取,因为它们可以帮助用户绕过某些网站的访问限制,提高数据采集效率。 根据压缩包子文件的文件名,我们可以推断出一些关键组件和功能: 1. `海量代理IP一键挖掘工具.exe....

    基于Agent的分布式数据挖掘系统.pdf

    文章《基于Agent的分布式数据挖掘系统》探讨了多代理技术在分布式数据挖掘中的应用,旨在通过分析Web服务器日志并结合多代理技术,提升数据挖掘系统的效率和效果。文章详细介绍了分布式Web日志挖掘系统的体系结构...

    web日志数据挖掘在服务器安全方面的应用探讨.pdf

    Web日志挖掘并非直接分析原始数据,而是通过用户和网络之间的互动,获取第二手数据,例如用户提问式、浏览器访问记录、代理服务器日志记录、用户个人简历和网络服务器访问记录等。 服务器安全是一个包含多个维度的...

    Web数据挖掘综述.pdf

    与传统数据挖掘相比,Web数据挖掘的数据来源主要是网站服务器后台生成的海量日志文件和用户上网时所产生的点击流。这些数据具有动态、半结构化或非结构化的特点,格式上与传统数据库数据有所不同。由于数据的这种...

    门户网站分布式数据挖掘云平台架构分析.pdf

    在信息技术快速发展的今天,数据挖掘技术的重要性日益凸显,尤其是在门户网站所构建的分布式数据挖掘云平台架构中。随着数据类型的多样化和数据规模的爆炸式增长,有效的数据处理和分析技术变得尤为关键。数据挖掘...

    浅析Web数据挖掘.pdf

    对海量网络数据进行分析,并采用相应的数据挖掘算法,在应用模型上进行数据提取、数据筛选、数据转换、数据挖掘和模式分析,最终归纳推理、预测客户的个性化行为及用户习惯,帮助改进网站和网页。 二、数据挖掘的...

    免费代理IP挖掘工具

    描述中提到的“一次性批量挖掘上千代理IP”,意味着该工具具有高效的数据采集能力,能够在短时间内获取大量的代理IP资源。同时,这些IP地址可以被批量处理,减少了手动操作的繁琐。另外,“支持数据导出”这一特性...

    爬虫程序爬虫程序 java 数据挖掘

    根据给定文件的信息,我们可以提炼出以下关于Java爬虫程序及数据挖掘的相关知识点: ### Java爬虫程序概览 #### 一、Sosoo爬虫框架简介 Sosoo是一款用Java编写的开源网络爬虫框架,适用于进行大规模的数据抓取任务...

    数据挖掘与数据管理-存储数据至数据库.pptx

    数据挖掘与数据管理是信息技术领域的核心任务,其中涵盖了获取、处理和分析大量数据的过程。在当前互联网时代,许多网页的数据采用动态加载的方式呈现,这给数据爬取带来了挑战。本篇主要介绍了如何处理动态加载数据...

    Web数据挖掘在数字图书馆个性化服务中的应用

    1. Web内容挖掘专注于从网页内容中提取知识,包括基于代理的挖掘和基于数据库的挖掘,是对基础搜索引擎功能的扩展,有助于提供更精确的搜索结果。 2. Web结构挖掘则分析网页间的链接关系,通过揭示网络结构来评估...

Global site tag (gtag.js) - Google Analytics