- 浏览: 1272763 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
基本思想:1、输入关键字,抓取前两页的信息。符合条件的规则:title标签完全匹配关键字才进一步分析,否则抛弃。
2、进一步分析规则:历遍页面的所有标签,获取并保存没有子节点的标签,为下一步匹配信息做基础。
3、分析没有子节点的标签,比如说,公司网址,如果有标签包含公司网址的四个字,则获取它下一个标签,因为很 有可能是公司网址信息。如果没有,继续拿下下一个标签,还是没有的情况,放弃追踪。
源代码没写完,没通过测试,暂时不公开源代码。哪位有什么更好的建议,不妨我们讨论一下。
评论
2 楼
lzj0470
2008-12-30
metaphy 写道
不错用Python写应该能稍微简单一些
我是用java实现的·呵呵··对Python不懂···
1 楼
metaphy
2008-12-30
不错
用Python写应该能稍微简单一些
用Python写应该能稍微简单一些
发表评论
-
tomcat was unable to start within 45 seconds
2013-11-11 15:59 837原因一: -
Apache Commons Lang
2013-10-15 12:10 3165ArrayUtils public class Tes ... -
htmlunit form
2013-06-25 11:13 924Form提交 对于WEB应用,有着大量的表单,所以Html ... -
QQ微博登录步骤
2013-05-28 12:14 0QQ微博登录步骤: 1、验证帐号时,会访问一个地址。如下: ... -
jsoup
2013-05-22 23:37 1142import org.jsoup.Jsoup; import ... -
java 加密解密
2013-05-21 23:00 842import java.security.InvalidKey ... -
freemarket 对象应用篇(一)
2013-05-19 18:18 1042freemarket应用. 1.1:创建web工程testF ... -
中文数字转阿拉伯数字
2012-11-30 14:24 1795/** * @author loiy * ... -
标记:伪原创标题思路
2012-01-11 16:34 1287采用填词的办法进行伪 ... -
用JSmooth制作java jar文件的可执行exe文件教程(图文)
2012-01-05 01:09 8181下载完程序之后,运行 jsmoothgen.exe 1.进入“ ... -
多线程 Java.util.ConcurrentModificationException异常
2011-12-29 13:43 1525Iterator<Entry<String,B ... -
java 反序列化 抛出EOFException
2011-12-19 17:21 2253抛出这样的异常,一般情况下,是因为业务逻辑的问题。 如: 在没 ... -
一键安装双击运行——Java安装程序制作
2011-12-09 02:39 1330对于Java桌面应用来说,比较烦琐的就是安装部署问题,如:客户 ... -
只针对中英文混合分词的中文分词器
2011-12-02 17:28 4871该版本说明 1、只针对中英文混合分词 需要一些中文和英文连在 ... -
Java开源运行分析工具
2011-11-15 15:10 1884FProfiler FProfiler是一个非常快的Java ... -
cwss 按照指定的字符进行切词
2011-11-15 09:37 1211cwss 按照指定的字符进行切词 在 Utility.SEPE ... -
cwss bug 修复
2011-11-07 09:50 889修复的BUG有如下: 1、当只有中文、字母和数字,没有任何其他 ... -
java 怎么读取细胞词库scel
2011-10-24 14:28 3115private void sogou(String pa ... -
今天遇到一个奇怪的问题
2011-04-28 11:55 1186想实现一个用户访问页面,得到用户的外网地址 在公司上。程序是没 ... -
在myeclipse6.5下统一全部JSP编码更改
2011-04-07 14:47 1463在平时我们新建一个JSP页面默认编码是"ISO885 ...
相关推荐
这个程序的目的是从百度知道抓取数据,可能是为了数据分析、信息聚合或是其他相关用途。.zip文件意味着用户需要解压后查看和使用源代码。 【标签解析】 "PHP"标签明确了该程序所使用的编程语言,PHP是一种广泛应用...
在本文中,我们将深入探讨如何使用Java编程语言和Spring Boot框架来实现百度图片的抓取与下载功能。首先,我们需要了解几个关键的概念和技术。 **Java** 是一种广泛使用的面向对象的编程语言,它以其跨平台的特性而...
### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...
2. 配置灵活性:对于某些网页,如百度贴吧,可能存在未定义的抓取选项,导致无法获取所有相关信息。 3. 链接参数处理:目标页面链接的动态参数处理不够灵活,如百度贴吧链接参数按50递增的情况需手动定义。 4. 多...
"随风百度知道"可能是这个程序的特定名称,暗示它能够像风一样快速、灵活地抓取百度知道上的信息。"php版源码"则表示提供的是源代码形式,用户可以查看并修改代码以适应自己的需求。 【描述分析】 描述中的"基于...
标题中的“百度地图数据一键抓取工具”表明这是一个软件或脚本,它的主要功能是能够方便地从百度地图上获取相关数据。这类工具通常用于地理信息系统的数据分析、研究或者地图制作等领域。 描述虽然简洁,但我们可以...
在这个实例中,它被用来抓取特定输入内容(可能是关键词)在百度百科上的相关信息。 **描述解析:** "根据输入的内容,获取百度百科的内容。运行可用。" 这段描述表明这个实例是动态的,能够接受用户输入,然后...
【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统,它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括: 1. **XML解析**:DOM4J被...
在本项目中,“基于http的Java爬虫爬取百度新闻”是一个实例,它利用Java编程语言,通过HTTP协议来抓取百度新闻网站上的数据。这个项目的核心知识点包括HTTP协议的理解、Java编程基础、网络爬虫的实现以及对百度新闻...
除了百度外,有很多网站会自动收录网上的网站,然后查询出网站的基本信息、SEO信息,百度、GOOGLE等搜索引擎的收录量,域名whois查询结果等,而这些操作的前提是要得到所有的网站域名,通过字符串组合也是一个方法...
《易语言百度信息采集器》是一款基于易语言开发的数据采集工具,主要用于从百度搜索引擎中抓取特定信息。这款软件的核心功能在于其强大的信息提取能力和高效的数据处理机制,为用户提供便捷的信息获取途径。以下是对...
总的来说,这个工具提供了一种便捷的方式,让非技术人员也能搭建一个基于百度知道问答内容的网站,自动更新信息,吸引流量,并通过广告实现盈利。然而,值得注意的是,任何未经许可的数据采集都可能违反服务条款,...
这个压缩包“基于Python的百度地图慧眼迁徙大数据爬取源代码.zip”提供了利用Python编程语言来抓取百度地图慧眼迁徙大数据的源代码。下面我们将深入探讨相关知识点。 1. **Python爬虫基础**: Python作为一门简洁...
本教程将深入探讨如何使用Python来构建一个简单的爬虫,抓取百度百科的前1000个页面,以获取其内容和结构信息。首先,我们需要了解Python爬虫的基本原理和所需的库。 1. **Python爬虫基础**: - **HTTP协议**:...
【Python-百度贴吧爬虫基于scrapy和mysql】 在Python的Web爬虫领域,Scrapy是一个强大而高效的框架,常用于构建数据抓取项目。它提供了丰富的功能,如请求调度、中间件处理、数据清洗等,使得爬虫开发变得更加便捷...
在本课程设计中,我们将深入探讨如何利用Python编程语言构建一个网络爬虫,专注于抓取百度贴吧中的数据。Python爬虫是一种自动化工具,用于从互联网上提取大量信息,而百度贴吧是中国最大的网络社区之一,拥有丰富的...
本文主要探讨了如何利用Python爬虫技术对百度贴吧进行数据抓取,为信息分析、用户行为研究等领域提供数据支持。以下是对各章节内容的详细阐述: 第一章前言 1.1研究背景 随着互联网的快速发展,网络论坛如百度贴吧...
【标题】"基于PHP的虐神百度爬虫开源系统"是一个使用PHP编程语言开发的爬虫框架,专门针对百度搜索引擎进行数据抓取。这个开源项目旨在帮助开发者更高效地获取和处理百度平台上的大量信息,同时也为学习和研究网页...
在实际应用中,这个模块可以用于开发各种基于百度贴吧的应用,比如论坛数据分析工具、热门话题监控系统,或者是个人的爬虫项目。易语言取百度贴吧信息模块源码的开放,为开发者提供了极大的便利,他们无需深入了解...
在本文档中,作者分享了使用Node.js编写网络爬虫的基本步骤和具体实践,特别是针对抓取百度图片的实例。以下是对这些知识点的详细说明: 1. **HTTP请求与HTML解析**: - 发送HTTP请求:Node.js的内置`http`模块...