`
lzj0470
  • 浏览: 1272763 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

基于baidu抓取公司基本信息

    博客分类:
  • java
阅读更多

基本思想:1、输入关键字,抓取前两页的信息。符合条件的规则:title标签完全匹配关键字才进一步分析,否则抛弃。

             2、进一步分析规则:历遍页面的所有标签,获取并保存没有子节点的标签,为下一步匹配信息做基础。

             3、分析没有子节点的标签,比如说,公司网址,如果有标签包含公司网址的四个字,则获取它下一个标签,因为很                    有可能是公司网址信息。如果没有,继续拿下下一个标签,还是没有的情况,放弃追踪。

源代码没写完,没通过测试,暂时不公开源代码。哪位有什么更好的建议,不妨我们讨论一下。

分享到:
评论
2 楼 lzj0470 2008-12-30  
metaphy 写道

不错用Python写应该能稍微简单一些

我是用java实现的·呵呵··对Python不懂···
1 楼 metaphy 2008-12-30  
不错
用Python写应该能稍微简单一些

相关推荐

    基于PHP的Color百度知道抓取程序源码.zip

    这个程序的目的是从百度知道抓取数据,可能是为了数据分析、信息聚合或是其他相关用途。.zip文件意味着用户需要解压后查看和使用源代码。 【标签解析】 "PHP"标签明确了该程序所使用的编程语言,PHP是一种广泛应用...

    Java抓取百度图片

    在本文中,我们将深入探讨如何使用Java编程语言和Spring Boot框架来实现百度图片的抓取与下载功能。首先,我们需要了解几个关键的概念和技术。 **Java** 是一种广泛使用的面向对象的编程语言,它以其跨平台的特性而...

    python抓取百度搜索的数据

    ### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...

    基于JAVA技术的网页内容智能抓取.doc

    2. 配置灵活性:对于某些网页,如百度贴吧,可能存在未定义的抓取选项,导致无法获取所有相关信息。 3. 链接参数处理:目标页面链接的动态参数处理不够灵活,如百度贴吧链接参数按50递增的情况需手动定义。 4. 多...

    基于PHP的随风百度知道(抓取采集)php版源码.zip

    "随风百度知道"可能是这个程序的特定名称,暗示它能够像风一样快速、灵活地抓取百度知道上的信息。"php版源码"则表示提供的是源代码形式,用户可以查看并修改代码以适应自己的需求。 【描述分析】 描述中的"基于...

    百度地图数据一键抓取工具

    标题中的“百度地图数据一键抓取工具”表明这是一个软件或脚本,它的主要功能是能够方便地从百度地图上获取相关数据。这类工具通常用于地理信息系统的数据分析、研究或者地图制作等领域。 描述虽然简洁,但我们可以...

    casperjs抓取简单实例

    在这个实例中,它被用来抓取特定输入内容(可能是关键词)在百度百科上的相关信息。 **描述解析:** "根据输入的内容,获取百度百科的内容。运行可用。" 这段描述表明这个实例是动态的,能够接受用户输入,然后...

    基于JAVA技术的网页内容智能抓取

    【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统,它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括: 1. **XML解析**:DOM4J被...

    基于http的Java爬虫爬取百度新闻

    在本项目中,“基于http的Java爬虫爬取百度新闻”是一个实例,它利用Java编程语言,通过HTTP协议来抓取百度新闻网站上的数据。这个项目的核心知识点包括HTTP协议的理解、Java编程基础、网络爬虫的实现以及对百度新闻...

    使用php基于网页之间的链接抓取网站列表的php程序-全网抓取的php爬虫程序小试验

    除了百度外,有很多网站会自动收录网上的网站,然后查询出网站的基本信息、SEO信息,百度、GOOGLE等搜索引擎的收录量,域名whois查询结果等,而这些操作的前提是要得到所有的网站域名,通过字符串组合也是一个方法...

    易语言百度信息采集器

    《易语言百度信息采集器》是一款基于易语言开发的数据采集工具,主要用于从百度搜索引擎中抓取特定信息。这款软件的核心功能在于其强大的信息提取能力和高效的数据处理机制,为用户提供便捷的信息获取途径。以下是对...

    自动采集百度知道(小偷采集)商业版|免维护自动采集百度问答信息|引流利器|无需数据库

    总的来说,这个工具提供了一种便捷的方式,让非技术人员也能搭建一个基于百度知道问答内容的网站,自动更新信息,吸引流量,并通过广告实现盈利。然而,值得注意的是,任何未经许可的数据采集都可能违反服务条款,...

    基于Python的百度地图慧眼迁徙大数据爬取源代码.zip

    这个压缩包“基于Python的百度地图慧眼迁徙大数据爬取源代码.zip”提供了利用Python编程语言来抓取百度地图慧眼迁徙大数据的源代码。下面我们将深入探讨相关知识点。 1. **Python爬虫基础**: Python作为一门简洁...

    Python爬虫--抓取百度百科的前1000个页面

    本教程将深入探讨如何使用Python来构建一个简单的爬虫,抓取百度百科的前1000个页面,以获取其内容和结构信息。首先,我们需要了解Python爬虫的基本原理和所需的库。 1. **Python爬虫基础**: - **HTTP协议**:...

    Python-百度贴吧爬虫基于scrapy和mysql

    【Python-百度贴吧爬虫基于scrapy和mysql】 在Python的Web爬虫领域,Scrapy是一个强大而高效的框架,常用于构建数据抓取项目。它提供了丰富的功能,如请求调度、中间件处理、数据清洗等,使得爬虫开发变得更加便捷...

    基于python爬虫对百度贴吧进行爬取的课程设计.zip

    在本课程设计中,我们将深入探讨如何利用Python编程语言构建一个网络爬虫,专注于抓取百度贴吧中的数据。Python爬虫是一种自动化工具,用于从互联网上提取大量信息,而百度贴吧是中国最大的网络社区之一,拥有丰富的...

    基于python爬虫对百度贴吧进行爬取的设计与实现.docx

    本文主要探讨了如何利用Python爬虫技术对百度贴吧进行数据抓取,为信息分析、用户行为研究等领域提供数据支持。以下是对各章节内容的详细阐述: 第一章前言 1.1研究背景 随着互联网的快速发展,网络论坛如百度贴吧...

    基于PHP的虐神百度爬虫开源系统.zip

    【标题】"基于PHP的虐神百度爬虫开源系统"是一个使用PHP编程语言开发的爬虫框架,专门针对百度搜索引擎进行数据抓取。这个开源项目旨在帮助开发者更高效地获取和处理百度平台上的大量信息,同时也为学习和研究网页...

    易语言取百度贴吧信息模块

    在实际应用中,这个模块可以用于开发各种基于百度贴吧的应用,比如论坛数据分析工具、热门话题监控系统,或者是个人的爬虫项目。易语言取百度贴吧信息模块源码的开放,为开发者提供了极大的便利,他们无需深入了解...

    Node.js编写爬虫的基本思路及抓取百度图片的实例分享-.pdf

    在本文档中,作者分享了使用Node.js编写网络爬虫的基本步骤和具体实践,特别是针对抓取百度图片的实例。以下是对这些知识点的详细说明: 1. **HTTP请求与HTML解析**: - 发送HTTP请求:Node.js的内置`http`模块...

Global site tag (gtag.js) - Google Analytics