`

网站抓取说明

    博客分类:
  • java
web 
阅读更多
网站抓取:
1.百度 关键字抓取(如 北京 公司,北京 企业)
2.百度 企业名称抓取(公司名称)
初步抓取的都是通过百度,采集到的title和bd_url(并不是网站的url,是指百度跳转的url)
抓第一页就好,不必抓取第二页
3.去掉死链接,去掉黄页等非网站数据,
bd_name like '%主页%' or
bd_name like '%官网%' or
bd_name like '%官方网站%'or
bd_name like '%集团%'or
bd_name like '%首页%'
筛选出 title 包含这写关键词的数据,相对准确一些,不然数量太大
4.根据抓下来数据的bd_url,采集网站内的web_url,web_title,web_context,保存
5.去重复,根据web_url和web_title去掉黄页
6.从web_context中获取 公司名称、联系电话、地址、ICP信息,通过地址和ICP确定网站是属于哪一个区域的网站, 没有ICP备案号的网站可能就存在问题,有待研究


-----------------从网页内容中获取ICP和地址等信息的有关sql(网站内容中截取出相关信息,最好是文本,不要存html)
1.ICP
update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'京ICP',1)-1,30)
where tt.web_text like '%京ICP%'

update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'ICP',1)-1,30)
where tt.web_text like '%ICP%' and tt.ent_icp is null
2.地址
update table tt set tt.ent_address=substr(tt.web_text,instr(tt.web_text,'地址',1),50)
where tt.web_text like '%地址%'
3.电话
update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'电话',1),20)
where tt.web_text like '%电话%'

update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'热线',1),20)
where tt.web_text like '%热线%' and tt.tellphone is null
4.公司名称

update table tt set tt.ent_name=substr(tt.web_text,instr(tt.web_text,'版权所有',1)-30,30)
where tt.web_text like '%版权所有%'
分享到:
评论

相关推荐

    网站链接抓取器(自动抓取).zip

    网站链接抓取器是一款实用工具,它主要用于自动化地抓取指定域名下的所有链接,并将这些链接整理成一个名为“sitemap.txt”的网站地图文件。这个过程对于网站优化,特别是搜索引擎优化(SEO)工作至关重要。 首先,...

    网站抓取精灵V3.0正式版

    "教程说明.url"可能是指向一个详细使用教程的链接,对于初次接触网站抓取精灵V3.0的用户来说,这是一个非常有价值的资源,可以帮助他们快速上手并掌握软件的操作。而"网站抓取精灵V3.0正式版"则应该是软件的安装包,...

    js、html等网站抓取工具详细说明

    相关使用者,可以根据网站,获取前端相关界面数据,包括js,html等,但是对于某些加密的,一般抓取不到。

    网站抓取精灵

    【网站抓取精灵V3.0正式版.exe】是该软件的可执行文件,用户可以通过运行这个文件来启动和使用网站抓取精灵。版本号V3.0表明这已经是软件的第三个主要版本,通常意味着软件已经经过了多次优化和改进,具有更高的稳定...

    网站链接抓取器.zip

    这个压缩包里有三个关键文件:libcurl.dll、网站链接抓取器.exe和软件说明.txt。 【libcurl.dll】是libcurl库的动态链接库版本,这是一个强大的HTTP客户端开发库,广泛用于处理各种网络协议,包括HTTP、HTTPS、FTP...

    网站访客 抓取qq 获取访客qq号 统计

    10. **界面设计与交互**:`index.html`和`logo.jpg`分别代表网页的主页和标识,说明该工具可能有一个友好的用户界面,让用户能方便地查看和管理抓取到的QQ号。 总结来说,"网站访客抓取qq获取访客qq号统计"涉及到的...

    网站抓取工具,可以抓任何网站,想用的朋友可以试试

    网站抓取工具是一种用于自动化收集和处理网页数据的软件或脚本程序,它可以帮助用户从互联网上抓取大量信息,例如文本、图片、链接等。这类工具广泛应用于数据分析、市场研究、内容聚合以及搜索引擎优化等多个领域。...

    url域名抓取

    1. 尊重网站Robots协议:在抓取前查看网站的`robots.txt`文件,遵循网站的抓取规则。 2. 避免过于频繁的请求:设置合理的抓取间隔,防止对目标网站造成压力。 3. 处理反爬机制:如IP限制、验证码等,可能需要使用...

    抓取站点的程序

    标题中的“抓取站点的程序”指的是网络爬虫(Web ...以上是对“抓取站点的程序”及相关知识点的详细说明,涵盖了网络爬虫的基本原理和实施过程。在实际应用中,还需要根据具体需求和目标网站的特点进行调整和优化。

    网页文字抓取器

    8. **道德与法律合规**:在进行网页抓取时,必须遵守网站的robots.txt文件规定,并尊重版权法,不侵犯个人隐私,避免大规模无授权抓取导致法律风险。 在提供的文件中,"webtextcopy1.0.exe"可能是网页文字抓取器的...

    网页抓取工具-免费使用

    网页抓取工具是一种用于自动化收集互联网上公开信息的软件,对于数据分析、市场研究以及网站维护等领域具有极高价值。"网页抓取工具-免费使用"这一主题揭示了我们今天要讨论的核心——一款可供用户免费使用的网页...

    FLASH页面抓取工具

    标题中的“FLASH页面抓取工具”指的是用于捕获和处理基于Adobe Flash技术创建的网页内容的软件工具。在互联网早期,Flash广泛应用于动态网页设计,包括游戏、动画和交互式内容。由于Flash内容无法被传统的网页抓取...

    抓取网站文章的ASP.NET程序源码

    资源名:抓取网站文章的ASP.NET程序源码 资源类型:程序源代码 源码说明: 文章抓取ASP.NET源码 最近在做一些资源采集的工作,比如采集新闻,flash,图片等,通过这个小例子,来详细的说明一下我采集资源的步骤: 1....

    java网页抓取demo

    文档部分可能包含了关于如何运行这个示例、解释代码逻辑以及如何自定义网页抓取任务的说明。通过阅读文档,初学者可以更好地理解和应用这个示例。 此外,这个项目可能还包含了关于网页解析的代码,比如使用HTML解析...

    抓取csdn的个人博客

    1. **遵守规则**:在抓取CSDN或其他网站数据时,应遵循网站的robots.txt文件规定,尊重网站的抓取政策,避免对服务器造成过大的负担。 2. **处理登录和权限**:如果博客设置了访问权限,可能需要模拟登录,保存和...

    超级不错的图片文字抓取工具,还可以抓取对话框的文字!!!!

    .url”和“下载说明.url”可能是两个网址链接,暗示这个工具可能可以从网站上抓取文字信息,比如商品描述、评论等。而“www.asp1.com.cn”可能是一个网站地址,可能与该OCR工具的提供商或者相关资源有关,也可能是一...

    网页抓取例子

    以下是对网页抓取及其在JSP环境中的应用的一些详细说明: 1. **网页抓取基础**: - 网页抓取的目的是从网页中提取结构化数据,如新闻文章、产品信息、评论等。 - 它通常通过HTTP/HTTPS协议发送请求到目标网站,...

    网页文字抓取器 1.3

    在互联网上,有些网站为了防止内容被盗用或保护版权,会限制用户对页面文本的选择和复制功能。这时,网页文字抓取器1.3就能发挥其作用,帮助用户轻松获取这些受限制的文字信息。 该软件的核心功能在于它的文字抓取...

    抓取MM图片

    ”这部分描述说明了操作步骤,用户需要执行一个批处理脚本来启动图片抓取的流程。批处理文件是Windows操作系统中的一种文本文件,包含了对系统的一系列命令,当用户运行它时,这些命令会按照顺序执行。在这里,...

    文档说明类型PHP网站源码 适合做使用手册网站PHP源码

    5. **readme.txt**: 这是一个说明文件,通常包含有关源码的简要介绍、安装指南、许可信息或者开发者联系方式。它是用户开始理解项目的重要参考资料。 6. **robots.txt**: 该文件用于指示搜索引擎爬虫哪些页面可以...

Global site tag (gtag.js) - Google Analytics