- 浏览: 379400 次
- 性别:
- 来自: 四川
文章分类
- 全部博客 (247)
- 数据库以及sql (11)
- java (48)
- 爬虫学习 (20)
- java编程 (28)
- python编程以及安装和配置 (27)
- oracle数据库 (32)
- mongodb基本操作 (4)
- linux学习 (7)
- easyUI (2)
- nodeJs (8)
- python学习 (16)
- 其他 (13)
- hadoop (1)
- svn (1)
- 汉字 (1)
- windows (2)
- jsp (5)
- fiddler (1)
- ETL (1)
- teamviewer (1)
- maven (4)
- GIT (2)
- datagrip (1)
- ocr (1)
- redis (3)
- mysql (3)
- linux (1)
- 数据服务 (0)
最新评论
网站抓取:
1.百度 关键字抓取(如 北京 公司,北京 企业)
2.百度 企业名称抓取(公司名称)
初步抓取的都是通过百度,采集到的title和bd_url(并不是网站的url,是指百度跳转的url)
抓第一页就好,不必抓取第二页
3.去掉死链接,去掉黄页等非网站数据,
bd_name like '%主页%' or
bd_name like '%官网%' or
bd_name like '%官方网站%'or
bd_name like '%集团%'or
bd_name like '%首页%'
筛选出 title 包含这写关键词的数据,相对准确一些,不然数量太大
4.根据抓下来数据的bd_url,采集网站内的web_url,web_title,web_context,保存
5.去重复,根据web_url和web_title去掉黄页
6.从web_context中获取 公司名称、联系电话、地址、ICP信息,通过地址和ICP确定网站是属于哪一个区域的网站, 没有ICP备案号的网站可能就存在问题,有待研究
-----------------从网页内容中获取ICP和地址等信息的有关sql(网站内容中截取出相关信息,最好是文本,不要存html)
1.ICP
update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'京ICP',1)-1,30)
where tt.web_text like '%京ICP%'
update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'ICP',1)-1,30)
where tt.web_text like '%ICP%' and tt.ent_icp is null
2.地址
update table tt set tt.ent_address=substr(tt.web_text,instr(tt.web_text,'地址',1),50)
where tt.web_text like '%地址%'
3.电话
update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'电话',1),20)
where tt.web_text like '%电话%'
update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'热线',1),20)
where tt.web_text like '%热线%' and tt.tellphone is null
4.公司名称
update table tt set tt.ent_name=substr(tt.web_text,instr(tt.web_text,'版权所有',1)-30,30)
where tt.web_text like '%版权所有%'
1.百度 关键字抓取(如 北京 公司,北京 企业)
2.百度 企业名称抓取(公司名称)
初步抓取的都是通过百度,采集到的title和bd_url(并不是网站的url,是指百度跳转的url)
抓第一页就好,不必抓取第二页
3.去掉死链接,去掉黄页等非网站数据,
bd_name like '%主页%' or
bd_name like '%官网%' or
bd_name like '%官方网站%'or
bd_name like '%集团%'or
bd_name like '%首页%'
筛选出 title 包含这写关键词的数据,相对准确一些,不然数量太大
4.根据抓下来数据的bd_url,采集网站内的web_url,web_title,web_context,保存
5.去重复,根据web_url和web_title去掉黄页
6.从web_context中获取 公司名称、联系电话、地址、ICP信息,通过地址和ICP确定网站是属于哪一个区域的网站, 没有ICP备案号的网站可能就存在问题,有待研究
-----------------从网页内容中获取ICP和地址等信息的有关sql(网站内容中截取出相关信息,最好是文本,不要存html)
1.ICP
update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'京ICP',1)-1,30)
where tt.web_text like '%京ICP%'
update table tt set tt.ent_icp=substr(tt.web_text,instr(tt.web_text,'ICP',1)-1,30)
where tt.web_text like '%ICP%' and tt.ent_icp is null
2.地址
update table tt set tt.ent_address=substr(tt.web_text,instr(tt.web_text,'地址',1),50)
where tt.web_text like '%地址%'
3.电话
update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'电话',1),20)
where tt.web_text like '%电话%'
update table tt set tt.tellphone=substr(tt.web_text,instr(tt.web_text,'热线',1),20)
where tt.web_text like '%热线%' and tt.tellphone is null
4.公司名称
update table tt set tt.ent_name=substr(tt.web_text,instr(tt.web_text,'版权所有',1)-30,30)
where tt.web_text like '%版权所有%'
发表评论
-
是什么java多态
2018-11-14 13:43 750Java多态 例1.1+1=2 例2."1&quo ... -
经纬度转换
2018-09-25 13:57 0package com.teamdev.jxbrowser.c ... -
java连接池技术
2018-09-04 14:26 414转:https://www.cnblogs.com/xdp-g ... -
java 提取url字符串中的域名
2018-08-30 15:24 7428package com.teamdev.jxbrowser.c ... -
java多线程中锁(lock)、wait、notify()的使用
2018-07-13 11:31 5785package com.kai.多线程间的通信; impor ... -
java多线程间的通信实例
2018-07-13 11:00 1457----线程间的通信 public class ListAd ... -
volatile关键字
2018-07-12 11:20 676volatile:使变量在多个线程间可见 public c ... -
java根据百度url获取真正的网页地址
2018-07-09 11:26 1136/** * 根据百度url,获取原本url * @th ... -
java中的base64字符流与图片的相互转换
2018-06-29 13:27 1303//base64字符串转化成图片 public sta ... -
java去除图片水印的解决办法
2018-06-28 10:54 3403原文地址:http://www.oicqzone.com/pc ... -
java中的中文字符转URLEncode
2018-06-26 11:26 831String urlTypeName =java.net.UR ... -
java下载图片到本地实例
2018-06-25 15:34 1389public static void main(String[ ... -
Myeclipse中如何更改jsp默认的打开方式
2018-05-04 17:44 6871.打开myeclipse 2.点击上方的 window-&g ... -
java三大范式
2018-05-02 09:50 789参考地址:https://www.cnblogs.com/ja ... -
请求中设置代理IP
2018-04-18 16:24 1008(不能直接JVM设置代理 System.getProperti ... -
java获取当前时间的时间戳
2018-04-08 09:25 1536package com.teamdev.jxbrowser.c ... -
java四种线程池实例 (kaigege)
2018-03-28 11:03 746Java通过Executors提供四种线程池: 1.newCa ... -
java获取IP地址(windos,linux)皆可
2018-03-28 09:44 857package com.teamdev.jxbrowser.c ... -
post 请求
2018-02-05 16:32 562public static void trustEveryo ... -
java robot控制鼠标和键盘(笔记本中打印 i love you)(滑动)
2018-01-25 16:57 2140package robot_java; import jav ...
相关推荐
网站链接抓取器是一款实用工具,它主要用于自动化地抓取指定域名下的所有链接,并将这些链接整理成一个名为“sitemap.txt”的网站地图文件。这个过程对于网站优化,特别是搜索引擎优化(SEO)工作至关重要。 首先,...
"教程说明.url"可能是指向一个详细使用教程的链接,对于初次接触网站抓取精灵V3.0的用户来说,这是一个非常有价值的资源,可以帮助他们快速上手并掌握软件的操作。而"网站抓取精灵V3.0正式版"则应该是软件的安装包,...
相关使用者,可以根据网站,获取前端相关界面数据,包括js,html等,但是对于某些加密的,一般抓取不到。
【网站抓取精灵V3.0正式版.exe】是该软件的可执行文件,用户可以通过运行这个文件来启动和使用网站抓取精灵。版本号V3.0表明这已经是软件的第三个主要版本,通常意味着软件已经经过了多次优化和改进,具有更高的稳定...
10. **界面设计与交互**:`index.html`和`logo.jpg`分别代表网页的主页和标识,说明该工具可能有一个友好的用户界面,让用户能方便地查看和管理抓取到的QQ号。 总结来说,"网站访客抓取qq获取访客qq号统计"涉及到的...
这个压缩包里有三个关键文件:libcurl.dll、网站链接抓取器.exe和软件说明.txt。 【libcurl.dll】是libcurl库的动态链接库版本,这是一个强大的HTTP客户端开发库,广泛用于处理各种网络协议,包括HTTP、HTTPS、FTP...
网站抓取工具是一种用于自动化收集和处理网页数据的软件或脚本程序,它可以帮助用户从互联网上抓取大量信息,例如文本、图片、链接等。这类工具广泛应用于数据分析、市场研究、内容聚合以及搜索引擎优化等多个领域。...
1. 尊重网站Robots协议:在抓取前查看网站的`robots.txt`文件,遵循网站的抓取规则。 2. 避免过于频繁的请求:设置合理的抓取间隔,防止对目标网站造成压力。 3. 处理反爬机制:如IP限制、验证码等,可能需要使用...
标题中的“抓取站点的程序”指的是网络爬虫(Web ...以上是对“抓取站点的程序”及相关知识点的详细说明,涵盖了网络爬虫的基本原理和实施过程。在实际应用中,还需要根据具体需求和目标网站的特点进行调整和优化。
8. **道德与法律合规**:在进行网页抓取时,必须遵守网站的robots.txt文件规定,并尊重版权法,不侵犯个人隐私,避免大规模无授权抓取导致法律风险。 在提供的文件中,"webtextcopy1.0.exe"可能是网页文字抓取器的...
网页抓取工具是一种用于自动化收集互联网上公开信息的软件,对于数据分析、市场研究以及网站维护等领域具有极高价值。"网页抓取工具-免费使用"这一主题揭示了我们今天要讨论的核心——一款可供用户免费使用的网页...
标题中的“FLASH页面抓取工具”指的是用于捕获和处理基于Adobe Flash技术创建的网页内容的软件工具。在互联网早期,Flash广泛应用于动态网页设计,包括游戏、动画和交互式内容。由于Flash内容无法被传统的网页抓取...
资源名:抓取网站文章的ASP.NET程序源码 资源类型:程序源代码 源码说明: 文章抓取ASP.NET源码 最近在做一些资源采集的工作,比如采集新闻,flash,图片等,通过这个小例子,来详细的说明一下我采集资源的步骤: 1....
文档部分可能包含了关于如何运行这个示例、解释代码逻辑以及如何自定义网页抓取任务的说明。通过阅读文档,初学者可以更好地理解和应用这个示例。 此外,这个项目可能还包含了关于网页解析的代码,比如使用HTML解析...
1. **遵守规则**:在抓取CSDN或其他网站数据时,应遵循网站的robots.txt文件规定,尊重网站的抓取政策,避免对服务器造成过大的负担。 2. **处理登录和权限**:如果博客设置了访问权限,可能需要模拟登录,保存和...
.url”和“下载说明.url”可能是两个网址链接,暗示这个工具可能可以从网站上抓取文字信息,比如商品描述、评论等。而“www.asp1.com.cn”可能是一个网站地址,可能与该OCR工具的提供商或者相关资源有关,也可能是一...
本资源为基于NodeJS的Express框架开发的动态网站项目源码,包含详细的项目说明文档。该项目具备电影抓取等实用功能,通过Express框架实现高效的路由管理和中间件处理,为用户提供流畅的浏览体验。项目结构清晰,代码...
以下是对网页抓取及其在JSP环境中的应用的一些详细说明: 1. **网页抓取基础**: - 网页抓取的目的是从网页中提取结构化数据,如新闻文章、产品信息、评论等。 - 它通常通过HTTP/HTTPS协议发送请求到目标网站,...
在互联网上,有些网站为了防止内容被盗用或保护版权,会限制用户对页面文本的选择和复制功能。这时,网页文字抓取器1.3就能发挥其作用,帮助用户轻松获取这些受限制的文字信息。 该软件的核心功能在于它的文字抓取...
”这部分描述说明了操作步骤,用户需要执行一个批处理脚本来启动图片抓取的流程。批处理文件是Windows操作系统中的一种文本文件,包含了对系统的一系列命令,当用户运行它时,这些命令会按照顺序执行。在这里,...