`
Mybeautiful
  • 浏览: 298957 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论
文章列表
    最近专门研究了下网页抓取,主要是研究对各种情况的抓取方法。今天张瑜 介绍下需要验证码的网页抓取。         现在有些网页为了防止被抓取,它要求用户先填入验证码后,才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍;因为它不能识别验证码!当然有同学说用OCR去识别,然后填入。这是个方向,但是总有些验证码是机器无法识别的。那我们怎么办?     办法其实还是有,既然蜘蛛不能识别验证码;那我们就必须用人识别后告诉它。可行吗? 可行。众所周知,HTTP协议是无连接的协议,那么服务端判断客户端到底是否通过验证(成功输入验证码),一定是Browser传了点什么能 ...
    你想要的任何信息,基本上在互联网上存在了,问题是如何把它们整理成你所需要的,比如在某个行业网站上抓取所有相关公司的的名字,联系电话,Email等,然后存到Excel里面做分析。网页信息抓取变得原来越有用了。       一般传统的网页,web服务器直接返回Html,这类网页很好抓,不管是用何种方式,只要得到html页面,然后做Dom解析就可以了。但对于需要Javascript生成的网页,就不那么容易了。张瑜 目前也没有找到好办法解决此问题。各位有抓javascript网页经验的朋友,欢迎指点。       所以今天要谈的还是传统html网页的信息抓取。虽然前面说了,没有技术难 ...
    情人节又到了,朋友问我们有什么安排,我说没有安排,我们把所有的节日都重定义了下。     这样我们可以在情人节去看一场便宜的电影,还能避免拥挤的人群,因为我们的情人节跟植树节互换了下。还有圣诞节,虽然也重定义了,但是因为那天一般商场有打折,所以我们也会出去逛,尽管我们不过节。等等...你能想到的只跟我们两人有关的节日我们都重定义下。    那春节呢,端午节呢,中秋节呢? 这个没办法,暂时由不得我们。等我儿子长大了,我要跟他约定把这些节日也重定义下;这个可以每年初定义好,要是他在外地,不想经常跑来跑去,完全可以把这些节日都定义到一起,一块过算了;当然基本的原则是 ...
     程序员到底可以做多久,这个职业是否真的到35岁就终止?带着这个问题,和所有有此疑问和忧虑的朋友们探讨。先说说我自己的观点吧。要回答这个问题,我们首先要回答另外几个问题。        1. 人得学习能力是否 ...
     刚才想访问下Wordpress的官方站点,查个API,结果得到如下返回,                     大致翻译下,方便大家看,看英文确实很累,         “今天很多网站被关闭了,为了抗议法案SOPA跟PIPA,, 因为这两个法案阻碍Intenet自由。包括本站在内的许多网站,如Wikipedia,及个人博客等,希望通过这种方式要求您能阻止改法案通过。请看下面的视频,您将看到如果该法案通过,将会对您的Internet自由,造成什么样的影响,希望您能采取正确的行动。“
     看来的我的建议得到了铁道部的同志们的重视啊..开个玩笑..      详情参阅,解决火车票网上订票难的方案     
      前几日,张孝祥先生骤然离世,实在让人震惊;我是4号晚上才听到消息的,当时我的第一反应也许跟大家一样“天妒英才,英年早逝。”,但也许还有其它的,我甚至至今都不能完全用语言描述当时的确切感受;那已经 ...
      春运是最热的话题,买火车票是最流行的事情;网上订票给大家带来了极大的便利,但是由于各种原因,网上订票成功率很低,至少比在淘宝上买东西困难多了。在下不才,试图提出其解决方案。         问题:并发访 ...
     此次大范围的密码泄露事件就不用多介绍了,我算是有惊无险(至少到目前为止),大家可以到这个网站去查查自己的密码是否泄露,http://lucky.anquanbao.com (李开复推荐)。      而我的天涯账号也泄露了,该账号已经多年没有使用,因为我忘记了密码,也不知道注册邮箱;而通过该网站我找到了我的注册邮箱,顺利找回了密码。所以,我个人在这个问题上感谢黑哥哥们的杰作。     顺便也也转贴下专家们的密码管理意见,     奇虎360安全专家石晓虹博士建议,      第一要对密码进行分级管理,常用的重要账号,如电子支付、邮箱、聊天 ...
       递归算法是程序员的最重要的基本功之一,也是相对比较难理解的一种;尤其是当今框架盛行,自己不愿/不需要思考的编程年代,递归是检验程序员级别的方法之一。其实不要怕,它很简单,就是方法调用方法而已,只不过方法时调用自己而已(或是曲折调自己),不就是如此吗?        写出递归的程序需要什么?抽象!对,就是抽象,不要以为抽象是面向对象编程的专有名词。碰到问题时先不要考虑具体的细节,陷入森林之中,先找规律,从具体问题中找出一般规律。比如汉诺塔游戏,如果你按常规思路,按步骤一步一步思考,你根本就没有出路,而如果你抽象出“把最上面的盘子移到第二根柱子上,然后把剩下的移到第三个柱子上,最 ...
      不知道你是否有幸听你的老板跟你说“我们是朋友”, 或者你碰到个老外老板他说“We are the friends.” 实际上当你听到的时候肯定会很开心,至少当时,因为人类天生就是需要朋友的。         不过老板跟朋友可能还是有些区别的。          最本质的区别是,朋友之间对过去的岁月更加留念,想起来都那么美好,并且愈久弥香;而老板更看重的是将来,无论过去你做了多大的贡献,或是做的多么糟糕,老板都会一笔勾销,所以重要不是你做过什么,而是你还能做什么。所以不要试图让你的老板去回忆过去,他会说你站在过去的功劳簿上不思进取;要多跟老板谈你的计划,你的想法,谈你还 ...
转自: http://topic.csdn.net/t/20060320/16/4626966.html   JFreeChart类: void   setAntiAlias(boolean   flag)         字体模糊边界 void   setBackgroundImage(Image   image)       背景图片 void   setBackgroundImageAlignment(int   alignment)     背景图片对齐方式(参数常量在org.jfree.ui.Align类中定义) void   setBackgr ...
     2008年我们有个大项目,其难点在于技术上的突破,并且没有可以借鉴的现成方案;我作为项目的技术负责人,其压力巨大。不断的google, 到处找有无可以提供思路的例子,哪怕是一句话的启示;最后找到了一个开源的项 ...

文件与Pipe的区别

     一项目中涉及Java与C的通信;由于C程序是现成的,而java部分是后来不上去的,故两部分仍然沿用以前C程序中的Named Pipe通信。其中使用了JNA技术,具体这里不详述。       项目中,我们碰到有个问题,发现 java程序只能从Name pipe中收到一个消息,后面写入pipe的消息就一个收不到了。经过仔细分析,发现原来程序不是建立的Pipe,而是一个普通的文件。Pipe的文件属性应该如下:             如果是文件,前面是没有那个p的。pipe的特性是read走了,文件(Pipe中)就没有了,而文件这不具备这样的特性。二,Read 数据到pipe中, ...
    前面写过一篇使用GenericRA在GlassFish上配置SonicMQ的文章。不过之后有发现有更简单的方法,因为GenericRA的官方网站上有明确的使用说明文档 http://genericjmsra.java.net/docs/sonic-mq-integration-guide/sonicmq_integration_guide.html。所以我对读过我之前文章的人们致以崇高的歉意,浪费了各位的时间;当然那个方案确实是可以工作的。       官方的文档,我就不用多说了,直接一步一步来就好,虽然我用的是
Global site tag (gtag.js) - Google Analytics