`
落叶留步
  • 浏览: 53236 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论
文章列表
    最近一段时间,公司要写一个爬虫项目,遇到一些js或者ajax动态生成的网页,在网上找了一下,发现webdriver比较靠谱,至于htmlunit测试了一些网站直接抛异常,可能对于js支持的不是特别好。     WebDriver一般来说有两方式:本地diver和远程diver。由于爬虫最终会部署到linux服务器,只能在命令行运行,好像是装不了浏览器,所以本地driver的流程走不通,只能尝试远程driver。还好,发现一个phantomjs的webdriver,可以在linux无界面下运行,于是选择它作为处理js动态生成网页的解决手段。      下载去官网:http://pha ...
    最近折腾了一下最新版mongodb集群安装配置,目前测试可以运行,可能还有一些问题,需要慢慢去发现。     对于3.2之前的版本部署不了解,网上也有好多。总的来说,有以下几种部署方式:     1.单机部署     2.副本集部署     3.分片部署     4.分片副本集部署       前面几种部署都相对简单,这里不做说明。下面主要记录一下第4种方式部署,也是生产环境的建议部署方式,可以满足集群的高可用和高吞吐量。     有几个概念需要先说明一下:     configsvr:分片部署的配置节点,不存储具体数据,只存储分片的信息     shardcvr ...
     最近由于业务需求,需要给es动态添加新词。      要求:用户随便输入一个关键词,要能够搜索完全匹配的相关内容。 这样就要面对两种情况,第一种情况如果这关键词已经存在es中ik分词器的词典中,那么就不会有问题,用户可以搜索出自己想要的结果;第二种情况,就是这个关键词不在ik中,那么用户就搜索不到匹配的内容。     解决思路:      1.首先用ik对这个关键词进行分词      2.把这个关键词加入到ik的词典(通过配置ik的远程词典,不需要重启es)      3.用分词的结果去es中搜索      4.更新满足条件的文档         
Global site tag (gtag.js) - Google Analytics