最新文章列表

图片搜索

网站搜索引擎是如何实现图片搜索的?   抓取网页主要是关键字,抓取图片应该是alt,他有自己的数据库,抓取过后截取字符串进行归类,这是我想的哈,如何抓取好像是靠机器人蜘蛛程序 每张图片都必需添加alt信息,信息最好是精炼过的关键字,图片面后应该包含一些图片描述性的文字,图片应该带有链接,正文为缩略图,点击链接后显示大图。 网站的图片是非常耗费流量的,比如两天的时间博客有20多G的访问流量 ...
aoyouzi 评论(0) 有888人浏览 2013-07-23 22:10

ElasticSearch入门-增删改查(CRUD)

转载请标明出处:http://donlianli.iteye.com/blog/1902238   ElasticSearch(名称太长,后面简称ES)作为一个搜索引擎,目前可谓是如日中天,几乎和solr齐驾并驱。关于他能做什么,跟云计算有什么关系,在此不再描述。但是ES的官方文档,特别是关于java的客户端文档,真是少的可怜,甚至连个完整的增删改的示例都没有。在此,我就献丑了。 在开始讲 ...
donlianli 评论(3) 有17729人浏览 2013-07-09 21:48

xapian例子

安装参考 http://www.tcreator.info/webSchool/search-engine/xapian-install.html tar zxvf xapian-core-1.2.15.tar.gz yum install uuid-dev yum install libuuid-devel e2fsprogs-devel ./configure --prefix ...
haoningabc 评论(0) 有1178人浏览 2013-07-08 15:55

电子商务数据运营的五大应用

电子商务数据运营的五大应用 让网站更吸引人 网站页面的设计和展示的价值是很大的,因为对于互联网企业来说,首先直接面对消费者的就是这些互联网上的页面。如果页面设计不合理,或者用户体验不好,那么客户是不可能留住并作任何购买的。 用户体验涉及的内容是非常广的,从商品的陈列、浏览方式、下单流程到客户交互方式等,甚至网页上什么内容应该出现在什么位置,购买按钮的颜色、形状和位置也都是用户体验的一部分。 ...
博文视点Broadview 评论(0) 有1096人浏览 2013-06-25 13:30

Apache Solr配置

Solr配置 Solr的主要功能是全文检索,该功能分为两个过程:创建索引和对索引进行搜索; 在创建索引之前,需要重点关注两个配置文件:SOLR_HOME/collection1/conf/schema.xml(定义Document的结构类似定义DB的表结构) & solrconfig.xml(solr运行配置如请求如何被处理);在Solr创建索引的过程中,每条数据被抽象成一个Do ...
warm_breeze 评论(1) 有5766人浏览 2013-06-16 14:15

搜索的现状与发展

艾瑞报告显示,截至2013年Q1,中国搜索引擎市场规模已达到74.1亿元,同比增长仍然达到35%。虽然移动互联网发展的如火如荼,但是传统互联网依旧是市 ...
ksjlhy 评论(0) 有612人浏览 2013-06-05 10:56

我封装的搜索引擎之lucene篇

 最近利用晚上下班还有周末的时间自己捣腾的封装了一个我自己的全文检索引擎(基于lucene和solr).现在将大概的思路给写出来,分享下:     1.首先是索引对象,也可以说是查询的VO对象.封装了几个常用字段(如:主键,所属者ID,所属者姓名,进入详情页面的link,创建时间等),其他各个模块的字段(如:标题,内容,邮箱等) SearchBean.java 字段的代码如下: /**** ...
sunhao_java 评论(2) 有1643人浏览 2013-05-23 23:14

一致性hash和solr千万级数据分布式搜索引擎中的应用

  互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件,通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以,用什 ...
lanceyan 评论(0) 有1107人浏览 2013-05-13 09:13

横瓜先生深度推测解密百度网页搜索引擎的内部索引结构及分布式架构原理

百度的搜索技术横扫中国,在各方面都超过其他搜索引擎。学习研究推测百度的内部索引结构及分布式架构原理,将有助于整个中国的搜索技术的更远发展更快发展。横瓜先生用5年时间从0行代码起步,经历近百次优化并完成横瓜搜索引擎(一个类似LUCENE全新的搜索),写的搜索代码接近百万行,横瓜先生对于搜索引擎技术的各方面都知晓细节,并有不同凡响的开发体会。横瓜先生深层次推测剖析百度网页搜索引擎的内部索引结构及分布式架 ...
横瓜降世 评论(0) 有6人浏览 2013-05-11 12:04

Lucene & Solr

Params of solr query (参见 solrj - CommonParams.class & solr-core - QueryParsing.class): Apache LuceneTM 4.4.0 Documentation: http://lucene.apache.org/core/4_4_0/index.html http://khaidoan.wikidot.co ...
Wuaner 评论(0) 有2429人浏览 2013-05-07 17:30

在win7中搜索xml文件中的内容

选择【组织】-->【搜索】-->【始终搜索文件名和内容】--> 【确定】 即可
cuityang 评论(0) 有1296人浏览 2013-04-11 12:54

Ubuntu上安装HADOOP多机完全分布式集群

1、三台机器 host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker) host6(DataNode、TaskTracker) host8(DataNode、TaskTracker) vi  /etc/hostname(分别给每一台主 ...
yangshangchuan 评论(1) 有9457人浏览 2013-04-02 00:45

Ubuntu上安装HADOOP单机伪分布式集群

1、新建用户和组 addgroup hadoop adduser --ingroup hadoop hadoop 注销root以hadoop用户登录   2、配置SSH ssh-keygen -t rsa(密码为空,路径默认) cp .ssh/id_rsa.pub .ssh/authorized_keys   3、准备HADOOP运行环境 wget http://archiv ...
yangshangchuan 评论(0) 有8571人浏览 2013-04-01 00:35

nutch2.1+mysql报错及解决

错误信息:java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java: ...
yangshangchuan 评论(0) 有5120人浏览 2013-03-31 23:35

一个在本机搜索Java类的小程序

在配环境和调试程序时经常会搜索报错的类在哪个jar包里,虽然自己写了个java的类,但用的时候不太方便,就自己花了半天的时间用VC写了一个桌面小程序,直接遍历目录并搜索类,果然方便了很多,共享出来大家共同使用。   支持一次搜索多个路径  
shuaijie506 评论(0) 有1117人浏览 2013-03-29 11:49

让网站被百度10分钟收录的三大决窍

一、调整网站内部结构。前期忙于建站,对于SEO也不是很了解,等网站上线后就忙于推广。后来才发现了这个问题,网站内部结构混乱对网站是致命的 ...
Jonathan樊 评论(0) 有758人浏览 2013-03-25 23:40

coreseek一元切分模式中英文单词不切分问题

        网站搜索使用coreseek(sphinx),采用的一元分词模式,但按照官方网站的文档说明,却不支持英文单词、数字串一元分词,如:光华路SOHO,输入soho中任一字母不能查找出soho;输入soho可以查出,如标题中仅一个字母时,是可以的,如光华路h,输入“h”,可以查出,由此推断英文单词没有做一元分词索引,仔细查看文档: (http://www.coreseek.cn/produ ...
youjin 评论(2) 有4205人浏览 2013-02-18 22:03

怎样通过词频得到这个词频的排序?

     在大规模检索中,我们怎样通过已经的词频得到词频的排序? 通俗点讲,就是当我知道“java”这个词的频率是x,那么"java"到底在排在第几位呢?       大规模数据中,有一个重要的法则叫“齐普夫法则”,它描述为第k个出现次数最多的词汇,它的词频与1/k成正比。这个法则的发现过程一点都不科学,齐普夫是这样干的:找到一本大部头的书籍,统计不同词汇出现的次数并排序,发觉词 ...
AngelAndAngel 评论(0) 有2076人浏览 2012-12-03 14:35

利用Eclipse搜索

平时在开发的时候,最常用的是在本页面中进行搜索,直接ctrl+F 如果要看某个方法或变量在哪里被调用的时候,通常是右键点击这个方法名或变量名,选择 open Call Hierarchy   那么当你想要查找某个类在哪里被调用到的话,该如何做呢? 这时候就要使用Eclipse选项卡上面的Search页了,快捷键是ctrl+H 打开界面如下:     你可以在这个界面做 ...
michaelye1988 评论(0) 有1100人浏览 2012-11-30 16:03

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics