- [搜索技术] 搜索引擎经验总结 #
这里是一点我在学习和开发搜索引擎过程中的一点学习和经验总结,文中讲述了蜘蛛、切词、索引、查询器等名模块的一些概述和细节,希望能给搜索引擎中的初学点的一点帮助,对于那些高手也能够带来一点点启发的帮助!这是我在2004年学习和开发搜索引擎相关东西时的一点总结,可能比较肤浅,最近还是一直在搞这方面的研究,相对于这篇文章又有了一些新的总结,等以后有时间再写一篇和大家分享!
- [ajax] Build an Anthem.NET [AJAX] Autosuggest Textbox #
he new ATLAS framework has an Autosuggest feature built in, but in this article I will focus on the Anthem.NET framework, reworking some very nice code that was originally submitted to the Anthem.NET Sourceforge repository as a suggested patch by J.C. Murphy. I've changed around the offering in order to make it more 'self - contained' and moved a lot of brand new data access code and related properties directly into the control. The sample control is presented here in both ASP.NET 1.1 and ASP.NET 2.0 versions, along with the entire source tree so that interested users can look at everything in Anthem.NET.
- [.NET开发; 搜索技术; Lucene] DotLucene (Lucene.NET) + KStemmer + Searcharoo = great! #
The overall search engine is composed of three parts:1. A site crawler: In the past, I've built search engines that utilites the raw data inside our CMS, but a crawler seems to work better when you have a fair amount of dymaic content. I found a nice crawler in Searcharoo. It's a full search engine by itself, but since I wanted to use Lucene, I only used the crawler portion Searcharoo.2. An indexer: This is where Lucene.NET (or DotLucene) comes in. When Searharoo downloads a page, the text is sent to Lucene to index.3. A Stemmer: Lucene does a great job of indexing and searching, but it doesn't natively have the ability to search for derivatives of a stem word. For example, if a user seraches for 'tests', Lucene doesn't by default figure out the stem ('test' removing the plural 's') and then search for all words based on the stem ('test' 'testing' or 'tested'). But there is a port of KStemmer which handles all the stemming automagically handles stemming. Example http://www05.dts.edu/search/?q=tests
- [人物; 微软] 看盖茨大叔是如何工作的 #
盖茨大叔可能是世界上最忙的人了吧(有人反对么?)对于大忙人来说,如何安排协调工作,实在太重要了。CNN 的 Money 频道搞了一个“How I work”栏目,定期邀请一些 BOSS 级的人物分享他们的工作技巧。4月4号,轮到Bill Gates 了。
- [搜索技术; PDF] dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 #
dotnet环境下从PDF文档中抽取Text文本的一些方法汇总
- [CDN; VeryCD] 自建CDN服务 #
DNS服务器可以用bind9来建,Cache则可以选squid。这2个都是linx平台下的开源软件,高效、免费,国内收费的CDN服务基本上也是依赖这2个软件。可惜的是linux平台相对复杂,而且之前中文文档太少,普通用户要架设起一套自己的CDN服务器还是非常麻烦。好在声仔已经把bind9的安装说明以及区分电信网通用户解决方案整理过了,甚至还提供了免费的dnspod服务,直接免去了自己架设DNS服务器的苦恼。Cache服务器所要用到的squid,基本原理是用它做反向代理。可以Google一下,也可以参考我的书签,不过相关的文档都已经较老,且没有大并发、大流量下的实践,对配置的叙述也较简单。回头我会把VeryCD使用squid以来的经验进行总结,并公布我们所使用的squid.conf参数,希望能够对大家有所帮助。
- [.NET开发] 真正的取真实IP地址及利弊 #
现在越来越多的网站使用了代理加速方式,比如 新浪、SOHU的新闻 都使用Squid做代理方式,利用多台服务器分流。Squid本身类似透明代理,会发送“HTTP_X_FORWARDED_FOR” ,HTTP_X_FORWARDED_FOR 中包括客户的IP地址,如果此时客户已经使用了一层透明代理,那么程序取的 “HTTP_X_FORWARDED_FOR” 就包括两个IP地址。(我遇到过3个IP地址的情况,4个的未遇到过)所以取“真正”IP地址的方式,还应该判断 “HTTP_X_FORWARDED_FOR” 中是否有“,”逗号,或者长度是否超长
- [web2.0] Web 2.0 编程思想 #
当然,Web 2.0是一个极其广泛和深奥的话题,没有一个人能够列举出它的所有重点和特征。如果你对此充满了兴趣,请花一点时间来补充我没有提到的地方。我想这就是Web 2.0的参与性吧!
- [.NET开发] 投票机的实现及相关技术(一) #
这里只是简单的说明了一个基本的投票机的原理,如果有足够的资源,而且不能使用代理的时候,就可以使用自动切IP(要求你有足够多的合法IP资源)和ADSL自动断线重拨(要求你有足够多的ADSL)。下一篇文章将说明如何切IP和ADSL自动断线重拨。
- [.NET开发; iTextSharp; PDF] PDFToText with ITextSharp #
ITextSharp can be used to extract text from PDF files. The advantage over PDFBox C# version is the smaller size of the ITextSharp and the pure C# implementation This text extraction class is based on the algorithm in C from http://www.codeproject.com/cpp/ExtractPDFText.asp
- [软件] 中外流氓软件大比拼 #
在国内叫停流氓软件,政府怕事、企业心虚。我们只有团结起来,将流氓软件的内幕曝光,才能让用户不再吃亏。我们不用限令也不要期望流氓软件能改邪归正,但愿这些所谓的伎俩能曝光于天下,让我们远离它,BS他。
- [搜索技术; Google; 数学] 数学之美 #
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。
更多技术动态,请访问我的365Key(RSS),你可以通过365Key订阅。
分享到:
相关推荐
2. 上市公司动态:包括完美世界、掌趣科技、祖龙娱乐等多家上市游戏厂商参与了虚幻引擎技术开放日活动,并分享了他们应用虚幻引擎进行游戏开发的经验。这些上市公司的参与显示了这些企业对于技术创新的重视,同时也...
2. 新产品和技术的发布:腾讯云在2020腾讯全球数字生态大会上发布了全新的游戏解决方案,包括游戏服务器引擎GSE和游戏原生数据库TcaplusDB等,这些产品和服务构建了游戏全生命周期解决方案,为游戏开发公司提供了...
5G技术的高速率、低延迟特性为远程医疗、自动驾驶、智能制造等新应用提供了可能性,有望成为未来经济增长的新引擎。 光器件则是通信行业中的关键组成部分,包括光发射机、光接收机、光调制器、光开关等,它们在光...
由于苹果公司的产品需求往往能带动整个产业链的发展,因此关注苹果概念意味着关注那些可能受益于苹果新产品发布、销量增长或技术创新的公司。 在电子行业中,AMD和苹果的概念往往紧密关联。例如,AMD可能会为苹果的...
投资者在关注行业重点公司和科技趋势的同时,还应关注行业政策和技术发展动态,以便更好地把握投资时机。 6. 行业细分领域公司 具体到细分领域,报告提出上游设备和材料、下游封测、消费电子等行业内的潜力公司,...
总的来说,化工行业三季报显示盈利下滑,但市场存在结构性机遇,投资者应关注行业动态,特别是天然气、聚酯产业链等关键领域的发展,以及市场情绪和政策变化带来的影响。在制定投资策略时,需兼顾行业整体趋势和个别...
标题中的“传媒一周观点”表明这是一份关于媒体行业的周度分析报告,主要关注的是上周的行业热点事件以及对未来的预测。关键词“精准提示热点扩散”暗示了上周的热点事件得到了准确的预测,并且这些热点可能对传媒...
报告建议关注中望软件、中控技术等核心企业,并看好这一板块在2021年的整体景气度。 车联网及自动驾驶板块,报告提到创达和德赛等车联网核心企业的业绩增长高达70%以上,主要受益于行业高景气度和汽车软件与ADAS...
传媒行业周报对上周传媒板块的市场表现进行了回顾和分析,提供了对未来一周投资方向的指引。报告中提到,上周传媒板块指数表现好于大盘,出现了一些领涨股票,同时也指出了板块中的领跌股票。此外,报告还对比了国...
这些方法分别用于获取上周一、上周日和下周一的日期。 1. `getLastMonday()` 方法: 这个方法可能通过获取当前日期,然后回溯到最近的周一来实现。可以使用`DateTime`类的`modify()`方法,向后减去天数,直到到达...
- **技术因子**:技术因子通常基于价格和交易量数据,上周技术因子取得正收益,显示技术分析在短期内有效。 - **估值因子**:相反,估值因子在各类股票池中出现回撤,意味着高估值股票可能面临调整压力,投资者对...
行业轮动策略:上周北上资金流入地产链,关注房地产 概述: 本报告是关于行业轮动策略的研究报告,涵盖了上周北上资金流入地产链的分析,以及对房地产行业的关注。报告中使用了多种策略,包括事件驱动、景气度和...
在上周的工作总结中,班主任关注了多个与学生安全和健康成长相关的关键点。 1. **新学期入学前训练**:这是确保学生适应新学期环境、了解学校规则和安全规定的重要环节。通过入学训练,学生能熟悉新环境,了解学校...
在上周的学习笔记中,主要涉及了股票投资策略和技术分析方法。这些知识对于理解市场走势、选择潜力股以及制定投资决策至关重要。以下是笔记中的重点内容: 首先,提到了一个选股的口诀:“月线阳突破周线顶横盘,...
通信行业周观点:上周板块涨势微弱,新基建、光器件领域推荐关注.pdf
根据给定文件的信息,我们可以总结出以下几个关键知识点: ### 一、招聘渠道建设 #### 上周成果 - **网络覆盖范围**:猎头部在上周已成功覆盖了多个主流招聘网站,包括但不限于阿凡提招聘网、大家论坛以及ABBS建筑...
根据提供的标题、描述以及部分代码内容,我们可以总结出以下几个MySQL查询相关的知识点: ### 1. 查询本周数据 在MySQL中,可以通过`YEARWEEK()`函数来获取某日期对应的年和周的信息。为了查询本周的数据,可以...
1. 人力资源管理:此文档涉及的是人力资源部的工作总结和计划,这包括了对先进人员的评价和表彰,以及对不同区域和部门的业绩分析,体现了人力资源管理中的绩效评估、激励机制和团队建设。 2. 绩效考核:通过对各区...
上周工作总结和下周工作计划模板.doc
这种投资策略通常涉及统计学、机器学习和算法交易等技术。 1. **消费板块**:在股票市场中,消费板块是指与日常消费相关的企业,如食品饮料、零售、旅游、娱乐等行业。这些公司的业绩通常受消费者需求和消费能力的...