- 浏览: 184445 次
- 性别:
- 来自: 深圳
最新评论
-
不要叫我杨过:
受教了,高手
Heritrix架构分析 -
springaop_springmvc:
apache lucene开源框架demo使用实例教程源代码下 ...
Lucene 3.0.2 使用入门 -
zxw961346704:
值得学习的算法
Java 计算器 -
medicine:
Thread.sleep(1000); 会使线程进入 TIM ...
Java.lang.Thread 和 Java.lang.ThreadGroup -
tangzlboy:
嗯,不错!收藏。
Java 入门
文章列表
现在正在做的东西,是需要根据H.264/avc的svc协议来开发一个基于IPTV平台的视频点播系统,支持相应视频流的播放器当然要自己写一个出来,经过一番查询,最后确定了用DirectShow来进行开发(其实想用windows media player sdk来开发的,资料太少了。。)
开发环境:vs2005
参考资料:《Visual C++音频/视频处理技术及工程实践》
今天下午成功跑了下那个例子~ 有点点的欣慰。
参考资料中基本上列出了编译sample库的时候出现的一系列问题。是个很好的参考书籍。 不过我在windows7下跑的,没有出现release_unicode4这个文件夹,不知道为 ...
微软2007.3.16日推出 Windows Genuine Advantage 通知(Windows正版验证优势提醒) (KB905474)补丁;
D版用户更新(KB905474)补丁后,能检测出系统是否是盗版,会在用户开机时提醒用户使用的是非正版软件,并通知用户采取措施。
这个补丁包是从正版XP系统更新后提取的,D版用户在更换序列号仍不能更新,使用附件就解决了.
使用方法:
运行installer.bat或复制 LegitCheckControl.dll WgaLogon.dll WgaTray.exe 到c:\ window\system32 替换现有的文件。如遇覆盖不了,请关闭浏览器 ...
最近老板的东西,要将斯坦福大学开发的NetFPGA版中的Java的GUI界面重新写一遍,为了进行代码的阅读和运行,需要在IDE工具下来进行二次开发,里面的Java的代码量虽然不大,不过也涉及到了或多或少的综合方面的知识,将源代码导入进去,是不可能直接运行成功的,因为斯坦福大学做的时候,是将上层界面和底层数据的获取编在了一起,有很大的耦合性。
刚刚做了几天的代码阅读,代码量没有之前想象的那么大,将目前阅读过的代码的层次结构进行列举如下:
四个文件包:
org.netfpga.backendorg.netfpga.graphicsorg.netfpga.mdiorg.netfpga.router
...
搜索引擎的目标就是在短时间内搜索的信息全面而准确
1 性能指标
召回率 精度
2 面临的挑战
网页数量和数据的更新速度
多媒体内容处理不成熟
不智能
需要更好的支持动态网页
3 发展趋势:
智能、专业、多媒体
附件是4篇入门级的论文,每篇大概3到4页,帮助理解搜索引擎的一些基本概念。
最近学习了下爬虫,而且有很多开源的基于java的爬虫项目,自己对java有些些兴趣,决定在之后的一段时间内写个简单的爬虫,想实现跟Heritrix这样的项目一样的效果确实很难,做个简单的,实现对某个网站上所有资源的下载,保存到本地,便于分析(如Lucene建立索引 来实现搜索引擎等)。
首先确定下需要的东西和大致计划:
HttpClient 4 和 HTMLParser2.0 首先实现单线程的抓取。今明两天争取搞定。 20101224
熬了三天,终于搞了个雏形出来,不过可以开始快速抓取网页了。不过考虑的没有像Heritrix那样周到。界面截图如下:
附件中有我的这个的源代码, ...
1. QQ(聊天)
下载地址:http://im.qq.com/qq/linux/download.shtml(有四个版本,根据自己的linux版本来下载.不过webqq2 不错 推荐使用 将flash装好 在centos上使用基本没问题)
2. LibFetion
下载地址 http://www.libfetion.org/index.php
里面有针对不同的linux系统来下载的libFetion软件。
3. JDK和Eclipse(Java编程)
JDK的下载地址为:http://www.oracle.com/technetwork/java/javase/downloads/inde ...
(转载 我试过 目前好使 2010-11-29)
很快的CentOS国内更新源 ustc mirror
CentOS USTC mirror 这个镜像不错,大家更新可用这个
CentOS USTC mirror
cd /etc/yum.repos.d
mv CentOS-Base.repo CentOS-Base.repo.save(备份原来文件)
wget http://centos.ustc.edu.cn/CentOS-Base.repo(下载新的文件 要联网)
yum update(进行更新)
--------------------------------------------- ...
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果;
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
文档通过Http利用XML 加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响 ...
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。
最近用Heritrix下载了大概1.5G 左右的网页,但是内容包含了很多HTML标签内容,打算今天搞下HTMLParser,写下简单使用实例。
(待续)
在Lucene 3.0.2中,在Field 、 Document 和 Query中都有setBoost接口,但是为什么在Query中设置boost值,在搜索结果中却没有任何变化呢?求高人指教啊。。。 代码如下:
package com.eric.lucene;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apach ...
IK Analyzer 分词器的使用Demo,也是看了我一个朋友的博客,自己理解了下,就放在这里了,代码稍微改了改,希望能对IK Analyzer感兴趣的朋友有帮助。
package com.eric.lucene;
import java.io.IOException;
import java.io.StringReader;
import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;
public class IKAnalyzerApp {
public static ...
持续更新1 Document 和 Field2 IndexWriter 3 IndexReader 4 Lucene中的倒排实现 5 IndexSearcher 6 Analyzer 7 Directory8 Query、Sort和Filter 9 Lucene中的Ranking算法以及改进
1. Document 和 Field
Document和Field在索引创建的过程中必不可少。而Document和Field可以理解成传统的关系型数据库中的记录和字段的关系,而字段可以有很多个,那么Document中可以添加很多个Field,方便满足各种不同的查询。如Field可以是文件内容、文件 ...
使用Heritrix进行抓取网页,有半天阅读我之前博客的话,很容易就能够顺利的进行抓取任务,但在抓取过程中可能会遇到:
1 想抓取特定格式/特定要求 的网页
这个要根据具体的网站,才能采取具体的措施。这主要是根据网站编写的时候,它的出度的具体格式。如果是类似<a href="http://www.xxx.xxx.xx...." ..>这样的可以直接指向某个具体的URL,那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容,而只是简单指向本网站下的某个网页,那么在加入到URI中的时候,要记得加上头使得它是一个完整的网页的URL。 ...