- 浏览: 580367 次
- 性别:
- 来自: 北京
最新评论
-
liu_jiaqiang:
写的挺好
maven多项目管理 -
H972900846:
我想知道哪里整的,如果是自己写的,那有点牛呀如果是抄的请说明出 ...
SSL身份认证原理 -
春天好:
博主写的很好,赞一个,多谢分享 *(^-^*)分享一个免费好用 ...
定向网站爬虫---初级例子 -
fenglingabc:
经过测试,parameterType="java.u ...
mybatis获取主键和存储过程返回值 -
jyghqpkl:
[u][/u] ...
Cookie的secure 属性
文章列表
1:solr4.0加入中文分词:
在IK的自带文档中有:
这里特别的罗嗦几句,在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。
2:首先在tomcat不是的solr目录下lib中加入:
IKAnalyzer2012FF_u1.jar包
3:然后再solr目录C:\solr\collection1\conf下的schema.xml文件中加入:
...
安装方法:http://wiki.apache.org/solr/SolrTomcat
Solr是一个基于Lucene java库的企业级搜索服务器,本文记录了solr的安装过程,版本为最新的4.0。
1) 下载
从solr的官网http://lucene.apache.org/solr/找到最新的版本4.0.
解开下载的apache-solr-4.0.0.zip或apache-solr-4.0.0.tgz文件到apache-solr-4.0.0目录.
2) 简易安装
solr的发布包中包含一些example,为了方便的运行这 ...
1:lucene中打开一个IndexWriter后就会把索引改lock住,如果强行在打开一个IndexWriter那么就会抛出:
Lock obtain timed out: NativeFSLock@D:\lucene\index\write.lock异常。
2:所以在Lucene中要记得及时关闭IndexWriter。
package com.searchtxt.lucene;
i ...
package com.searchtxt.lucene;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.io.StringReade ...
lucene4.0入门实例
- 博客分类:
- lucene
1:以前用3.5的时候,到现在也差不多忘了,重新看了下文档,写个简单的例子
lucene4.0中有很多新的东西,其中Field类主要不能new Field()要通过其子类去实现比如new StringField()等,对分词等参数也有部分变化。
创建索引的代码如下:
package com.search.lucene;
import java.io.File;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAn ...
Lucene原理
1 反向索引
_ 字符串到文件的映射
左边的称为“字典”,用户要搜索的词语,而右边就是所有包含该次的文档的list,称为“倒排表posting List”.查找lucene和solr就3步
1. 查找包含lucene关键字的文档链表
2. 查找包含solr关键字文档链表
转载:http://hxraid.iteye.com/blog/618962
Trie 树, 又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。
Trie 有三种结 ...
中文分词原理--正向最大匹配
- 博客分类:
- java
转载原文:http://hxraid.iteye.com/blog/667134
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩 ...
我在python中使用的碰到的中文相关的问题有:1.执行是出现“SyntaxError: Non-ASCII character ‘\xe6′ in file 2.py on line 2, but no encoding declared; “类似的错误 。2.打印时或是将输出重定向时结果是乱码。搜集了一些相关资料:
1.可在文件首行加上:
# -*- coding: UTF-8 -*-
2.可设置pythonq解析引擎的默认编码:
# -- coding:utf-8 --
import threading
import time, random
class Counter:
def __init__(self):
self.lock = threading.Lock()
self.value = 0
def increment(self):
self.lock.acquire() # critical section
self.value = value = self.value + 1
self.l ...
import os
import string
print os.path.abspath("test.txt")
dir = os.path.dirname(os.path.abspath("test.txt"))
print dir
print os.path.exists("test.txt")
print os.path.basename(os.path.abspath("test.txt"))
print os.path.join(dir,"test.txt")
...
python 图形处理pil
- 博客分类:
- python
1:为了识别验证码,首先必须学习下python的图形处理
import Image
im = Image.open("F:\\captcha.jpg")
print im.mode, im.size, im.format
结果:
RGB (250, 40) JPEG
rgb是颜色的 第二个是像素 第三个是格式
im.show是看不到图片的,不知道为什么?看网上的解决是:
Here is a quick workaround:
Edit C:\Python26\lib\site-packages\PIL\ImageShow ...
django的模型总结
- 博客分类:
- ubuntu
1:用过django就知道django的model有多方便:
首先介绍下django的模型有哪些属性:先看例子:
Django 模型类的Meta是一个内部类,它用于定义一些Django模型类的行为特性。以下对此作一总结:
abstract
这个属性是定义当前的模型类是不是一个抽象类。所谓抽象类是不会对应数据库表的。一般我们用它来归纳一些公共属性字段,然后继承它的子类可以继承这些字段。比如下面的代码中Human是一个抽象类,Employee是一个继承了Human的子类,那么在运行syncdb命令时,不会生成Human表,但是会生成一个Employee表,它包含了H ...
1:django处理静态文件:
比如 : 我的工程是xiaoshuo-----》进入 小说 ---》 manage.py xiaoshuo 在进入:
在下面建立一个 static 和templates文件夹
打开 settings.py :
import os
STATICFILES_DIRS = (
# Put strings here, like "/home/html/static" or "C:/www/django/static".
# Always use forward slash ...
http://developer.51cto.com/art/201008/222367.htm,解决办法
1: 本来 div父容器会随着子div的高度变化而自适应的,
2:如果子div使用了float属性,此时已经脱离标准流,父div不会随内容的高度变化而变化,解决的办法是在浮动的div下面,加一个空div,设置clear属性both。
<div style="clear:both"></div>
看来对css的理解还是要多多处理啊