- 浏览: 72973 次
-
最新评论
-
waret:
"&" "ctrl+z& ...
2011-12-13 -
waret:
在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
2011-11-14 -
waret:
1、序列化是干什么的? 简单说就是为了保存在内存中的各种对象 ...
2011-11-15 -
waret:
吼吼~最小长度为5~
2011-10-22
文章列表
2011-11-10
- 博客分类:
- 学习
正则表达式学习:
大括号语法:{n}表示前面匹配的字符序列出现n次,{n,m}表示前面匹配的字符序列出现n到m次。
字符类:即[]。在字符类中的字符是或关系,一些元字符在字符类中与字符类外表示不同的含义.^在字符类[后面第一的位置上表示对字符类符号进行取反,即匹配不包含字符类中各个字符的序列。^在字符类中非第一的位置上表示它本身,在字符类外表示行或文章的边界。
行、文章、词的边界表示:行或文章的起始边界^,行或文章的结束边界$。词的起始边界\<,词的结束边界\>,\b表示词的起始或结束边界,词的边界可能是空格也可能是标点符号。
组:即(),组内的字符被作为一个组合进行匹配,并得到相应 ...
2011-11-09
- 博客分类:
- 学习
正则表达式学习:
元字符
? 匹配0次或1次出现
* 匹配0次或多次出现,(在windows中findstr命令中,与?的含义相同)
+ 匹配1次或多次出现
. 匹配任意字符,除了换行符
\d 匹配0-9数字,在OpenOffice.org中不支持
\D 匹配非数字字符
\w 匹配字母、数字和下划线
\W 匹配除字母、数字、下划线以外的字符
\s 匹配一个空格、一个换行、一个制表符
\S 匹配非空白字符
\n 匹配换行符
\t 匹配制表符
html学习:
标签的含义
<h1></h1>
<h6></h6>标题
<p></p> ...
2011-11-08
- 博客分类:
- 学习
数据库创建表语句:create table 表名(属性名 类型,属性名 类型,..)可设置charset编码;
数据库删除表语句:drop table 表名;
数据库连接池可支持循环多次访问数据库,每次建立一个连接,访问结束后将连接返回到连接池。最后释放连接池。
2011-11-07
- 博客分类:
- 学习
程序是一系列事件的序列。
eclipse中tomcat加载项目在Servers中的server.xml配置
2011-11-02
- 博客分类:
- 学习
linux下查看文件及文件夹权限的命令是:
ls -l 文件名
ls -ld 文件夹名
数据结构:
二叉数的遍历有三种:前序遍历,中序遍历,后序遍历
二叉数删除最左节点。
都用到了递归。
表示二叉数可使用数组,也可使用节点类。
在同一局域网下如果有ip冲突,ssh时两台机器会争夺这一ip,当客户机请求时,不一定是哪台机器接受请求。
2011-11-01
- 博客分类:
- 数据分析小组相关
想提高程序分析的准确度,语料库的问题很多。
百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分
微话题:涉及内容不够全面
搜狗文本分类语料库:分类不准确
鲜果网语料库:目前测试还可以
分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语料库。搜狗语料库是针对中文新闻,资源比较好整理。对于一些其他话题,如团购信息,则语料库是个问题。
2011-10-31
- 博客分类:
- 学习
提高Servlet程序运行速度小总结:
1。将每次访问都需要用到的数据,放在servlet构造函数中,这些变量在多次访问中只生成一次,不会重复计算。
2。供计算的数据读到内存中后比在磁盘中反复读取速度快
3. string类型少用“+”来进行字符串连接,可以使用StringBuilder的append再转换成String
4. 少使用System.out.println(),会造成程序等待。
-----------------------------------------------
1。网上说String[]类型比ArrayList存储读取的速度快,在小数据量时并没有发现
2。将程序运行的中 ...
2011-10-26
- 博客分类:
- 数据分析小组相关
servlet的构造函数中可进行一些数据的缓存,这些数据只缓存一次,再次调用节省时间。
类的构造函数每次调用会重新生成类的成员变量,对于设置为静态的变量,并且多个线程使用,这些变量的初始化不能放在构造函数中。
2011-10-22
- 博客分类:
- 数据分析小组相关
为了提高程序的速度,更多的使用了变量存储,而不是每次都去硬盘上读取,速度提高了很多。但距离GC同学的目标还差很多,继续努力之。
采集数据遇到的问题。。采集时采集到的数据没有存储,浪费了流量。
2011-10-21
- 博客分类:
- 学习
数据库中select语句,where 判断域是否为NULL时,需使用IS NULL。
有些网站采集数据限制为单线程采集。
JAVA中注意抛出异常。抛出异常的语句后面的语句将不被执行。
ftp对中文编码会进行转换。
2011-10-19
- 博客分类:
- 数据分析小组相关
专长的分析采用了新的思路,结果还可以。
java文件输入,不要忘了写close()
servlet中html传值,input type text是单行文本输入,textarea可支持多行文本输入
2011-10-18
- 博客分类:
- 数据分析小组相关
今天测试了很多组数据,兴趣的分类对一些数据的分类不准确,尤其是没有明确特征的句子,对于具有明确特征的句子,如“笑话、饮食、电影”的句子分类很准确。
这导致每个用户的兴趣总是几种在那些分类不准确的几个分类中。移除语料库中那几个文件夹后,可能有些实际数据与那些分类的句子不能得到正确分类。还在测试中。
专长的分析,是否需要新的语料库还没有思路。微博的语言只能去猜测可能的专长。
打算使用分词后扫描搜狗细胞词库的方法来确定专长。