2011-11-10

博客分类：

学习

正则表达式学习：大括号语法：{n}表示前面匹配的字符序列出现n次，{n,m}表示前面匹配的字符序列出现n到m次。字符类：即[]。在字符类中的字符是或关系，一些元字符在字符类中与字符类外表示不同的含义.^在字符类[后面第一的位置上表示对字符类符号进行取反，即匹配不包含字符类中各个字符的序列。^在字符类中非第一的位置上表示它本身，在字符类外表示行或文章的边界。行、文章、词的边界表示：行或文章的起始边界^，行或文章的结束边界$。词的起始边界\<，词的结束边界\>，\b表示词的起始或结束边界,词的边界可能是空格也可能是标点符号。组：即()，组内的字符被作为一个组合进行匹配，并得到相应 ...

2011-11-10 15:23
浏览 585
评论(0)
分类:编程语言

2011-11-09

博客分类：

学习

正则表达式学习：元字符？匹配0次或1次出现 * 匹配0次或多次出现，（在windows中findstr命令中，与？的含义相同） + 匹配1次或多次出现 . 匹配任意字符，除了换行符 \d 匹配0-9数字，在OpenOffice.org中不支持 \D 匹配非数字字符 \w 匹配字母、数字和下划线 \W 匹配除字母、数字、下划线以外的字符 \s 匹配一个空格、一个换行、一个制表符 \S 匹配非空白字符 \n 匹配换行符 \t 匹配制表符 html学习：标签的含义 <h1></h1> <h6></h6>标题 <p></p> ...

2011-11-09 14:36
浏览 542
评论(0)
分类:编程语言

2011-11-08

博客分类：

学习

数据库创建表语句：create table 表名(属性名类型，属性名类型，..)可设置charset编码; 数据库删除表语句：drop table 表名; 数据库连接池可支持循环多次访问数据库，每次建立一个连接，访问结束后将连接返回到连接池。最后释放连接池。

2011-11-08 09:11
浏览 567
评论(0)
分类:数据库

2011-11-07

博客分类：

学习

程序是一系列事件的序列。 eclipse中tomcat加载项目在Servers中的server.xml配置

2011-11-07 16:00
浏览 301
评论(0)
分类:编程语言

2011-11-02

博客分类：

学习

linux下查看文件及文件夹权限的命令是： ls -l 文件名 ls -ld 文件夹名数据结构：二叉数的遍历有三种：前序遍历，中序遍历，后序遍历二叉数删除最左节点。都用到了递归。表示二叉数可使用数组，也可使用节点类。在同一局域网下如果有ip冲突，ssh时两台机器会争夺这一ip，当客户机请求时，不一定是哪台机器接受请求。

2011-11-02 20:34
浏览 488
评论(0)
分类:互联网

2011-11-01

博客分类：

数据分析小组相关

想提高程序分析的准确度，语料库的问题很多。百度知道：每一条的文字太少，各个分类不平衡的现象比较严重-》解决方法：重新对文字进行整合和划分微话题：涉及内容不够全面搜狗文本分类语料库：分类不准确鲜果网语料库：目前测试还可以分析原因：语料库中，没篇txt包含的文字数不能太少，每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容，最好采用不同的语料库。搜狗语料库是针对中文新闻，资源比较好整理。对于一些其他话题，如团购信息，则语料库是个问题。

2011-11-01 20:57
浏览 378
评论(0)
分类:互联网

2011-10-31

博客分类：

学习

提高Servlet程序运行速度小总结： 1。将每次访问都需要用到的数据，放在servlet构造函数中，这些变量在多次访问中只生成一次，不会重复计算。 2。供计算的数据读到内存中后比在磁盘中反复读取速度快 3. string类型少用“+”来进行字符串连接，可以使用StringBuilder的append再转换成String 4. 少使用System.out.println()，会造成程序等待。 ----------------------------------------------- 1。网上说String[]类型比ArrayList存储读取的速度快，在小数据量时并没有发现 2。将程序运行的中 ...

2011-10-31 13:05
浏览 747
评论(0)
分类:互联网

2011-10-26

博客分类：

数据分析小组相关

servlet的构造函数中可进行一些数据的缓存，这些数据只缓存一次，再次调用节省时间。类的构造函数每次调用会重新生成类的成员变量，对于设置为静态的变量，并且多个线程使用，这些变量的初始化不能放在构造函数中。

2011-10-26 22:44
浏览 700
评论(0)
分类:互联网

2011-10-22

博客分类：

数据分析小组相关

为了提高程序的速度，更多的使用了变量存储，而不是每次都去硬盘上读取，速度提高了很多。但距离GC同学的目标还差很多，继续努力之。采集数据遇到的问题。。采集时采集到的数据没有存储，浪费了流量。

2011-10-22 10:59
浏览 827
评论(1)
分类:互联网

2011-10-21

博客分类：

学习

数据库中select语句，where 判断域是否为NULL时，需使用IS NULL。有些网站采集数据限制为单线程采集。 JAVA中注意抛出异常。抛出异常的语句后面的语句将不被执行。 ftp对中文编码会进行转换。

2011-10-21 15:26
浏览 719
评论(0)
分类:数据库

2011-10-20

博客分类：

数据分析小组相关

语料库还要重新采集。词库还需要与分类的名称同步。

2011-10-20 15:32
浏览 693
评论(0)
分类:互联网

2011-10-19

博客分类：

数据分析小组相关

专长的分析采用了新的思路，结果还可以。 java文件输入，不要忘了写close（） servlet中html传值，input type text是单行文本输入，textarea可支持多行文本输入

2011-10-19 16:36
浏览 709
评论(0)
分类:互联网

2011-10-18

博客分类：

数据分析小组相关

今天测试了很多组数据，兴趣的分类对一些数据的分类不准确，尤其是没有明确特征的句子，对于具有明确特征的句子，如“笑话、饮食、电影”的句子分类很准确。这导致每个用户的兴趣总是几种在那些分类不准确的几个分类中。移除语料库中那几个文件夹后，可能有些实际数据与那些分类的句子不能得到正确分类。还在测试中。专长的分析，是否需要新的语料库还没有思路。微博的语言只能去猜测可能的专长。打算使用分词后扫描搜狗细胞词库的方法来确定专长。

2011-10-18 16:53
浏览 628
评论(0)
分类:互联网

a //

gmail csdn

貌似曾经用这个网站和CSDN的连接功能，找回了曾经使用的gmail邮箱的用户名。

2011-10-18 13:16
浏览 764
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

2011-11-10

2011-11-09

2011-11-08

2011-11-07

2011-11-02

2011-11-01

2011-10-31

2011-10-26

2011-10-22

2011-10-21

2011-10-20

2011-10-19

2011-10-18

a //

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>