`
l_mai
  • 浏览: 68594 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22
文章列表

2011-11-10

正则表达式学习: 大括号语法:{n}表示前面匹配的字符序列出现n次,{n,m}表示前面匹配的字符序列出现n到m次。 字符类:即[]。在字符类中的字符是或关系,一些元字符在字符类中与字符类外表示不同的含义.^在字符类[后面第一的位置上表示对字符类符号进行取反,即匹配不包含字符类中各个字符的序列。^在字符类中非第一的位置上表示它本身,在字符类外表示行或文章的边界。 行、文章、词的边界表示:行或文章的起始边界^,行或文章的结束边界$。词的起始边界\<,词的结束边界\>,\b表示词的起始或结束边界,词的边界可能是空格也可能是标点符号。 组:即(),组内的字符被作为一个组合进行匹配,并得到相应 ...

2011-11-09

正则表达式学习: 元字符 ? 匹配0次或1次出现 * 匹配0次或多次出现,(在windows中findstr命令中,与?的含义相同) + 匹配1次或多次出现 . 匹配任意字符,除了换行符 \d 匹配0-9数字,在OpenOffice.org中不支持 \D 匹配非数字字符 \w 匹配字母、数字和下划线 \W 匹配除字母、数字、下划线以外的字符 \s 匹配一个空格、一个换行、一个制表符 \S 匹配非空白字符 \n 匹配换行符 \t 匹配制表符 html学习: 标签的含义 <h1></h1> <h6></h6>标题 <p></p> ...

2011-11-08

数据库创建表语句:create table 表名(属性名 类型,属性名 类型,..)可设置charset编码; 数据库删除表语句:drop table 表名; 数据库连接池可支持循环多次访问数据库,每次建立一个连接,访问结束后将连接返回到连接池。最后释放连接池。

2011-11-07

程序是一系列事件的序列。 eclipse中tomcat加载项目在Servers中的server.xml配置

2011-11-02

linux下查看文件及文件夹权限的命令是: ls -l 文件名 ls -ld 文件夹名 数据结构: 二叉数的遍历有三种:前序遍历,中序遍历,后序遍历 二叉数删除最左节点。 都用到了递归。 表示二叉数可使用数组,也可使用节点类。 在同一局域网下如果有ip冲突,ssh时两台机器会争夺这一ip,当客户机请求时,不一定是哪台机器接受请求。
想提高程序分析的准确度,语料库的问题很多。 百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分 微话题:涉及内容不够全面 搜狗文本分类语料库:分类不准确 鲜果网语料库:目前测试还可以 分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语料库。搜狗语料库是针对中文新闻,资源比较好整理。对于一些其他话题,如团购信息,则语料库是个问题。

2011-10-31

提高Servlet程序运行速度小总结: 1。将每次访问都需要用到的数据,放在servlet构造函数中,这些变量在多次访问中只生成一次,不会重复计算。 2。供计算的数据读到内存中后比在磁盘中反复读取速度快 3. string类型少用“+”来进行字符串连接,可以使用StringBuilder的append再转换成String 4. 少使用System.out.println(),会造成程序等待。 ----------------------------------------------- 1。网上说String[]类型比ArrayList存储读取的速度快,在小数据量时并没有发现 2。将程序运行的中 ...
servlet的构造函数中可进行一些数据的缓存,这些数据只缓存一次,再次调用节省时间。 类的构造函数每次调用会重新生成类的成员变量,对于设置为静态的变量,并且多个线程使用,这些变量的初始化不能放在构造函数中。
为了提高程序的速度,更多的使用了变量存储,而不是每次都去硬盘上读取,速度提高了很多。但距离GC同学的目标还差很多,继续努力之。 采集数据遇到的问题。。采集时采集到的数据没有存储,浪费了流量。

2011-10-21

数据库中select语句,where 判断域是否为NULL时,需使用IS NULL。 有些网站采集数据限制为单线程采集。 JAVA中注意抛出异常。抛出异常的语句后面的语句将不被执行。 ftp对中文编码会进行转换。
语料库还要重新采集。词库还需要与分类的名称同步。
专长的分析采用了新的思路,结果还可以。 java文件输入,不要忘了写close() servlet中html传值,input type text是单行文本输入,textarea可支持多行文本输入
今天测试了很多组数据,兴趣的分类对一些数据的分类不准确,尤其是没有明确特征的句子,对于具有明确特征的句子,如“笑话、饮食、电影”的句子分类很准确。 这导致每个用户的兴趣总是几种在那些分类不准确的几个分类中。移除语料库中那几个文件夹后,可能有些实际数据与那些分类的句子不能得到正确分类。还在测试中。 专长的分析,是否需要新的语料库还没有思路。微博的语言只能去猜测可能的专长。 打算使用分词后扫描搜狗细胞词库的方法来确定专长。
貌似曾经用这个网站和CSDN的连接功能,找回了曾经使用的gmail邮箱的用户名。
Global site tag (gtag.js) - Google Analytics