文章列表
先把数据库的截图发一下,明天再写总结。
sohu_news_src_DB
所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。
实现过程总结如下:
第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道,——按照URL进行划分,最终结果如上图所示(因为数据库设置问题,有一个频道出错了,在处理中)。
第二阶段:选择某一个频道, 使用IK_Analyser算法进行双向全切分,统计分词结 ...
- 2009-03-25 14:33
- 浏览 1272
- 评论(0)
——参照网上提供的方法,但是有些细节性的问题总是容易被忘记。
以使用使用PreparedStatement为例,——Statement没有测试过
以下是我在程序中用到的一段代码:
pstmt=conn.prepareStatement("insert into " +configInfo.keywordsTable+"(id,news_id,tag_type,tag) values (0,?,1,?);");
for(int count=0;count<configinfo></configinfo> ...
- 2009-03-22 08:08
- 浏览 1118
- 评论(0)
中文中经常用到的两种编码是GBK和UTF-8,当对字符流进行处理时,只需要简单的区分这两种编码即可。
对于UTF-8编码格式的文本文件,其前3个字节的值就是-17、-69、-65,所以,判定是否是UTF-8编码格式的代码片段如下:# java.io.File f=new java.io.File("待判定的文本文件名");
# try{
# java.io.InputStream ios=new java.io.FileInputStream(f);
# byte[] b=new byte[3];
# ios.read(b);
# ...
- 2009-03-19 04:42
- 浏览 2247
- 评论(0)
1、MySQL帐户的设置,需要设置两个同名帐户,——如果需要远程访问管理的话,一个设为任意域,另一个设为localhost,只在本地安装过,不知道是否可以远程安装。
2、网站权限设置
修改网站所在文件夹的访问权限,设我的文件夹位于/var/www/xu
$:sudo chown -R www-data:www-data /var/www/xu 设置网络权限,允许上传
$:sudo chmod -R 777 /var/www/xu 设置安装文件的读写权限
- 2009-03-18 04:44
- 浏览 1002
- 评论(0)
打开MySQL的配置文件,可以看到这么一行
ndb-connectstring=127.0.0.1
这行的作用是,禁止数据库的远程访问,——如果需要允许数据库远程访问,直接把这行注销就可以,(#ndb-connectstring=127.0.0.1)。但是,如果是使用phpMyAdmin来管理,就可以绕过这个问题,——没用过MySQL browser,不知道会不会一样。
另一方面,非全局用户是不可以在终端里直接登录。在安装wordpress的时候遇到过另一个问题,对于一个任意主机(*)可访问的用户,必须再添加一个localhost用户,才能在本地访问。
- 2009-03-18 02:52
- 浏览 727
- 评论(0)
因为项目关系,保存到数据库中的信息很大一部分是中文。数据库是采用LAMP软件包进行安装,默认情况下,即使设置了表项的编码为gb2312_bin或者gb2312_chinese_ci,往数据库里写东西,读出来的文本都成了一堆???,为此需要修改MySQL的配置文件。
(ubuntu 8.04 desktop,8.10 server,+MySQL5.0)
打开终端:application – appendix – terminal,
打开MySQL配置文件,$:sudo gedit /etc/mysql/my.cnf
找到[mysqld]和[mysql],在下一行添加
default-ch ...