`
fullfocus
  • 浏览: 102281 次
  • 来自: 厦门
最近访客 更多访客>>
社区版块
存档分类
最新评论

毕业设计6---web网页自动分类(开题报告)3.27

阅读更多
(本科)毕业设计(论文)的目标:
 
目标:
Web搜索引擎返回的页面进行自动的分类。
要点:
1. Web搜索引擎返回的页面是动态的,其文档类别是未知的、不固定的。
2. 根据页面内容自身的差异,使用文档聚类的方法对页面进行自动归类。
3. 分类显示搜索结果。
4. 满足中文查询需求。
5. 针对两类文件:a. 纯文本文件(无超链接,无格式)
                                b. 网页(html,xml..
   注:暂不考虑各种颜色信息,以及各种格式对文本分析的影响
       暂不考虑doc, pdf等有格式文件
6. 系统能够做到快速的反应
7. 分类结果的显示具备人性化,使用户可以轻松的根据分类目录标题找到自己需要的信息。
子功能:
1.从搜索引擎获得Web页面
2.Web网页文档的预处理
3.文档聚类算法
4.Web文档聚类结果的可视化展现
 
 
 
 
 
 
 
 
 
 
 
 
 
 
实现方法:
本系统拟采用无监督的自动聚类算法,并根据系统的整个运作流程,划分为三个主要模块:输入模块,过滤模块,输出模块。下面针对各个模块的实现方法进行详细的讲解。
图1-1 web网页自动分类系统的基本框架
一.输入模块
自动分类系统首先需要从各大搜索引擎中获得原始数据源。这里我们根据用户输入的关键词,通过Google提供的搜索API获得查询结果的一个列表。这个便是我们最初的数据源。其中的每一条结果至少包含一个URL链接,一个标题,以及一些关于此文档的摘要。根据(Oren Zamir and Oren Etzioni,2001)的研究,源输入数据为文档摘要和整个文档的对比过程中,采用文档摘要的方法不仅大大提高处理速度,而且摘要提供的信息足以满足聚类分析的要求。所以在本系统中,我们采用文档摘要方法。
对中文内容采用中科院研制的ICTCLAS进行分词,英文使用SNOWBALL进行词干化。分词并消除噪声后,建立VSM(向量空间模型)为下面各种工作的进行打下基础。然后,进行特征提取以达到进一步降维的目的。
 
二.过滤模块
根据建立的VSM模型和实际的情况,我们采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后缀树算法对文档进行聚类。为了在最后的聚类结果中,分类目录标签更有易知性,浓缩性,并更好的反映该分类的所有内容,我们采用描述符优先方法DCFC(Description comes first clustering),与传统的聚类方式不同,DCFC先提取一个有意义的,多样的分类标签(cluster labels)集合,然后把文档聚类到合适的标签底下—这就完成了web文档的聚类。
 
三.输出模块
聚类完成后,采用什么方式展现给用户也是个十分重要的问题。主要要求是:易懂,便捷。我们采用分类目录的结构形式提交给用户。搜索引擎返回的结果已经按照相关度的高低进行排序,所以考虑到速度,性能,效率因素,我们选取并返回一定量的搜索结果(比如默认为100条)。在界面中,为了更好的增强用户体验,我们将会加入Ajax异步通讯功能,使界面更加友好。示例如下:
(查询词:“引擎”, 括号内的数字表示该类中包含的文档个数)
+网络服务(6)
+汽车(10)
+计算机图像(7)
+工业(2)
+军事(9)
+经济时代(3)
+查看更多(…)
 
四.系统流程全图
图1-2 系统流程全图
 
五.开发平台和相关资源
1.开发工具:Eclipse + Struts + Tomcat
2.版本管理工具: CVS
3.测试工具: JUnit(单元测试) + JMeter(压力测试)
4.基于平台: Windows
5.相关资源:Google API包
 
时间进度安排:
2007年2月26日-2007年3月31 学习各种相关知识。熟悉系统的开发平和相应的开发工具。架构好整个开发框架。
2007年4月 1日-2006年4月 7 日 完成系统的数据获取模块
2007年4月 8日-2006年4月22 完成系统的过滤模块。
2007年4月23日-2006年4月31日 完成系统的输出模块。
2007年5月04日-2006年5月25 完成系统的集成测试和压力测试。
2007年5月26日-2006年6月初     完成毕业论文并装订。
 

-----------------------------------------------抓鱼社区 www.zhuayu.net------------------------------------------------------------

分享到:
评论
5 楼 bibitoo712 2007-03-29  
shaucle 写道
俺当年的毕业设计是自由发挥(关于cluster的),哈哈,反正他们都不懂..


还有买论文的
4 楼 fullfocus 2007-03-29  
呵呵,大概只一篇毕业论文了
3 楼 shaucle 2007-03-29  
俺当年的毕业设计是自由发挥(关于cluster的),哈哈,反正他们都不懂..
2 楼 wshsm 2007-03-29  
呵呵,有写文档吗?还是只是最后一篇论文
1 楼 andyandyandy 2007-03-29  
2007年4月23日-2006年4月31日 完成系统的输出模块。
------------------------------------------------
4月有31号?
代码和文档一起完工,2个月可不轻松啊!

相关推荐

    linux下安装 cmake-3.27.6安装脚本 cmake-3.27.6-linux-x86-64.sh

    linux下安装cmake安装脚本: 方法如下: 1:sudo chmod +x cmake-3.27.6-linux-x86_64.sh 2:sudo sh cmake-3.27.6-linux-x86_64.sh --skip-license --prefix=/usr/local/

    linux下安装 cmake-3.27.7安装脚本 cmake-3.27.7-linux-x86-64.sh

    linux下安装cmake安装脚本: 方法如下: 1:sudo chmod +x cmake-3.27.7-linux-x86_64.sh 2:sudo sh cmake-3.27.7-linux-x86_64.sh --skip-license --prefix=/usr/local/

    cmake-3.27.5-windows-x86-64 cmake 64位安装包

    标题提到的“cmake-3.27.5-windows-x86_64”是指CMake的3.27.5版本,专为Windows操作系统设计的64位版本。这个版本修复了一些已知问题,增加了新功能,并可能提升了性能和稳定性。安装包的格式是`.msi`,这是...

    javassist-3.27.0-GA-API文档-中英对照版.zip

    赠送jar包:javassist-3.27.0-GA.jar; 赠送原API文档:javassist-3.27.0-GA-javadoc.jar; 赠送源代码:javassist-3.27.0-GA-sources.jar; 赠送Maven依赖信息文件:javassist-3.27.0-GA.pom; 包含翻译后的API文档...

    nexus-3.27.0-03-unix.tar

    download from https://sonatype-download.global.ssl.fastly.net/repository/downloads-prod-group/3/nexus-3.27.0-03-unix.tar.gz

    javassist-3.27.0-GA.jar

    javassist-3.27.0-GA.jar

    cmake-3.27.9-linux-x86_64.sh.zip

    cmake-3.27.9-linux-x86_64.sh.zip

    nexus-3.27.0-03.zip

    标题中的“nexus-3.27.0-03.zip”指的是Sonatype Nexus Repository Manager的一个特定版本,这是软件发布和存储的工具,主要用于管理Java的Maven仓库,但也可用于npm、Python、Ruby等其他包管理器。Nexus提供了一个...

    sqlite-jdbc-3.27.2.1.jar包

    sqlite-jdbc-3.27.2.1.jar包

    nexus-3.27.0-03-unix.tar.gz

    Nexus 3.27.0-03是其在Linux平台上的一个版本,这个版本的安装包名为“nexus-3.27.0-03-unix.tar.gz”,专为Unix/Linux系统设计,包含了所有必要的文件和配置。 下载Nexus 3可能面临的问题,如网络不稳定导致的下载...

    cmake-3.27.9-windows-x86-64.zip

    Windows-x85_64 Cmake

    cmake-3.27.6-linux-aarch64.tar.gz

    标题中的 "cmake-3.27.6-linux-aarch64.tar.gz" 指的是 CMake 的一个特定版本,即 3.27.6,针对 Linux 平台的 aarch64(也称为 ARM64 或 AArch64)架构。这个文件是一个压缩包,通常在下载后需要解压以获取里面的...

    cmake-3.27.4 linux源码

    CMake的设计理念是不直接处理构建本身,而是生成本地构建系统所需的配置文件,这样开发者可以专注于编写源代码,而无需关心构建细节。 在"Cmake-3.27.4 Linux源码"中,我们获得的是CMake的最新稳定版本3.27.4的源...

    cmake-3.27.6-windows-arm64.zip

    标题 "cmake-3.27.6-windows-arm64.zip" 暗示了这是一个针对 Windows 操作系统且适用于 ARM64 架构的 CMake 安装包。版本号 3.27.6 表明这是 CMake 的最新稳定版之一,可能包含性能优化、新功能以及对之前版本的错误...

    cmake-3.27.9-windows-x86_64.zip

    cmake-3.27.9-windows-x86_64.zip

    cmake-3.27.6-windows-i386.zip

    在提供的压缩包 "cmake-3.27.6-windows-i386.zip" 中,我们看到的是 CMake 的一个特定版本——3.27.6,专为 Windows 操作系统上的 32 位(i386)架构设计。这个版本可能包含了用于安装 CMake 的所有必要组件,包括可...

    Orange3-3.27.1-cp36-cp36m-win32

    Orange3-3.27.1-cp36-cp36m-win32

    nexus-3.27.0-03-unix.tar-.zip

    nexus-3.27.0-03-unix.tar-.zip

    nexus-3.27.0-03-mac.tgz

    Nexus环境搭建,可以上传代码到nexus仓库Nexus环境搭建,可以上传代码到nexus仓库Nexus环境搭建,可以上传代码到nexus仓库Nexus环境搭建,可以上传代码到nexus仓库

    c-dilla3.27

    《3DMAX插件c-dilla 3.27版详解及应用》 在3D建模和动画设计领域,3DS MAX是一款广泛使用的专业软件,它的强大功能和易用性深受用户喜爱。然而,即便如此优秀的软件,在使用过程中也难免会遇到文件缺失或不兼容的...

Global site tag (gtag.js) - Google Analytics