需单独开发一个应用,实现知识抓取功能:
1) 可以配置抓取的路径,可以为本地路径、网络路径,ftp路径。对应网络路径和ftp路径,需配置相应的用户名和口令。
2) 路径可以配置多个。每个路径的抓取开始时间可配置,可配置提取间隔。可以指定每个路径抓取到的知识起始路径。
3) 对于配置抓取路径下的文件:
Ø 支持对txt,rtf,htm,html,mht,doc,xls,ppt,pps,pdf,gif,bmp,jpg,rar,zip,docx 类型的文件进行抓取。以附件作为正文的方式进行抓取。
Ø 如果存在除后缀(后缀名为.files)之外与文件名完全相同的文件夹,则文件夹中的文件为正文所依赖文件。比如 文件 “天天向上.htm” 和 文件夹“天天向上.files”
Ø 如果存在除后缀(后缀名不为.files)之外与文件名完全相同的文件夹,则文件夹中的文件作为知识点的附件。比如文件 “天天向上.htm” 和 文件夹“天天向上”
Ø 如果文件夹的名称(除去后缀)不与同级目录下的任何文件名(去除后缀),则进入文件夹中,按照上述规则进行抓取。
4) 抓取时,需要进行关键词自动生成,并进行自动分类。分类规则为:
Ø 每个知识目录上可以设置多个关键词。有界面。
Ø 分类时,按照自动生成的关键词与目录上设置的关键词进行比对,抓取后的知识点放在关键词重合度高的目录下。
1) 知识点地区:抓取时指定,一个抓取路径只对应一个地区。
文件源设定:管理界面,配置到表。
框架:两组线程:获取文件、后续处理。
获取文件==任务队列==抽取文本==生成关键词==自动匹配目录or预先设定目录==形成待入库知识点列表(采编状态,可修改删除)===审核发布。
保存:原始文档路径和最终知识点id的关系。是否和正常知识有区分。
获取文件:每个线程对应一个文档路径;异常处理;第二次遍历时,发现原始文件是否修改过,对修改过的,形成知识点更新及后续处理,待采编和审核。大小限制。对采编时删除了的,记录,下次是否过滤?ftp断点续传。屏蔽哪些文件不要。
形成知识点:处理不了的文件类型都当做附件。转码。如果现有的已经在流程中,废弃。
最好单独机器部署,共享磁阵。
分享到:
相关推荐
在Android系统中,任务列表(通常称为最近应用列表或切换器)是用户快速在不同应用程序之间切换的重要功能。"10.0任务列表获取缩略图"是一个关于如何在Android 10.0版本中实现类似Android 7.0 UI的任务列表缩略图...
【veedid 桌面任务列表】是一款实用的桌面工具,专为用户设计以便于在桌面上管理和跟踪日常任务。这款应用的核心功能是提供一个直观的任务列表,让用户能够快速查看、添加和删除任务,从而提高工作效率。尽管它无法...
【Vue小项目-任务列表】是一个使用JavaScript技术、Vue.js框架和Bootstrap库构建的应用,旨在实现一个简单而实用的任务管理工具。这个应用的核心功能包括创建任务、标记任务为已完成以及删除任务,所有任务数据都将...
标题中的“在任务列表中隐藏进程.e.rar”指的是一个压缩文件,其中可能包含教程、工具或脚本,目的是教授如何在操作系统(可能是Windows)的任务管理器中隐藏正在运行的进程。这种操作通常与系统安全、隐私保护或者...
这个是期末作业,里面有四个功能:1.登录注册功能.2:个人记事本.3:待办任务列表.4:好友列表..好友列表里面有增删好友和过滤搜索,和分组功能.功能很全,值这个分..
本文将详细介绍如何在MyBatis中实现定时任务列表的分页查询以及利用拦截器进行分页切割。 首先,理解定时任务。定时任务通常指的是应用中用来定期执行特定任务的组件,例如清理过期数据、发送邮件通知等。这些任务...
本示例集是jbpm的一个综合应用实例,涵盖了任务列表和权限管理的重要方面,这对于理解和实践jbpm在实际工作中的应用具有极大的帮助。 首先,我们来看"我发起的任务"这个部分。在jbpm中,用户可以发起一个新的流程...
本资源99.999%可以用。因为我知道下载下来不能用有多难受! vue-todolist包括三个版本,一个是脚手架的,一个是普通vue的,一个是使用vue组件编写的。不能用的,一定是环境没有搭配好,我的博客里会有相关的介绍和本...
在JavaScript编程中,实现任务列表是一项常见的练习,它可以帮助初学者理解DOM操作、事件处理以及数据管理等核心概念。任务列表通常是一个简单的应用程序,允许用户添加、删除或标记任务为已完成。下面我们将深入...
在任务列表应用中,可能会有单独的任务组件,负责显示和操作单个任务,以及一个任务列表组件,用于展示所有任务。 2. **响应式数据绑定**:Vue.js的双向数据绑定使得视图和模型之间的数据同步变得简单。在任务列表...
《CSS3实现添加任务列表插件的深度解析》 在网页设计中,任务列表插件是一种常见的交互元素,它能够帮助用户清晰地组织和管理任务,提升网站的用户体验。本篇文章将围绕“CSS3实现添加任务列表插件”这一主题进行...
这个“unix外壳和生成任务列表.rar”压缩包包含了与Unix Shell以及任务管理相关的代码实现。 首先,`xian.c`可能是实现了一个简单的Shell程序,"xian"在中文里可能意味着“线性”。这个程序可能模仿了标准Unix ...
任务列表taskList.vue
这个压缩包文件主要涉及到的是Android应用开发中的任务列表展示,特别是针对Android 10.0系统,它提供了获取任务缩略图、获取最近任务的功能,并且界面设计是模仿了Android 7.0的用户界面风格。以下是这个项目可能...
这个压缩包"jQuery纵向TAB星期任务列表代码.zip"包含了一个使用jQuery实现的、基于星期的纵向任务列表的示例代码。接下来,我们将深入探讨这个项目涉及的技术点,包括CSS、HTML5、JavaScript和jQuery。 1. **HTML5*...
【标题】"完整版在任务列表中隐藏进程.e.rar" 提示我们这个压缩包可能包含一个教程或工具,用于在操作系统中隐藏运行的进程,使其不在任务管理器的任务列表中显示。这涉及到计算机系统底层的进程管理和系统安全相关...
在"jBPM请假工作流"中,我们可以看到一个全面的任务列表,这个列表涵盖了请假流程中的各个阶段,使得整个请假过程变得规范、高效。 1. **我要请假**: 这是流程的起点,员工通过jBPM发起请假申请。用户在系统中填写...
这是一款外观很漂亮的CSS3/SVG任务列表插件,我们可以在输入框中输入自己需要完成的任务名称,点击添加按钮后即可将任务添加到列表中去。这本来是一件非常普通的功能,但是利用CSS3和SVG,我们在添加按钮点击时出现...
《jQuery实现纵向星期任务列表特效解析》 在Web开发中,jQuery库因其简洁的API和强大的功能而广受欢迎。本篇文章将深入探讨如何利用jQuery来创建一个独特的纵向星期任务列表特效,通过分析“jQuery纵向TAB星期任务...