<?xml version="1.0" encoding="utf-8"?>
<sphinx:docset>
<sphinx:schema>
<sphinx:field name="subject"/> //索引的类容
<sphinx:field name="content"/> //索引的类容
<sphinx:attr name="published" type="timestamp"/>
<sphinx:attr name="author_id" type="int" bits="16" default="1"/>
</sphinx:schema>
<sphinx:document id="1234">
<content>this is the main content <![CDATA[[and this <cdata> entry must be
handled properly by xml parser lib]]></content>
<published>1012325463</published>
<subject>note how field/attr tags can be in <b class="red">randomized</b>
order</subject>
<misc>some undeclared element</misc>
</sphinx:document>
</sphinx:docset>
1.数据模式,即数据字段和属性的完整列表,必须在任何文档被分析之前就确定。这既可以在
配置文件中用xmlpipe_field和xmlpipe_attr_xxx(配置文件)选项指定,也可以就在数据流中用
<sphinx:schema>元素指定。
2.支持输入数据流的何种字符编码取决于系统中是否安装了iconv,该解析器内置对US-ASCII,ISO-8859-1,UTF-8和一些UTF-16变体的支持
3.xmlpipe2可以识别的XML元素(标签)
4.部分标签的认识:
Sphinx:schema : 包括数据字段和属性的声明。则它会覆盖配置文件中对数据源的设定。
Sphinx:field:声明一个全文数据字段。唯一可识别的属性是“name”,
sphinx:attr
可选元素,sphinx:schema的子元素。用于声明具体属性。其已知的属性有:
● “name”,设定该属性名称,后续文档中具有该名称的元素应被当作一个属性
对待。
● ”type”,设定该属性的类型。可能的类型包括
“int”,“timestamp”,“str2ordinal”,“bool”和“float”
● “bits”,设定“int”型属性的宽度,有效值为1到32
● “default”,设定该属性的默认值,若后续文档中没有指定这个属性,则使用此
默认值。
配置文件如下:
source src1
{
#####################################################################
## xmlpipe2 settings
#####################################################################
type= xmlpipe2
xmlpipe_command= cat /usr/local/sphinx/var/test2.xml
# xmlpipe2 field declaration
# multi-value, optional, default is empty
#
xmlpipe_field= subject
xmlpipe_field= content
# xmlpipe2 attribute declaration
# multi-value, optional, default is empty
# all xmlpipe_attr_XXX options are fully similar to sql_attr_XXX
#
xmlpipe_attr_timestamp= published
xmlpipe_attr_uint= author_id
}
将字符的编码编写成utf-8 默认为abc
如下基本可以创建一个索引了。
注:在xmlpipe2中有好多的结构。同时还不支持中文。
分享到:
相关推荐
此扩展提供了一种为 Sphinx 搜索引擎创建 xmlpipe2 数据源的简单方法。 安装 安装此扩展的首选方法是通过 。 要么跑 composer require --prefer-dist mongosoft/yii2-xmlpipe "*" 或添加 " mongosoft/yii2-...
- **xmlpipe_attr_str2ordinal**: XMLPipe字符串转序号属性。 - **xmlpipe_attr_float**: XMLPipe浮点型属性。 - **xmlpipe_attr_multi**: XMLPipe多值属性。 **8.2 索引配置选项** - **type**: 索引类型。 - **...
它通过定义XML数据到数据库表的映射,将XML文档流式处理到数据库中,这一过程被称为“XML管道”(XMLPipe)。这种设计允许用户在不需深入了解数据库结构的情况下,快速地将XML数据导入到数据库系统中。XMLPipeDB支持...
3.9. xmlpipe2 数据源 3.10. 实时索引 更新 3.11. 索引合并 4. 搜索 4.1. 匹配模式 4.2. 布尔查询 4.3. 扩展查询 4.4. 权值计算 4.5. 排序模式 4.6. 结果分组(聚类) 4.7. 分布式搜索 4.8. searchd 日志...
3.9. xmlpipe2 数据源 3.10. 实时索引 更新 3.11. 索引合并 4. 搜索 4.1. 匹配模式 4.2. 布尔查询 4.3. 扩展查询 4.4. 权值计算 4.5. 排序模式 4.6. 结果分组(聚类) 4.7. 分布式搜索 4.8. searchd 日志...
xmlpipe2是一种改进版的XML数据源接口,提供了更高效的数据读取能力。 **3.10 实时索引更新** 支持实时更新索引,即当数据发生变化时自动更新索引。 **3.11 索引合并** 在分布式环境中,可以将多个索引合并为一...
- 数据源可以是SQL数据库(如MySQL、PostgreSQL)或者XML数据流(xmlpipe、xmlpipe2)。 - 属性和多值属性(MVA)用于丰富索引信息,如分类、时间戳等。 - 索引建立涉及数据抽取、预处理和倒排索引生成。 - 字符...
Sphinx支持多种数据源,包括SQL数据源(如MySQL和PostgreSQL)、XML数据源(xmlpipe和xmlpipe2),以及Python数据源。索引过程中还涉及到属性的配置,包括多值属性(MVA)的处理。在建立索引时还需要考虑字符集、大...
7. **XMLpipe2数据源**:XMLpipe2是Sphinx提供的一种用于导入数据的协议,允许自定义数据格式和传输。"mysphinx"可能使用XMLpipe2来高效地导入和处理复杂数据结构。 8. **API接口**:Sphinx提供多种语言的API,如...
它还支持XMLpipe2数据源,允许你从非SQL数据源导入数据进行索引。 值得注意的是,由于“coreseek官网不知什么时候关了”,这意味着获取官方更新和支持可能会变得困难。不过,社区和第三方资源仍然可能提供帮助,...
9. **xmlpipe2数据源:** - 是xmlpipe的改进版,支持更灵活的配置。 - 可以处理大型XML文件。 10. **实时索引更新:** - 支持通过特定API实时更新索引。 - 适用于需要频繁更新数据的应用场景。 11. **索引合并...
Sphinx提供实时、高效的全文索引和搜索能力,支持多种数据源,如MySQL、PostgreSQL等数据库,以及XMLpipe2这样的自定义数据流。通过使用Sphinx,开发者可以创建高性能的搜索解决方案,提供精确的匹配度和快速的响应...
xmlpipe_word_char_level = 1 } index test { source = src1 path = /var/sphinx/data/test docinfo = extern mlock = 0 min_prefix_len = 1 min_infix_len = 1 enable_star = 1 html_strip = 1 ...
- **多种数据源**:Sphinx支持MySQL、PostgreSQL等多种数据库,还可以通过XMLpipe2从非SQL数据源构建索引。 **3. Coreseek 全文搜索服务器2.5的安装与配置:** `csft_setup_2.5.2.exe`是Coreseek 全文搜索服务器2.5...
perl-Sphinx-Config-Builder ... 这种方法对于管理需要额外步骤生成 XMLPipe/Pipe2 源的非本机支持的 Sphinx 数据源也特别有用。 注意:该模块不读取 Sphinx 配置文件,它只是允许编写一个程序,动态输出 Sphinx
2. **高精度搜索**:Sphinx支持布尔运算符、短语匹配、模糊搜索等多种查询方式,可以实现精准的搜索结果排序。同时,它还提供了相关性排名,帮助用户找到最相关的搜索结果。 3. **实时更新**:Sphinx可以通过增量...
2. **教程**:可能包括安装指南、配置手册、API参考等,帮助用户了解如何设置和使用CoreSeek。这些教程可能涉及系统需求、编译与安装步骤、配置文件解析、数据源连接、索引构建和更新、搜索接口的使用等。 3. **...
- `XMLPipe`:允许以流式方式处理大XML文档,无需完全加载到内存中。 - `Streaming API for XML (SAX)`:Oracle提供了SAX接口,适用于处理大型XML文件。 7. **XML集成应用** - `Web Services`:Oracle支持XML...
除了hexml,还有其他Haskell XML解析库,如“xml-conduit”和“aeson-xmlpipe2”,它们在性能和错误处理上可能更为成熟。例如,“xml-conduit”结合了SAX和DOM的优点,提供了一个流式API,既节省内存又保持了操作的...
Sphinx支持多种数据源,如SQL、xmlpipe、Python等,每种数据源都有其特定的索引方式和配置选项。索引可以是静态的,也可以是实时更新的,还可以通过合并多个小索引来创建一个大索引。 RT(Real-time)索引提供了一...