`
ahuaxuan
  • 浏览: 640672 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

深入浅出 jackrabbit 3 创建 document

阅读更多
/**
*作者:ahuaxuan 张荣华
*日期:2009-07-01
**/

在上一篇文章中,ahuaxuan描述了jackrabbit中创建index的主体流程,同时也曾提到,在创建流程中有一个方法非常重要,它影响着整个query体系,这个方法便是createDocument。在本文中,ahuaxuan将和大家一起来探讨如何根据一个node来创建对应的document。

二话不说,直接切入正题,让我们首先来看看SearchIndex#createDocument方法,从这个方法里包含着创建document的逻辑,方法中加入了ahuaxuan的注释:
protected Document createDocument(NodeState node,
                                      NamespaceMappings nsMappings,
                                      IndexFormatVersion indexFormatVersion)
            throws RepositoryException {
//创建NodeIndexer,Creates a lucene Document object from a javax.jcr.Node.
        NodeIndexer indexer = new NodeIndexer(node,
                getContext().getItemStateManager(), nsMappings, extractor);
//设置是否需要高亮,这个高亮很容易让人迷惑,indexer.setSupportHighlighting(supportHighlighting);
//设置indexconfig
        indexer.setIndexingConfiguration(indexingConfig);
        indexer.setIndexFormatVersion(indexFormatVersion);

//用node对象创建document
        Document doc = indexer.createDoc();
        mergeAggregatedNodeIndexes(node, doc);
        return doc;
}


从上面这段代码,我们可以看出,最重要的方法应该是indexer.createDoc();其他方法都是配角。那么就让我们进入这个createDoc方法:
protected Document createDoc() throws RepositoryException {
        Document doc = new Document();

        doc.setBoost(getNodeBoost());

        // special fields
        // UUID
//代码第一段,负责添加一些固定的field到document中,uuid,parent,label
        doc.add(new Field(FieldNames.UUID, node.getNodeId().getUUID().toString(), Field.Store.YES, Field.Index.NO_NORMS, Field.TermVector.NO));
        try {
            // parent UUID
            if (node.getParentId() == null) {
                // root node
                doc.add(new Field(FieldNames.PARENT, "", Field.Store.YES, Field.Index.NO_NORMS, Field.TermVector.NO));
                doc.add(new Field(FieldNames.LABEL, "", Field.Store.NO, Field.Index.NO_NORMS, Field.TermVector.NO));
            } else {
                doc.add(new Field(FieldNames.PARENT, node.getParentId().toString(), Field.Store.YES, Field.Index.NO_NORMS, Field.TermVector.NO));
                NodeState parent = (NodeState) stateProvider.getItemState(node.getParentId());
                NodeState.ChildNodeEntry child = parent.getChildNodeEntry(node.getNodeId());
                if (child == null) {
                    // this can only happen when jackrabbit
                    // is running in a cluster.
                    throw new RepositoryException("Missing child node entry " +
                            "for node with id: " + node.getNodeId());
                }
                String name = resolver.getJCRName(child.getName());
                doc.add(new Field(FieldNames.LABEL, name, Field.Store.NO, Field.Index.NO_NORMS, Field.TermVector.NO));
            }
        } catch (NoSuchItemStateException e) {
            throwRepositoryException(e);
        } catch (ItemStateException e) {
            throwRepositoryException(e);
        } catch (NamespaceException e) {
            // will never happen, because this.mappings will dynamically add
            // unknown uri<->prefix mappings
        }
/////////////////////////代码第二段,负责添加一个node的property到document中。
        Set props = node.getPropertyNames();
        for (Iterator it = props.iterator(); it.hasNext();) {
            Name propName = (Name) it.next();
            PropertyId id = new PropertyId(node.getNodeId(), propName);
//遍历node的property并一一创建field
            try {
                PropertyState propState = (PropertyState) stateProvider.getItemState(id);
                
                // add each property to the _PROPERTIES_SET for searching
                // beginning with V2
                if (indexFormatVersion.getVersion()
                        >= IndexFormatVersion.V2.getVersion()) {					
				//添加field:_:PROPERTIES_SET
                    addPropertyName(doc, propState.getName());
                }
                //得到property的values,准备一个个value做field
                InternalValue[] values = propState.getValues();
                for (int i = 0; i < values.length; i++) {
					//一个尤其需要注意的方法,该方法中会根据value的类型//创建不同的filed。
                    addValue(doc, values[i], propState.getName());
                }
                if (values.length > 1) {
                    // real multi-valued
                    addMVPName(doc, propState.getName());
                }
            } catch (NoSuchItemStateException e) {
                throwRepositoryException(e);
            } catch (ItemStateException e) {
                throwRepositoryException(e);
            }
        }
        return doc;
    }

从上面这段代码,我们可以看出一个document有很多个field组成,其中有一些是必不可少,也有一些是根据node属性决定的。那么我们就来统计一下有多少个field被创建了,其实这个也是本文的主要目的,一旦我们清晰的知道有哪里信息被放到field中,那么对于我们反思search过程有莫大的好处。而且ahuaxuan将这些field分成了两个部分,一个部分属性node的信息,还有一部分属性node的property信息。

一,node
1 fieldname: uuid,值得注意的是该field既存储也索引
doc.add(new Field(FieldNames.UUID, node.getNodeId().getUUID().toString(), Field.Store.YES, Field.Index.NO_NORMS, Field.TermVector.NO));

2 fieldname: PARENT
和uuid类似

3 fieldname: LABEL,该field不存储,但是索引
new Field(FieldNames.LABEL, name, Field.Store.NO, Field.Index.NO_NORMS, Field.TermVector.NO)

二 property

4 fieldname: _:PROPERTIES_SET
这个属性比较奇特,因为这个属性的设置在for循环中,也就是名字为_:PROPERTIES_SET的field的值有多个,它的值是field的name,不过lucene最后会把同名的field合并。这个属性索引但不存储,而且还有一个条件判断,只有在jackrabbit1.4以上才会添加这个field,为什么加这个field呢,官方的解释是在某些查询中这个field会加快查询速度。
new Field(FieldNames.PROPERTIES_SET, fieldName, Field.Store.NO, Field.Index.NO_NORMS)

5 fieldname: _:MVP
当一个property对应多个value的时候,那么就会创建这个field:
new Field(FieldNames.MVP, propName, Field.Store.NO, Field.Index.UN_TOKENIZED, Field.TermVector.NO)

重点:最后一个需要说明的field是下面这段代码产生的field:
InternalValue[] values = propState.getValues();
                for (int i = 0; i < values.length; i++) {
                    addValue(doc, values[i], propState.getName());
                }

这段代码ahuaxuan之前已经加了一点注释,下面我们来深入到方法的内部来看看这个方法究竟会创建什么样的field。下面这个方法看上去有点长,好像很会创建很多种field的样子,非也,下面这段代码其实只会创建3种field。

private void addValue(Document doc, InternalValue value, Name name) {
        String fieldName = name.getLocalName();
        try {
            fieldName = resolver.getJCRName(name);
        } catch (NamespaceException e) {
            // will never happen
        }
        switch (value.getType()) {
            case PropertyType.BINARY:
                if (isIndexed(name)) {
//很重要,如果是二进制的property,那么在这个方法里会被解析
                    addBinaryValue(doc, fieldName, value.getBLOBFileValue());
                }
                break;
            case PropertyType.BOOLEAN:
                if (isIndexed(name)) {
                    addBooleanValue(doc, fieldName, Boolean.valueOf(value.getBoolean()));
                }
                break;
            case PropertyType.DATE:
                if (isIndexed(name)) {
                    addCalendarValue(doc, fieldName, value.getDate());
                }
                break;
            case PropertyType.DOUBLE:
                if (isIndexed(name)) {
                    addDoubleValue(doc, fieldName, new Double(value.getDouble()));
                }
                break;
            case PropertyType.LONG:
                if (isIndexed(name)) {
                    addLongValue(doc, fieldName, new Long(value.getLong()));
                }
                break;
            case PropertyType.REFERENCE:
                if (isIndexed(name)) {
                    addReferenceValue(doc, fieldName, value.getUUID());
                }
                break;
            case PropertyType.PATH:
                if (isIndexed(name)) {
                    addPathValue(doc, fieldName, value.getPath());
                }
                break;
            case PropertyType.STRING:
//很重要,普通string的property也会成为一种field,而binary和//string之间的case其实都是一种field。也就是说这个方法里负责创建3种//field。
                if (isIndexed(name)) {
                    // never fulltext index jcr:uuid String
                    if (name.equals(NameConstants.JCR_UUID)) {
                        addStringValue(doc, fieldName, value.getString(),
                                false, false, DEFAULT_BOOST);
                    } else {
                        addStringValue(doc, fieldName, value.getString(),
                                true, isIncludedInNodeIndex(name),
                                getPropertyBoost(name));
                    }
                }
                break;
            case PropertyType.NAME:
                // jcr:primaryType and jcr:mixinTypes are required for correct
                // node type resolution in queries
                if (isIndexed(name) ||
                        name.equals(NameConstants.JCR_PRIMARYTYPE) ||
                        name.equals(NameConstants.JCR_MIXINTYPES)) {
                    addNameValue(doc, fieldName, value.getQName());
                }
                break;
            default:
                throw new IllegalArgumentException("illegal internal value type");
        }
    }


通过上面这段示例代码,我们已经知道,addValue方法是创建3种field,下面我们来一一查看创建这3种field的方法:

NodeIndexer#addBinaryValue()

NodeIndexer#addBooleanValue()

NodeIndexer#addStringValue()

首先登场的是addBinaryValue,该方法之操作nt:resource的node,同时需要拿到binary的type和encoding,然后从文件中提取文本。
方法中已经加入了ahuaxuan的注释
protected void addBinaryValue(Document doc,
                                  String fieldName,
                                  Object internalValue) {
        // 'check' if node is of type nt:resource
        try {
            String jcrData = mappings.getPrefix(Name.NS_JCR_URI) + ":data";
            if (!jcrData.equals(fieldName)) {
                // don't know how to index
                return;
            }

            InternalValue typeValue = getValue(NameConstants.JCR_MIMETYPE);
            if (typeValue != null) {
				//拿到文本的type,pdf,doc,等等
                String type = typeValue.getString();

                // jcr:encoding is not mandatory
					//拿到编码类型
                String encoding = null;
                InternalValue encodingValue = getValue(NameConstants.JCR_ENCODING);
                if (encodingValue != null) {
                    encoding = encodingValue.getString();
                }
			
                InputStream stream =
                        ((BLOBFileValue) internalValue).getStream();
				//对而进制流进行提取,这里我们暂时把这个操作当成非异步//操作来理解
                Reader reader = extractor.extractText(stream, type, encoding);
				//创建field
                doc.add(createFulltextField(reader));
            }
        } catch (Exception e) {
            ………………
        }
}


从这个注释的流程来看,最重要的应该是createFulltextField方法,那么我们再进去看看,我们就会发现创建field的方法:
new Field(FieldNames.FULLTEXT, value, stored,
                    Field.Index.TOKENIZED, Field.TermVector.WITH_OFFSET)


(注意这里的WITH_OFFSET,证明FULLTEXT确实是把term对应的offset放到索引中的。在查询FULLTEXT的时候将会用到这个属性,这样做的目的是避免实时分词,提高高亮的性能)
所以这个方法中创建了一个新的field类型,FieldNames.FULLTEXT
它的值为:_:FULLTEXT,这样我们就得到了第6种field,_:FULLTEXT

接下来,我们看看addBooleanValue方法:

Field field = new Field(FieldNames.PROPERTIES,
                FieldNames.createNamedValue(fieldName, internalValue),
                store ? Field.Store.YES : Field.Store.NO, Field.Index.NO_NORMS,
                Field.TermVector.NO);


简单的不能再简单了,这里又多了一种field,它的name是FieldNames.PROPERTIES,他的值是:_:PROPERTIES,这样我们就得到了第7种field:_:PROPERTIES。同样,需要注意的是,这个field可能会被创建多次,如果你的node中有同类型的多个boolean值的话。而且更需要注意的是不只是BOOLEAN,还有DATE,DOUBLE,LONG等等,都是这个name,lucene将会把这些同名的field的值最后拼接起来,形成一个field。

那么我们再来看看上面提到的第3个方法:
addStringValue
protected void addStringValue(Document doc, String fieldName,
                                  Object internalValue, boolean tokenized,
                                  boolean includeInNodeIndex, float boost) {

        // simple String
        String stringValue = (String) internalValue;
//先把这个stringvalue加到_:PROPERTIES这个field中。
        doc.add(createFieldWithoutNorms(fieldName, stringValue, false));
//jcr:uuid这个属性也是string,但是不需要执行下面的if,但是除这个属性之外的其他属性,执行下面的放并创建一个field。
        if (tokenized) {
            if (stringValue.length() == 0) {
                return;
            }
            // create fulltext index on property
            int idx = fieldName.indexOf(':');
 //创建fieldname
            fieldName = fieldName.substring(0, idx + 1)
                    + FieldNames.FULLTEXT_PREFIX + fieldName.substring(idx + 1);
            Field f = new Field(fieldName, stringValue,
                    Field.Store.NO,
                    Field.Index.TOKENIZED,
                    Field.TermVector.NO);
		//注意这里的Field.TermVector是NO,所以这个property如
//果需要高亮,那么不可避免再次实时分词,这一点在查询的代码里写的很清//楚。            

f.setBoost(boost);
            doc.add(f);
			//这段代码好奇怪哦,为啥对这个string要创建fulltext呢?
            if (includeInNodeIndex) {
                // also create fulltext index of this value
                doc.add(createFulltextField(stringValue));
            }
        }
    }


从上面这个方法我们也大概看出一点名堂了,一般的string类型的property也作了单独的field。而且还有一个很好玩的,如果includeInNodeIndex=true(表示这个property应该放到fulltext中去,显然这个是在property定义的时候决定的,这个值来自于配置文件,如果没有做特别的配置,那么这个值为false,详见:IndexingRule),那么会执行,createFulltextField,我们看看里面是什么东西吧:

protected Field createFulltextField(String value) {
        if (supportHighlighting) {
			//还记得supportHighlighting这个参数不,这个表示如果需要//高亮,就会把string类型的property加到fulltext中,同时保存offset。
            
            Field.Store stored;
            if (value.length() > 0x4000) {
				//超过16k还需要压缩一下
                stored = Field.Store.COMPRESS;
            } else {
                stored = Field.Store.YES;
            }
            return new Field(FieldNames.FULLTEXT, value, stored,
                    Field.Index.TOKENIZED, Field.TermVector.WITH_OFFSETS);
        } else {
			//不支持高亮就不保存offset
            return new Field(FieldNames.FULLTEXT, value,
                    Field.Store.NO, Field.Index.TOKENIZED);
        }
    }


Hoho,一个普通的string类型的property居然加到fulltext中去了。并且如果支持高亮,还需要保存它的offset,这样做的目的是什么呢,貌似我们在这里找不到答案,那我们就等到分析query的时候再来回答这个问题。

到目前为止,就ahuaxuan的分析而言,field的种类就是以上这么多种了,我们再来总结一下:
引用
1. Uuid(node的uuid)
2. PARENT(parent node的uuid)
3. LABEL(node name)
4. _:PROPERTIES_SET(properties name)
5. _:MVP(multi value property name)
6. _:FULLTEXT(jcr:data which extract from pdf, doc….)
7. _:PROPERTIES(properties name and value)
8. *:FULL:*(string property name):(string property value)


这样我们就明白,到底node的哪些属性被添加到索引中去了,这样为我们理解查询提供了有力的依据。

接下来,我们会去了解一下把document添加到indexwriter的流程,这个流程中隐藏着很多的秘密,to be continue
分享到:
评论

相关推荐

    深入浅出 jackrabbit 1

    《深入浅出 Jackrabbit 1》 Jackrabbit 是一个开源的、实现了 Java Content Repository (JCR) API 的内容管理系统,它允许程序通过统一的方式访问、存储和管理各种数据,包括文本、图像、视频等多媒体信息。这篇...

    jackrabbit最全入门教程

    这个“jackrabbit最全入门教程”将会带你深入理解这个强大的内容管理解决方案。 首先,我们需要了解什么是JCR。JCR提供了一种统一的方式来访问和管理数字内容,无论这些内容是文档、图像、视频还是其他形式的数据。...

    JackRabbit 学习参考资料总汇

    JackRabbit学习参考资料总汇涉及了深入浅出的JackRabbit内容仓库API的学习,内容涉及多个专题,整个学习资料是PDF文档格式。从标签来看,这份资料主要涉及JackRabbit以及JCR(Java Content Repository)的内容仓库...

    Apache Jackrabbit入门

    在本文中,我们将深入探讨Apache Jackrabbit的基础知识,以及如何开始使用它。 一、JCR和Apache Jackrabbit的概念 1. JCR:JCR为存储和检索非结构化信息提供了一个模型和API。它允许开发者创建可以跨各种存储后端...

    Jackrabbit入门实例

    Apache Jackrabbit是一个开源的、实现了Java Content Repository (JCR) API的内容管理系统,它允许开发者创建、管理和查询结构化和非结构化的数据。JCR是Java社区制定的一个标准,旨在为各种应用程序提供统一的数据...

    jackrabbit教程

    Apache Jackrabbit 是一个...对于开发人员来说,理解这些功能以及如何将 Jackrabbit 集成到现有应用中是深入学习的关键部分。通过实践示例代码和探索 Jackrabbit API 文档,你可以逐步掌握这个强大的内容管理系统框架。

    Jackrabbit API

    Apache Jackrabbit 提供了一个丰富的API,允许开发者创建、读取、更新和删除内容,并执行复杂的查询。API 包括多个关键组件,如`Session`、`Node`、`Property`和`Workspace`等,这些组件共同构成了内容管理的基础。 ...

    jackrabbit

    ##### 问题3:Jackrabbit Session并发问题 **问题描述**:Jackrabbit 的 Session 没有内置的同步机制。如果在多个线程中并发访问同一个 Session,则可能导致数据不一致,甚至整个 Workspace 的初始化失败。 **解决...

    jackrabbit内容仓库的实例(两个工程)

    这两个项目将帮助我们深入理解和快速入门Jackrabbit的使用。 1. Jackrabbit核心概念: - JCR:JSR 170定义了内容存储的标准接口,使得应用程序可以透明地访问和操作不同类型的存储系统。 - Node:在JCR中,内容被...

    jackrabbit2.6

    3. **性能与可扩展性**:Jackrabbit 2.6 版本注重性能优化,提供高速的读写操作和高效的数据检索。同时,它支持集群部署,能够通过添加更多的服务器来提高系统的可用性和处理能力。 4. **API与集成**:Jackrabbit ...

    查看jackrabbit仓库的小工具

    Apache Jackrabbit是一个强大的内容管理存储系统,遵循JCR规范,它允许开发人员创建和管理富内容,如文档、图像、视频等。它的核心特性包括版本控制、事务支持、工作流、权限管理以及全文搜索。Jackrabbit仓库是一个...

    jackrabbit-webdav-2.3.2.src.zip

    通过深入理解和使用"jackrabbit-webdav-2.3.2.src.zip"中的源代码,开发者不仅可以学习WebDAV协议的工作原理,还能了解如何在Android环境中实现高效稳定的WebDAV客户端功能。此外,对于想要对Jackrabbit进行定制化...

    jackrabbit-standalone-1.5.6.jar jackrabbit 开发包

    jackrabbit 1.5.6 jar

    jackrabbit-standalone

    jackrabbit-standalone-1.6.5.jar是webDav的支持jar包。

    jackrabbit-webdav-2.1.0.jar

    jackrabbit-webdav-2.1.0.jar 具体用法可以网上查找

    jackrabbit-api-1.5.0.jar

    jackrabbit-api-1.5.0.jar

    jackrabbit-trunk.rar

    《深入探索Jackrabbit-Trunk源码》 Jackrabbit-Trunk,这个名字源于Apache Jackrabbit项目,是这个开源内容管理系统(CMS)的核心部分。Jackrabbit是一个完全实现了JCR(Java Content Repository,Java内容仓库)...

    jackrabbit-jcr-commons-2.5.0.zip

    杰克兔(Jackrabbit)是Apache软件基金会的一个开源项目,主要致力于实现Java Content Repository (JCR) 规范。这个规范定义了一种用于存储、管理和检索结构化内容的标准API。在给定的压缩包"jackrabbit-jcr-commons...

    jackrabbit-webdav-2.7.1.zip

    标题中的"jackrabbit-webdav-2.7.1.zip"指的是Apache Jackrabbit的一个特定版本——2.7.1的WebDAV模块的压缩包。Apache Jackrabbit是Java内容存储库(Content Repository)的一个实现,它遵循JCR(Java Content ...

Global site tag (gtag.js) - Google Analytics