- 浏览: 915043 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (537)
- Java SE (114)
- Struts (18)
- Hibernate (25)
- Spring (3)
- Page_Tech (41)
- Others (87)
- Database (29)
- Server (24)
- OpenSource_Tools (15)
- IDE_Tool (22)
- Algorithm (28)
- Interview (22)
- Test (28)
- Hardware (1)
- Mainframe (25)
- Web application (4)
- Linux (3)
- PHP (17)
- Android (1)
- Perl (6)
- ubuntu (1)
- Java EE (9)
- Web Analysis (5)
- Node.js (2)
- javascript (2)
最新评论
-
一键注册:
request.getRequestURL()和request.getRequestURI() -
SuperCustomer:
...
SED的暂存空间和模式空间 -
juyo_ch:
讲得挺好理解的,学习了
java 死锁及解决 -
chinaalex:
最后一题答案正确,但是分析有误.按照如下过程,上一行为瓶,下一 ...
zz智力题 -
liaowuxukong:
多谢博主啦,弱弱的了解了一点。
C++/Java 实现多态的方法(C++)
给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置。
这题当然可以用hash来,但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词,我要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有b,abc,abd,bcd,abcd,efg,hii这6个单词,我们构建的树就是这样的。
对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从跟走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成,所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
注意:本题只有一组测试数据,处理到文件结束. 用字典树来做: Code struct dictree void insert(char *source) 字典树(Trie)是一种用于快速字符串检索的多叉树结构。其原理是利用字符串的公共前缀来降低时空开销,从而达到提高程序效率的目的。 它有如下简单的性质: (1) 根节点不包含字符信息; (3) 一棵m度的Trie或者为空,或者由m棵m度的Trie组成。 搜索字典项目的方法为: (1) 从根结点开始一次搜索; (2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树 并转到该子树继续进行检索; (3) 在相应的子树上,取得要查找关键词的第二个字母, 并进一步选择对应的子树进行检索。 (4) 迭代过程…… (5) 在某个结点处,关键词的所有字母已被取出,则读取 附在该结点上的信息,即完成查找。2. 实现 (1) 节点#define NUM_CHARS 26 struct Trie_Node { Trie_Node() Trie_Node *location = root; if( location->branch[ccode] == NULL ) location = location->branch[ccode]; #define NUM_CHARS 26 class Trie struct Trie_Node { Trie_Node* root; public: Trie() : root(NULL); int PrefixCount( const char* prefix ) location = location->branch[ccode]; int CountBranches( Trie_Node *start ) if( start->data != NULL ) sum++; int Insert( const char* word , const char* entry ) Trie_Node *location = root; if( location->branch[ccode] == NULL ) location = location->branch[ccode]; int main() while( true ) t.Insert( word , "S" ); while( gets(word)>0 ) delete[] word;
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
Sample Input
banana
band
bee
absolute
acm
ba
b
band
abc
Sample Output
2
3
1
0
代码抄于杭电课件上:
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
{
struct dictree *child[26];
int n;
};
struct dictree *root;
{
int len,i,j;
struct dictree *current,*newnode;
len=strlen(source);
if(len==0) return ;
current=root;
for(i=0;i<len;i++){
if(current->child[source[i]-'a']!=0){
current=current->child[source[i]-'a'];
current->n=current->n+1;
}
else{
newnode=(struct dictree *)malloc(sizeof(struct dictree));
for(j=0;j<26;j++)
newnode->child[j]=0;
current->child[source[i]-'a']=newnode;
current=newnode;
current->n=1;
}
}
}
int find(char *source)
{
int i,len;
struct dictree *current;
len=strlen(source);
if(len==0) return 0;
current=root;
for(i=0;i<len;i++){
if(current->child[source[i]-'a']!=0)
current=current->child[source[i]-'a'];
else
return 0;
}
return current->n;
}
int main()
{
char temp[11];
int i,j;
root=(struct dictree *)malloc(sizeof(struct dictree));
for(i=0;i<26;i++)
root->child[i]=0;
root->n=2;
while(gets(temp),strcmp(temp,"")!=0)
insert(temp);
while(scanf("%s",temp)!=EOF){
i=find(temp);
printf("%d\n",i);
}
char* data; // 附加数据
Trie_Node* branch[NUM_CHARS]; // 指针域
int branches; // 存放该节点的后续节点分支数
{
data = NULL;
branches = 0;
for( int i=0 ; i<NUM_CHARS ; ++i )
branch[i] = NULL;
};
};
(2) 插入字典项目int Trie::Insert( const char* word , const char* entry )
{
int result = 1, position = 0;
if( root == NULL ) root = new Trie_Node;
char ccode;
while( location!=NULL && *word!=0 )
{
if (*word>='A' && *word<='Z') ccode = *word-'A';
else if (*word>='a' && *word<='z') ccode = *word-'a';
else return 0; // 不合法的单词
location->branch[ccode] = new Trie_Node;
position++;
word++;
}
if (location->data != NULL) result = 0;//欲插入的单词已经存在
else
{
location->data = new char[strlen(entry)+1];
strcpy(location->data, entry);
}
return result;
};
(3) 搜索int Trie::Search(const char* word, char* entry ) const
{
int position = 0;
char ccode;
Trie_Node *location = root;
while( location!=NULL && *word!=0 )
{
if (*word>='A' && *word<='Z') ccode = *word-'A';
else if (*word>='a' && *word<='z') ccode = *word-'a';
else return 0;// 不合法的单词
location = location->branch[ccode];
position++;
word++;
}
if ( location != NULL && location->data != NULL )
{
strcpy(entry,location->data);
return 1;
}
else return 0;// 不合法的单词
}
3. 应用 a. HDOJ 1251 统计难题题目请参见:http://acm.hziee.edu.cn/showproblem.php?pid=1251代码实现:#include <stdlib.h>
#include <stdio.h>
#include <string.h>
{
protected:
char* data;
int branches;
Trie_Node* branch[NUM_CHARS];
Trie_Node()
{
data = NULL;
branches = 0;
for( int i=0 ; i<NUM_CHARS ; ++i )
branch[i] = NULL;
};
};
{
int position = 0;
char ccode;
Trie_Node *location = root;
while( location!=NULL && *prefix!=0 )
{
if (*prefix>='a' && *prefix<='z') ccode = *prefix-'a';
else return -1;// 不合法的单词
position++;
prefix++;
}
if ( location != NULL ) return location->branches;
else return 0; // 未找到
};
void CountBranches()
{
this->CountBranches( root );
};
{
int sum = 0;
for( int i=0 ; i<NUM_CHARS ; i++ )
if( start->branch[i]!=NULL )
sum += CountBranches( start->branch[i] );
start->branches = sum;
return sum;
};
{
int result = 1, position = 0;
if( root == NULL ) root = new Trie_Node;
char ccode;
while( location!=NULL && *word!=0 )
{
if (*word>='a' && *word<='z') ccode = *word-'a';
else return 0;// 不合法的单词
location->branch[ccode] = new Trie_Node;
position++;
word++;
}
if (location->data != NULL) result = 0;//欲插入的单词已经存在
else
{
location->data = new char[strlen(entry)+1];
strcpy(location->data, entry);
}
return result;
};
};
{
Trie t;
char word[11];
{
gets( word );
if( strlen(word)==0 ) break;
}
t.CountBranches();
printf("%d\n",t.PrefixCount(word));
return 0;
发表评论
-
不使用/,%,+和*,如何判断一个数能否被3整除
2012-05-30 14:28 1789如果n的二进制末位为0,那么n和n>>1同时被 ... -
一些数学知识
2012-03-31 20:12 859zz:http://hi.baidu.com/imak ... -
高阶幂的求余的方法
2012-03-31 16:41 2785通常会有如下问法: 有两个数,A和B,A的范围 ... -
从N个变量中找出一个错误变量的方法
2012-03-31 12:17 865假设有N包咖啡,里面有一包咖啡是掺和了沙子的,可以将咖啡放到水 ... -
【转】大数据量算法
2012-03-06 16:11 1249第一部分、十五道海量数据处理面试题 1. 给定a、b两个 ... -
链表的一些常见笔试面试问题总结及代码
2010-10-27 13:39 1096先什么也不说,假设链 ... -
字典树(trie tree)
2010-10-26 11:19 1391今天AC了两题tri ... -
高度为n的平衡二叉树最少需要多少个节点
2010-10-24 13:42 9446递推关系 A(1)=1 A(2)=2 A ... -
如何判断两个单向链表是否有相交,并找出交点
2010-10-24 13:37 1710题比较简单,单向链表有交点意思就是交点后的节点都是 ... -
大数据排序或取重或去重相关问题解决方案
2010-10-21 16:13 2778Q:TC群里有人发消息说在10亿个数据中找出所有的重复数,内存 ... -
分配排序(桶排序..)
2010-10-21 13:39 1888分配排序的基本思想:排序过程无须比较关键字,而是通过&qu ... -
Rete(3)
2010-10-21 09:59 9804.6 连接节点(Join node) ... -
Rete(2)
2010-10-21 09:57 1184使用RETE算法的模块系统 ... -
Rete(1)
2010-10-21 09:53 1066一、 rete概述Rete算法是一种前向规则快速匹配算法,其匹 ... -
[转]海量数据处理面试题
2010-10-20 15:15 10311. 给定a、b两个文件,各存放50亿个url,每个url各占 ... -
用JDBC实现数据的分页
2010-10-20 11:23 1229数据分页主要用到了resultSet的absolute()方法 ... -
如何求N的阶乘所得的数字末尾含有多少个0
2010-10-19 13:13 2190原题是这样: 给定 ... -
数据库笔试题(经典SELECT语句用法)
2010-10-18 22:49 2117问题描述: 为管理岗位业务培训信息,建立3个表: S ... -
Java分页实现
2010-10-18 22:11 1510Java代码 public interf ... -
Linux下大文件的排序和去重复
2010-10-15 10:02 2138Linux下我们用 sort 与 uniq 的命令来实现去重复 ...
相关推荐
《严蔚敏数据结构与算法:TrieTree详解》 在计算机科学中,数据结构是组织、管理和存储数据的方式,而算法则是解决特定问题的精确步骤。数据结构的选择直接影响到程序的效率和可读性。在众多的数据结构中,TrieTree...
ASP.NET编程知识中,TrieTree服务是一种高效的数据结构服务,尤其适用于文本处理和字符串查找。TrieTree,又称字典树或前缀树,它允许快速查找具有相同前缀的字符串,常用于搜索引擎和自动补全功能。下面将详细介绍...
3. TrieTree设计:根据知识图谱中的垃圾名称,构建TrieTree结构,用于快速响应用户的垃圾查询。 4. 自然语言处理(NLP):可能使用Python的NLTK、spaCy等库进行文本预处理,包括分词、去停用词等,以便更好地与Trie...
《严蔚敏数据结构与算法实现:TrieTree解析》 在计算机科学中,数据结构是组织、存储和处理数据的方式,而算法则是解决问题或执行任务的精确步骤。本资料包"11 TrieTree.zip"专注于一个特定的数据结构——Trie(也...
在计算机科学中,字典树(也称为前缀树或TrieTree)是一种高效的数据结构,主要用于存储字符串集合。它能够快速地进行关键词查找、插入和删除操作,尤其适合于处理大量的词汇数据,如在四六级英语考试的高频词汇查询...
毕业设计 基于Python+知识图谱(Neo4j)和trietree的垃圾分类源码+详细文档+全部数据资料(高分项目).zip毕业设计 基于Python+知识图谱(Neo4j)和trietree的垃圾分类源码+详细文档+全部数据资料(高分项目).zip毕业...
【标题】"POJ2513-Colored Sticks【TrieTree+MergeSet+EulerPath】"涉及的是一道编程竞赛题目,主要考察参赛者的数据结构与算法应用能力,特别是Trie树(字典树)、并查集(MergeSet)以及欧拉路径(Euler Path)这...
《POJ2525-Text Formalization:深入解析TrieTree》 在计算机科学的世界里,算法和数据结构是解决问题的关键。今天我们要探讨的是一个名为"POJ2525-Text Formalization"的问题,它涉及到一种高效的数据结构——Trie...
【PHP-TrieTree-master.zip】是一个包含PHP实现的字典树(Trie Tree)数据结构的资源包。这个项目由AbelZhou在GitHub上开源,提供了完整的代码库供开发者学习和使用。字典树是一种高效的数据结构,常用于字符串搜索...
C#中的TrieTree,又称字典树,是一种高效的数据结构,尤其在自然语言处理(NLP)和文本搜索领域有着广泛的应用。它的主要功能是存储字符串集合,并允许快速查找和匹配这些字符串。TrieTree的基本思想是通过将字符串...
C#,单词查找树(Trie Tree)的插入与搜索算法与源代码 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统...
C#,动态规划问题中基于单词搜索树(Trie Tree)的单词断句分词( Word Breaker)算法与源代码 1 分词 分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文...
TrieTree服务是一种用于语言处理的技术,它通过一种特别的数据结构——前缀树(或称为字典树)来高效地存储和检索字符串数据。TrieTree服务的组成可以分解为多个关键组件,每个组件都有其特定的作用。本文将详细介绍...
前缀树实现的敏感词查找,时间复杂度为 O(kM), k为一小常数,M为文本长度。 该资源提供了c 的dll库,各种语言均可调用,有示例demo,该库在线上IM场景中 10w+敏感词过滤时实时性禁得起考验。
在这个“TrieTree”专题中,我们有5个不同的题目,它们旨在帮助你深入理解和应用前缀树。 首先,让我们来了解一下前缀树的基本概念。前缀树是由节点和边构成的树形结构,每个节点代表一个字符,从根节点到叶节点的...
在这个背景下,了解并掌握如何在Go中实现Trie(单词查找树)这种数据结构对于提升代码质量具有重要意义。 Trie,又称为前缀树或字典树,是一种用于存储动态集合或关联数组的树形数据结构。它的主要特点是通过键的...
Trie是一种字典树,用于存储文本字符,并利用了单词之间共享前缀的特点,所以叫做前缀树。不像平衡BST,Trie的高度只与最长的文本串的长度s有关系,而与单词的数量n无关。该代码为C#版本。