写个简单的汉语bigram tokenizer - fuliang - ITeye博客

`

fuliang

浏览: 1661004 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

532870393：请问下，这本书是基于Hadoop1还是Hadoop2？
Hadoop in Action简单笔记（一）
dongbiying：不懂呀。。
十大常用数据结构
bing_it： ...
使用Spring MVC HandlerExceptionResolver处理异常
一别梦心：按照上面的执行，文件确实是更新了，但是还是找不到kernel， ...
virtualbox 4.08安装虚机Ubuntu11.04增强功能失败解决方法
dsjt：楼主spring 什么版本，我的3.1 ，xml中配置 < ...
使用Spring MVC HandlerExceptionResolver处理异常

写个简单的汉语bigram tokenizer

博客分类：

Ruby

阅读更多

写个简单的汉语bigram tokenizer，基本能够满足文本挖掘的原型实验的需要。

def bigram_tokenize(text)
    tokens = []
    0.upto(text.length-1) do |i|
        tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
    end
    return tokens
end

分享到：

【备忘】机器学习和信息检索常用的东东 | Ruby简单实现K-means聚类算法

2011-01-23 23:29
浏览 1630
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

LLaMA Tokenizer: LLaMA Tokenizer的词表大小为32000，这意味着它能够处理32000个不同的词汇或令牌。这个词汇表是由最常见的单词和短语组成的，通过统计训练数据集中的频率来确定。更小的词表有助于减少内存消耗和计算复杂性，但可能...

前端开源库-jeefo_tokenizer: 【前端开源库-jeefo_tokenizer】是一个专为前端开发者设计的开源库，主要用于文本解析和处理。这个库的核心功能是将输入的文本分解成一系列的“标记”（tokens），这些标记通常代表着文本中的关键词、标点符号或特定...

PyPI 官网下载 | tokenizer_tools-0.11.0.tar.gz: "tokenizer_tools-0.11.0.tar.gz"是一个从PyPI官网下载的资源，它是一个Python库，专门用于处理文本分词和相关的自然语言处理任务。这个版本号为0.11.0的压缩包包含了该库的源代码和其他必要文件，以便于开发者在...

tokenizer.model: tokenizer.model

C++ Tokenizer: 为c++实现Tokenizer，就像java里面的string tokenizer

C++、MFC源代码tokenizer: 标题 "C++、MFC源代码tokenizer" 指向的是一个使用C++语言和Microsoft Foundation Classes (MFC)库实现的源代码项目，其主要功能是进行字符串分词（tokenizer）。Tokenizer在编程中通常用于将长字符串分解为有意义的...

llama3-8b tokenizer.model: 本文将深入探讨“llama3-8b tokenizer.model”，一个专门用于处理大模型如LLAMA（Large Language Model）的数据的分词器模型。我们将讨论其工作原理、应用场景以及如何有效利用它进行文本处理。首先，让我们理解...

Python库 | tokenizer-1.0.3-py2.py3-none-any.whl: Python库`tokenizer-1.0.3-py2.py3-none-any.whl`是一个用于文本处理的工具，它在Python的开发中扮演着重要角色。`tokenizer`库专注于文本分词，这是自然语言处理（NLP）的一个基本任务，旨在将连续的文本字符串分解...

Python-Python中速度最快最完整可自定义的tokenizer: Python中速度最快，最完整/可自定义的tokenizer

llama3-8b tokenizer.model 《llama3-8b tokenizer.model：理解和应用》: 本文将深入探讨“llama3-8b tokenizer.model”，一个专门用于处理大模型如LLAMA（Large Language Model）的数据的分词器模型。我们将讨论其工作原理、应用场景以及如何有效利用它进行文本处理。让我们理解什么是...

string_tokenizer_unittest.rar_tokenizer: `string_tokenizer_unittest`这个标题暗示我们这里涉及的是一个用于分割字符串的工具或库的单元测试代码，特别是针对Linux环境。`tokenizer`标签进一步确认了这个工具的主要功能是进行字符串分词。在Linux系统中，...

myanmar-tokenizer@: 【标题】"myanmar-tokenizer@" 是一个专为缅甸语设计的分词工具，它基于规则进行缅甸文本的音节分割。在缅甸语处理中，分词是预处理的重要步骤，因为缅甸语是一种音节文字，不同于拉丁字母系统，它的字符组合并不...

css-selector-tokenizer, 解析和 stringifies CSS选择器.zip: css-selector-tokenizer, 解析和 stringifies CSS选择器 CSS模块：CSS选择器标记器解析和 stringifies CSS选择器。import Tokenizer from "css-selector-tokenizer";let input = "a#content.act

用于适配低版本transformers的tokenizer: 解决问题： TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]] 使用方法： pip install transformers_old...from transformers_old_tokenizer import AutoTokenizer

ocr xxxxxxx tokenizer xxxxxxxx vocab: 标题中的“ocr xxxxxxx tokenizer xxxxxxxx vocab”表明这是一个关于光学字符识别（OCR）技术的项目，其中可能涉及到了文本分词（tokenizer）和词汇表（vocab）的创建。OCR技术主要用于将图像中的文字转换为可编辑和...

python中文分词: 同时，要理解每个库的API接口和参数设置，以满足不同场景的需求。例如，使用jieba进行分词的基本代码如下： ```python import jieba text = "Python中文分词是处理中文文本的关键技术" words = jieba.lcut(text) ...

基于Sentencepiece和Bert Tokenizer的GPT2-Chinese中文模型训练设计源码: 该项目提供基于Sentencepiece和Bert Tokenizer的GPT2-Chinese中文模型训练源码，包含42个文件，涵盖9个Python脚本、8个PNG图像、6个文本文件、5个JSON、5个JPG、3个Shell脚本、1个Git忽略规则文件、1个许可证文件、1...

tokenizer:一个简单的中文分词算法，可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合: 在脏词过滤的逻辑中最简单的做法是不使用分词，用所有脏词和一句话匹配，如果任意一个脏词是这句话的子串就认定为脏句，这种做法虽然避免了漏网之鱼，但是会因过于严格而让正常的句子变成脏句，分词可以改善这种问题...

deepseek-v3-tokenizer-fix-kun-more-functions: 对deepseek_v3_tokenizer进行修改具备处理更多文本的能力，同时可以反馈验证，用于deepseek的费率估计与分析

tokenizer:印度尼西亚语的分词器: 它有一个简单易用的API 。演示如何安装 Sastrawi Tokenizer 可以与一起安装。打开终端（命令行）并导航到您的项目目录。以便composer.phar文件位于该目录中。将 Literary Sentence Detector 添加到您的...

Global site tag (gtag.js) - Google Analytics