def _read_words(filename): with tf.gfile.GFile(filename, "r") as f: if Py3: return f.read().replace("\n", "<eos>").split() else: return f.read().decode("utf-8").replace("\n", "<eos>").split() def _build_vocab(filename): data = _read_words(filename) print("data:",data) counter = collections.Counter(data) print("counter:",counter) # temp_pairs = sorted(counter.items(), key=lambda x: print((-x[1], x[0]))) # print(" temp_pairs:", temp_pairs) count_pairs = sorted(counter.items(), key=lambda x: (x[1], x[0])) print(" count_pairs:", count_pairs) words, _ = list(zip(*count_pairs)) print("words:", words) word_to_id = dict(zip(words, range(len(words)))) print(" word_to_id:", word_to_id) return word_to_id def setUp(self): self._string_data = "\n".join( [" hello there i am", " rain as day", " want some cheesy puffs wu"]) def testPtbRawData(self): tmpdir = tf.test.get_temp_dir() for suffix in "train", "valid", "test": filename = os.path.join(tmpdir, "ptb.%s.txt" % suffix) with tf.gfile.GFile(filename, "w") as fh: fh.write(self._string_data) # Smoke test output = reader.ptb_raw_data(tmpdir) 打印结果 data Tensor("PTBProducer_1/Reshape:0", shape=(3, ?), dtype=int32) ..data: ['hello', 'there', 'i', 'am<eos>', 'rain', 'as', 'day<eos>', 'want', 'some', 'cheesy', 'puffs', 'wu'] counter: Counter({'there': 1, 'wu': 1, 'as': 1, 'hello': 1, 'puffs': 1, 'am<eos>': 1, 'cheesy': 1, 'day<eos>': 1, 'some': 1, 'i': 1, 'rain': 1, 'want': 1}) count_pairs: [('am<eos>', 1), ('as', 1), ('cheesy', 1), ('day<eos>', 1), ('hello', 1), ('i', 1), ('puffs', 1), ('rain', 1), ('some', 1), ('there', 1), ('want', 1), ('wu', 1)] words: ('am<eos>', 'as', 'cheesy', 'day<eos>', 'hello', 'i', 'puffs', 'rain', 'some', 'there', 'want', 'wu') word_to_id: {'want': 10, 'there': 9, 'day<eos>': 3, 'wu': 11, 'hello': 4, 'puffs': 6, 'am<eos>': 0, 'cheesy': 2, 'rain': 7, 'some': 8, 'i': 5, 'as': 1}
相关推荐
《dictzip.dict.dz压缩工具详解》 在数字化学习与翻译领域,词典资源的管理和使用至关重要。为了便于存储和传输这些资源,一种名为“dictzip”的压缩工具应运而生,它主要用于将`.dict`格式的词库文件压缩成`.dict....
- **解压缩dictzip文件**:使用dictzip解压缩工具,如DictUnzipper,将dictzip文件解压缩为原始的文本文件或字典数据。 - **预处理**:根据DZ格式的要求,可能需要对解压缩后的文本进行一些预处理,例如添加元数据...
配套博客:https://blog.csdn.net/qq_41739364/article/details/96767359
### Python `sorted()` 函数详解 #### 一、`sorted()` 函数简介 在Python中,`sorted()` 是一个内置函数,用于对可迭代对象(如列表、元组、字典等)进行排序,并返回一个新的排序后的列表。该函数不仅可以处理...
《行政区区域位置及对应编码——area_dict.zip深度解析》 在信息技术领域,数据处理与分析经常涉及地理位置信息,其中行政区域编码是不可或缺的一部分。本文将深入探讨“area_dict.zip”这个压缩包文件,揭示其中...
values_sorted = sorted(dict_obj, key=dict_obj.get) ``` 总的来说,`sorted()`函数是Python中实现排序操作的重要工具,无论是简单的列表排序还是复杂的数据结构处理,都能发挥重要作用。理解并熟练运用`sorted()`...
JS拼音转汉字的包,非常实用 1. 体积足够小,适合web环境,常见汉字字典文件仅26kb,完整汉字也只有122kb,应该说是互联网上最小的; 2. 支持多种输出格式,如带声调、不带声调、拼音首字母; 3. 支持多音字:如果不...
这些容器包括SortedList、SortedDict和SortedSet,它们都属于Sorted Containers库的一部分。Sorted Containers是一个纯Python实现的库,虽然如此,但其性能表现却能与用C语言实现的模块相媲美,这是由于其内部优化的...
下面是几个例子: >> > from skiplist import SortedSet , SortedDict>> > d = SortedDict ({ 'elma' : 1 , 'armut' : 2 , 'kel' : 3 , 'mahmut' : 4 })>> > dSortedDict ({ 'armut' : 2 , 'elma' : 1 , 'kel' : 3 ...
标题中的"LL.zip"是一个压缩文件的名称,它包含了与Android平台上的Star-Dict字典相关的数据。Star-Dict是一款开源的、功能强大的字典软件,支持多种操作系统,包括Linux、Windows以及移动平台如Android。这个"LL....
《stardict dict.zip》是一款集成了多种语言资源的压缩包,主要面向英语与汉语的学习者,特别适合在Linux系统中使用。其中包含了多种类型的词典,如朗文词典、21世纪英汉双解词典以及汉语成语词典等,提供了丰富的...
标题中的"Sentiment_dict.zip"表明这是一个压缩文件,其中可能包含与情感分析相关的资源,比如一个词典或者数据集。情感分析是自然语言处理(NLP)领域的一个重要任务,它涉及识别和提取文本中的主观信息,特别是...
《J_Dict.zip》是一个包含日语词典资源的压缩文件,主要针对对日语学习和研究感兴趣的用户。从描述中我们可以推断,这个压缩包里可能包含了丰富的日语词汇、短语、例句以及相关的语言学习资料。下面将详细讨论日语...
在给定的“ascii_dict.zip”压缩包中,包含了多个与ASCII码相关的文本文件,这些文件可以用于特定的渗透测试和SQL注入攻击中的盲注爆破。 首先,`create_ascii_dict.py`可能是一个Python脚本,用于生成或整理这些...
此工具用于有密码的ZIP文件,里面有视频教程。 有时候在网上好不容易找到的资源,然后解压时看到需要密码是不是有一种很蛋疼的感觉。求人不如求己。 废话我就不多说了,但是要告诉大家的是,如果密码长度很长的话,...
本资料"62.Python之访问dict共3页.pdf.zip"可能包含了关于如何访问和操作Python字典的关键信息。尽管实际内容无法在这里展示,但我们可以深入探讨一下Python字典的基本概念、访问方法以及相关的高级用法。 1. **...
dict字典文件,单词本,xml格式,关键字为单词
在IT行业中,字典文件(Dict格式)是用于存储大量词汇和其对应解释的数据结构,常见于电子词典、翻译软件以及语言学习应用中。"Dict打开工具"是一款专门设计用来读取和操作这种特殊格式文件的应用程序,旨在为用户...
本文件“63.Python中dict的特点共2页.pdf.zip”可能详细阐述了Python字典的多个方面。尽管无法直接提供文件内容,但我可以基于常规知识和理解来详细解释Python字典的关键特性。 1. **动态性**:Python字典的大小...
本案例针对RML2016.10a_dict数据集并利用VT-CNN2 Mod-Rec Network卷积神经网络对信号实现自动调制方式识别,使用卷积神经网络在图像处理问题中的位移不变性特点,来解决调制识别的问题,使用网络结构来学习匹配...