`
wang_peng1
  • 浏览: 3942879 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Counter zip dict sorted

 
阅读更多
def _read_words(filename):
  with tf.gfile.GFile(filename, "r") as f:
    if Py3:
      return f.read().replace("\n", "<eos>").split()
    else:
      return f.read().decode("utf-8").replace("\n", "<eos>").split()


def _build_vocab(filename):
  data = _read_words(filename)
  print("data:",data)
  counter = collections.Counter(data)
  print("counter:",counter)
#  temp_pairs = sorted(counter.items(), key=lambda x: print((-x[1], x[0])))
#  print(" temp_pairs:", temp_pairs)
  count_pairs = sorted(counter.items(), key=lambda x: (x[1], x[0]))
  print(" count_pairs:", count_pairs)
  words, _ = list(zip(*count_pairs))
  print("words:", words)
  word_to_id = dict(zip(words, range(len(words))))
  print("  word_to_id:",  word_to_id)
  return word_to_id

 def setUp(self):
    self._string_data = "\n".join(
        [" hello there i am",
         " rain as day",
         " want some cheesy puffs wu"])

  def testPtbRawData(self):
    tmpdir = tf.test.get_temp_dir()
    for suffix in "train", "valid", "test":
      filename = os.path.join(tmpdir, "ptb.%s.txt" % suffix)
      with tf.gfile.GFile(filename, "w") as fh:
        fh.write(self._string_data)
    # Smoke test
    output = reader.ptb_raw_data(tmpdir)

打印结果
data Tensor("PTBProducer_1/Reshape:0", shape=(3, ?), dtype=int32)
..data: ['hello', 'there', 'i', 'am<eos>', 'rain', 'as', 'day<eos>', 'want', 'some', 'cheesy', 'puffs', 'wu']
counter: Counter({'there': 1, 'wu': 1, 'as': 1, 'hello': 1, 'puffs': 1, 'am<eos>': 1, 'cheesy': 1, 'day<eos>': 1, 'some': 1, 'i': 1, 'rain': 1, 'want': 1})
 count_pairs: [('am<eos>', 1), ('as', 1), ('cheesy', 1), ('day<eos>', 1), ('hello', 1), ('i', 1), ('puffs', 1), ('rain', 1), ('some', 1), ('there', 1), ('want', 1), ('wu', 1)]
words: ('am<eos>', 'as', 'cheesy', 'day<eos>', 'hello', 'i', 'puffs', 'rain', 'some', 'there', 'want', 'wu')
  word_to_id: {'want': 10, 'there': 9, 'day<eos>': 3, 'wu': 11, 'hello': 4, 'puffs': 6, 'am<eos>': 0, 'cheesy': 2, 'rain': 7, 'some': 8, 'i': 5, 'as': 1}

 

分享到:
评论

相关推荐

    dictzip.dict.dz压缩工具

    《dictzip.dict.dz压缩工具详解》 在数字化学习与翻译领域,词典资源的管理和使用至关重要。为了便于存储和传输这些资源,一种名为“dictzip”的压缩工具应运而生,它主要用于将`.dict`格式的词库文件压缩成`.dict....

    dictzip转换成DZ格式

    - **解压缩dictzip文件**:使用dictzip解压缩工具,如DictUnzipper,将dictzip文件解压缩为原始的文本文件或字典数据。 - **预处理**:根据DZ格式的要求,可能需要对解压缩后的文本进行一些预处理,例如添加元数据...

    dict.txt.zip

    配套博客:https://blog.csdn.net/qq_41739364/article/details/96767359

    Python sorted对list和dict排序

    ### Python `sorted()` 函数详解 #### 一、`sorted()` 函数简介 在Python中,`sorted()` 是一个内置函数,用于对可迭代对象(如列表、元组、字典等)进行排序,并返回一个新的排序后的列表。该函数不仅可以处理...

    area_dict.zip

    《行政区区域位置及对应编码——area_dict.zip深度解析》 在信息技术领域,数据处理与分析经常涉及地理位置信息,其中行政区域编码是不可或缺的一部分。本文将深入探讨“area_dict.zip”这个压缩包文件,揭示其中...

    Python之sorted共3页.pdf.zip

    values_sorted = sorted(dict_obj, key=dict_obj.get) ``` 总的来说,`sorted()`函数是Python中实现排序操作的重要工具,无论是简单的列表排序还是复杂的数据结构处理,都能发挥重要作用。理解并熟练运用`sorted()`...

    pinyin_dict.zip

    JS拼音转汉字的包,非常实用 1. 体积足够小,适合web环境,常见汉字字典文件仅26kb,完整汉字也只有122kb,应该说是互联网上最小的; 2. 支持多种输出格式,如带声调、不带声调、拼音首字母; 3. 支持多音字:如果不...

    Python-Python排序容器类型SortedListSortedDict和SortedSet

    这些容器包括SortedList、SortedDict和SortedSet,它们都属于Sorted Containers库的一部分。Sorted Containers是一个纯Python实现的库,虽然如此,但其性能表现却能与用C语言实现的模块相媲美,这是由于其内部优化的...

    python-skiplist:Python 的 SortedDict 和 SortedSet 实现

    下面是几个例子: &gt;&gt; &gt; from skiplist import SortedSet , SortedDict&gt;&gt; &gt; d = SortedDict ({ 'elma' : 1 , 'armut' : 2 , 'kel' : 3 , 'mahmut' : 4 })&gt;&gt; &gt; dSortedDict ({ 'armut' : 2 , 'elma' : 1 , 'kel' : 3 ...

    LL.zip_android Star-Di_dict_star-dict_字典

    标题中的"LL.zip"是一个压缩文件的名称,它包含了与Android平台上的Star-Dict字典相关的数据。Star-Dict是一款开源的、功能强大的字典软件,支持多种操作系统,包括Linux、Windows以及移动平台如Android。这个"LL....

    stardict dict.zip

    《stardict dict.zip》是一款集成了多种语言资源的压缩包,主要面向英语与汉语的学习者,特别适合在Linux系统中使用。其中包含了多种类型的词典,如朗文词典、21世纪英汉双解词典以及汉语成语词典等,提供了丰富的...

    Sentiment_dict.zip

    标题中的"Sentiment_dict.zip"表明这是一个压缩文件,其中可能包含与情感分析相关的资源,比如一个词典或者数据集。情感分析是自然语言处理(NLP)领域的一个重要任务,它涉及识别和提取文本中的主观信息,特别是...

    J_Dict.zip

    《J_Dict.zip》是一个包含日语词典资源的压缩文件,主要针对对日语学习和研究感兴趣的用户。从描述中我们可以推断,这个压缩包里可能包含了丰富的日语词汇、短语、例句以及相关的语言学习资料。下面将详细讨论日语...

    ascii_dict.zip

    在给定的“ascii_dict.zip”压缩包中,包含了多个与ASCII码相关的文本文件,这些文件可以用于特定的渗透测试和SQL注入攻击中的盲注爆破。 首先,`create_ascii_dict.py`可能是一个Python脚本,用于生成或整理这些...

    暴力破解ZIP密码工具

    此工具用于有密码的ZIP文件,里面有视频教程。 有时候在网上好不容易找到的资源,然后解压时看到需要密码是不是有一种很蛋疼的感觉。求人不如求己。 废话我就不多说了,但是要告诉大家的是,如果密码长度很长的话,...

    62.Python之访问dict共3页.pdf.zip

    本资料"62.Python之访问dict共3页.pdf.zip"可能包含了关于如何访问和操作Python字典的关键信息。尽管实际内容无法在这里展示,但我们可以深入探讨一下Python字典的基本概念、访问方法以及相关的高级用法。 1. **...

    dict_字典文件

    dict字典文件,单词本,xml格式,关键字为单词

    Dict打开工具

    在IT行业中,字典文件(Dict格式)是用于存储大量词汇和其对应解释的数据结构,常见于电子词典、翻译软件以及语言学习应用中。"Dict打开工具"是一款专门设计用来读取和操作这种特殊格式文件的应用程序,旨在为用户...

    63.Python中dict的特点共2页.pdf.zip

    本文件“63.Python中dict的特点共2页.pdf.zip”可能详细阐述了Python字典的多个方面。尽管无法直接提供文件内容,但我可以基于常规知识和理解来详细解释Python字典的关键特性。 1. **动态性**:Python字典的大小...

    RML2016.10a_dict.zip

    本案例针对RML2016.10a_dict数据集并利用VT-CNN2 Mod-Rec Network卷积神经网络对信号实现自动调制方式识别,使用卷积神经网络在图像处理问题中的位移不变性特点,来解决调制识别的问题,使用网络结构来学习匹配...

Global site tag (gtag.js) - Google Analytics