`

英语中的定义单词(Defining Vocabulary)

阅读更多

参见:http://rocflytosky.iteye.com/blog/116646

附件是用python从dict.cn查词后,附加了中文和例句的文件(纯文本)

查词程序处理牛津和朗文的区别就是牛津里面带了词性,用split给去掉了,代码如下:

python 代码
  1. #!d:/python25/python.exe   
  2. # -*- coding: gbk -*-   
  3. '''  
  4. 用途:读取文本文件中的单词,获取中文意义写入文件  
  5.      感谢dict.cn 提供web查词功能  
  6. 作者:invalid  
  7. mail:zhaoqz+py@gmail.com  
  8. '''  
  9. import urllib  
  10. import urlparse  
  11. import re  
  12. import string  
  13. import sys  
  14. import pprint  
  15. from sgmllib import SGMLParser   
  16.   
  17.   
  18. class Html2TXT(SGMLParser):   
  19.     ''' convert html to txt parser'''  
  20.        
  21.     def __init__ (self):   
  22.         ''' init '''  
  23.         self.text = ''   
  24.         SGMLParser.__init__(self)   
  25.   
  26.     def reset(self):   
  27.         ''' reset '''  
  28.         self.text = ''   
  29.         SGMLParser.reset(self)   
  30.   
  31.     def handle_data(self, text):   
  32.         ''' deal '''  
  33.         self.text += text   
  34.   
  35. def get_txt(hname):   
  36.     ''' Get Txt'''  
  37.     html = open(hname,"r").read()   
  38.     parser = Html2TXT()   
  39.     parser.feed(html)   
  40.     parser.close()   
  41.     return parser.text   
  42.            
  43. def getpage(url):   
  44.     ''' get page '''  
  45.     data = [];   
  46.     try:   
  47.         filehandle = urllib.urlopen(url)   
  48.         data = filehandle.readlines()   
  49.         filehandle.close()   
  50.     except:   
  51.         pass  
  52.   
  53.     return data   
  54.   
  55.   
  56. def main(argv):   
  57.     ''' main '''  
  58.        
  59.     if len(argv) < 2:   
  60.         print "%s wordsfile" % argv[0]   
  61.         sys.exit(0)   
  62.   
  63.     urlbase = 'http://dict.cn/mini.php?q=%s'   
  64.     words = open(argv[1],"rt").readlines()   
  65.     #print words   
  66.     words2 = {}   
  67.     for word in words:   
  68.         word = word.strip()   
  69.         #朗文注释掉下面二行,比提供查询词组功能   
  70.         word = word.split(" ")[0].split(",")[0]   
  71.         if word.startswith('"'): word = word[1:]   
  72.         url = urlbase % word   
  73.         for x in range(10):   
  74.             print url   
  75.             data = getpage(url)   
  76.             open('tmp.htm','w').writelines(data)   
  77.             data = get_txt('tmp.htm')   
  78.             if (len(data)>2):   
  79.                 break;   
  80.   
  81.         if (len(data)>2):   
  82.             start = data.find("'#ffffff')")+11   
  83.             end   = data.find("\n\r\n\r\n加入生词本")   
  84.             #pprint.pprint(data[start:end])   
  85.             words2[word]= data[start:end]   
  86.   
  87.     wk = words2.keys()   
  88.     wk.sort()   
  89.     outfile = open(argv[1]+".txt","w")   
  90.     for w in wk:   
  91.         print >>outfile,"-----------------------"   
  92.         print >>outfile, w, words2[w]   
  93.     outfile.close()       
  94.         
  95. if __name__ == "__main__":   
  96.        
  97.     main(sys.argv)   
  98.   

 

  • Longman.2045.rar (173.2 KB)
  • 描述: 朗文定义词,带中文解释,如: ----------------------- abbreviation n. 缩写 例句与用法:1. Scratch the subject of defence and acronym, abbreviation, and buzzwords fly out. 话题触及国防,缩合字,缩写字和行话就满天飞。 2. An abbreviation for formula calculation language, a high-level programming
  • 下载次数: 143
  • defineword.rar (299.9 KB)
  • 描述: 合并了牛津和朗文的定义单词;剔除了重复单词;修复了部分未查询到的单词;
  • 下载次数: 188
分享到:
评论
4 楼 新抗暴 2008-12-01  
好东西啊,找了好久才找到,支持
3 楼 rocflytosky 2007-08-29  
 
2 楼 njin 2007-08-27  
1 楼 rocflytosky 2007-08-26  
you did a good job!

相关推荐

    HTML标签英文单词

    它通常与 `&lt;dt&gt;` 结合使用,以突出显示定义列表中的定义项。 ### &lt;dl&gt;: Definition List `&lt;dl&gt;` 标签用于定义定义列表。它由一个或多个 `&lt;dt&gt;` 和 `&lt;dd&gt;` 组成,用于定义词汇及其含义。 ### &lt;dt&gt;: Definition ...

    《朗文当代英语辞典》(Longman Dictionary of Contemporary English)释义词下载

    此辞典以其独特的“朗文定义词汇”(The Longman Defining Vocabulary)而闻名,它包含了2197个基本词汇、10个前缀和39个后缀,这些构成了整个辞典的释义基础。这些词汇被视为英语的“元”词汇,因为它们可以用来...

    defining decade

    the defining decade!

    The defining decade

    《The Defining Decade》是一本由某位临床心理学家撰写的书籍,主要讲述的是作者在个人执业以及作为临床教授和讲师的工作经历。通过与二十几岁的年轻客户的互动,作者希望传达二十几岁这个年龄段的重要性以及如何...

    The Defining Decade Why Your Twenties Matter

    首先,标题“The Defining Decade Why Your Twenties Matter”(决定性的十年:为什么你的二十岁很重要)直截了当地指出了本书的核心观点——人生的二十余岁是定义个人未来的关键时期。这一时期不仅对职业发展至关...

    需求分析和解决方案结构定义

    在实际操作中,"MS.MCSD.70-300.Analyzing.Requirements.and.Defining.CHM"可能是一个关于微软认证解决方案开发专家(MCSD)考试的学习资源,特别是针对70-300考题,该考试涵盖了需求分析和解决方案架构定义的内容。...

    历年真题中出现的单词与词组总结

    在备考英语四六级的过程中,了解历年真题中出现的单词与词组是至关重要的。这些词汇和短语是考试中的常见元素,掌握它们能够帮助考生提高阅读理解、听力理解以及写作和翻译的能力。以下是一些从2007年真题中挑选出来...

    TU0106 Defining & running Circuit Simulation analyses.pdf

    ### TU0106 Defining & Running Circuit Simulation Analyses #### 概述 在电子设计自动化(EDA)领域,电路仿真是一项重要的技能。通过电路仿真,工程师能够在实际制造硬件之前评估电路的行为,这对于减少设计...

    A territory defining multiobjective evolutionary algorithms

    作者Ibrahim Karahan和Murat K¨oksalan通过研究和实验开发了一种名为“领土定义多目标进化算法”(territory defining multiobjective evolutionary algorithms, TD-MOEA)的新算法。本书是这类算法的最新经典著作,...

    E-PDDL定义认知规划问题的标准化方法_E-PDDL A Standardized Way of Defining Epist

    E-PDDL(Epistemic Planning Domain Definition Language)是一种标准化的方法,用于定义认知规划问题,特别是在多代理环境中的认知规划问题,即Multi-Agent Epistemic Planning(MEP)。MEP是自动规划领域的一个...

    第四代计算机高级语言——FORTH.pdf

    代码段是FORTH系统中存储单词定义的地方,它包含了解释器或编译器执行该单词所需的信息。程序是由一系列按顺序排列的单词组成的,这些单词定义了程序的行为。词典是FORTH系统存储所有已定义单词的地方,它起到了一个...

    ASTM E2282 - 14 (2019) Standard Guide for Defining the Test Resu

    《ASTM E2282 - 14 (2019) Standard Guide for Defining the Test Result》是美国材料与试验协会(ASTM)发布的一份标准指南,旨在为测试方法的结果定义提供统一和明确的指导。这份文档在2019年进行了更新,以确保其...

    Matlab Tutorial - 53 - Defining Mathematical Functions.zip

    在Matlab中定义数学函数是进行数值计算和数据分析的基础。本教程主要涵盖了如何在Matlab环境中创建和使用自定义函数,以及如何优化这些函数以提高效率。以下是对这个主题的详细探讨: 首先,Matlab中的函数是通过...

    MCSD Analyzing Requirements and Defining Solution.chm

    MCSE+MCSD微软原版电子书MCSD Analyzing Requirements and Defining Solution.chm

    友元函数和友元类的定义及使用.docx

    友元函数和友元类是一种特殊的类关系,在 C++ 编程语言中.play a crucial role in defining the relationship between classes. 在本文中,我们将探讨友元函数和友元类的定义及使用,了解它们在编程中的应用和优点。...

    defining_genomic_regions:定义基因组中的区域

    我们将使用和 GTF 文件定义参考基因组中的区域。 上面的 IGV 屏幕截图显示了深蓝色的各种基因模型、浅红色的外显子区域、浅绿色的内含子区域和浅蓝色的基因间区域。 安装 BEDTools 要开始,请下载并编译 BEDTools...

    Defining Load-Balancing Policy in Static Cluster

    Defining Load-Balancing Policy in Static Cluster

Global site tag (gtag.js) - Google Analytics