参见:http://rocflytosky.iteye.com/blog/116646
附件是用python从dict.cn查词后,附加了中文和例句的文件(纯文本)
查词程序处理牛津和朗文的区别就是牛津里面带了词性,用split给去掉了,代码如下:
python 代码
-
-
- '''
- 用途:读取文本文件中的单词,获取中文意义写入文件
- 感谢dict.cn 提供web查词功能
- 作者:invalid
- mail:zhaoqz+py@gmail.com
- '''
- import urllib
- import urlparse
- import re
- import string
- import sys
- import pprint
- from sgmllib import SGMLParser
-
-
- class Html2TXT(SGMLParser):
- ''' convert html to txt parser'''
-
- def __init__ (self):
- ''' init '''
- self.text = ''
- SGMLParser.__init__(self)
-
- def reset(self):
- ''' reset '''
- self.text = ''
- SGMLParser.reset(self)
-
- def handle_data(self, text):
- ''' deal '''
- self.text += text
-
- def get_txt(hname):
- ''' Get Txt'''
- html = open(hname,"r").read()
- parser = Html2TXT()
- parser.feed(html)
- parser.close()
- return parser.text
-
- def getpage(url):
- ''' get page '''
- data = [];
- try:
- filehandle = urllib.urlopen(url)
- data = filehandle.readlines()
- filehandle.close()
- except:
- pass
-
- return data
-
-
- def main(argv):
- ''' main '''
-
- if len(argv) < 2:
- print "%s wordsfile" % argv[0]
- sys.exit(0)
-
- urlbase = 'http://dict.cn/mini.php?q=%s'
- words = open(argv[1],"rt").readlines()
-
- words2 = {}
- for word in words:
- word = word.strip()
-
- word = word.split(" ")[0].split(",")[0]
- if word.startswith('"'): word = word[1:]
- url = urlbase % word
- for x in range(10):
- print url
- data = getpage(url)
- open('tmp.htm','w').writelines(data)
- data = get_txt('tmp.htm')
- if (len(data)>2):
- break;
-
- if (len(data)>2):
- start = data.find("'
- end = data.find("\n\r\n\r\n加入生词本")
-
- words2[word]= data[start:end]
-
- wk = words2.keys()
- wk.sort()
- outfile = open(argv[1]+".txt","w")
- for w in wk:
- print >>outfile,"-----------------------"
- print >>outfile, w, words2[w]
- outfile.close()
-
- if __name__ == "__main__":
-
- main(sys.argv)
-
- Longman.2045.rar (173.2 KB)
- 描述: 朗文定义词,带中文解释,如:
-----------------------
abbreviation n. 缩写
例句与用法:1. Scratch the subject of defence and acronym, abbreviation, and buzzwords fly out. 话题触及国防,缩合字,缩写字和行话就满天飞。
2. An abbreviation for formula calculation language, a high-level programming
- 下载次数: 143
- defineword.rar (299.9 KB)
- 描述: 合并了牛津和朗文的定义单词;剔除了重复单词;修复了部分未查询到的单词;
- 下载次数: 188
分享到:
相关推荐
它通常与 `<dt>` 结合使用,以突出显示定义列表中的定义项。 ### <dl>: Definition List `<dl>` 标签用于定义定义列表。它由一个或多个 `<dt>` 和 `<dd>` 组成,用于定义词汇及其含义。 ### <dt>: Definition ...
此辞典以其独特的“朗文定义词汇”(The Longman Defining Vocabulary)而闻名,它包含了2197个基本词汇、10个前缀和39个后缀,这些构成了整个辞典的释义基础。这些词汇被视为英语的“元”词汇,因为它们可以用来...
the defining decade!
《The Defining Decade》是一本由某位临床心理学家撰写的书籍,主要讲述的是作者在个人执业以及作为临床教授和讲师的工作经历。通过与二十几岁的年轻客户的互动,作者希望传达二十几岁这个年龄段的重要性以及如何...
首先,标题“The Defining Decade Why Your Twenties Matter”(决定性的十年:为什么你的二十岁很重要)直截了当地指出了本书的核心观点——人生的二十余岁是定义个人未来的关键时期。这一时期不仅对职业发展至关...
在实际操作中,"MS.MCSD.70-300.Analyzing.Requirements.and.Defining.CHM"可能是一个关于微软认证解决方案开发专家(MCSD)考试的学习资源,特别是针对70-300考题,该考试涵盖了需求分析和解决方案架构定义的内容。...
在备考英语四六级的过程中,了解历年真题中出现的单词与词组是至关重要的。这些词汇和短语是考试中的常见元素,掌握它们能够帮助考生提高阅读理解、听力理解以及写作和翻译的能力。以下是一些从2007年真题中挑选出来...
### TU0106 Defining & Running Circuit Simulation Analyses #### 概述 在电子设计自动化(EDA)领域,电路仿真是一项重要的技能。通过电路仿真,工程师能够在实际制造硬件之前评估电路的行为,这对于减少设计...
作者Ibrahim Karahan和Murat K¨oksalan通过研究和实验开发了一种名为“领土定义多目标进化算法”(territory defining multiobjective evolutionary algorithms, TD-MOEA)的新算法。本书是这类算法的最新经典著作,...
E-PDDL(Epistemic Planning Domain Definition Language)是一种标准化的方法,用于定义认知规划问题,特别是在多代理环境中的认知规划问题,即Multi-Agent Epistemic Planning(MEP)。MEP是自动规划领域的一个...
代码段是FORTH系统中存储单词定义的地方,它包含了解释器或编译器执行该单词所需的信息。程序是由一系列按顺序排列的单词组成的,这些单词定义了程序的行为。词典是FORTH系统存储所有已定义单词的地方,它起到了一个...
《ASTM E2282 - 14 (2019) Standard Guide for Defining the Test Result》是美国材料与试验协会(ASTM)发布的一份标准指南,旨在为测试方法的结果定义提供统一和明确的指导。这份文档在2019年进行了更新,以确保其...
在Matlab中定义数学函数是进行数值计算和数据分析的基础。本教程主要涵盖了如何在Matlab环境中创建和使用自定义函数,以及如何优化这些函数以提高效率。以下是对这个主题的详细探讨: 首先,Matlab中的函数是通过...
MCSE+MCSD微软原版电子书MCSD Analyzing Requirements and Defining Solution.chm
友元函数和友元类是一种特殊的类关系,在 C++ 编程语言中.play a crucial role in defining the relationship between classes. 在本文中,我们将探讨友元函数和友元类的定义及使用,了解它们在编程中的应用和优点。...
我们将使用和 GTF 文件定义参考基因组中的区域。 上面的 IGV 屏幕截图显示了深蓝色的各种基因模型、浅红色的外显子区域、浅绿色的内含子区域和浅蓝色的基因间区域。 安装 BEDTools 要开始,请下载并编译 BEDTools...
Defining Load-Balancing Policy in Static Cluster