一个小脚本从小说中过滤出经常出现的人名
花名获取利器!
作者:高鹏
小说中,人名后经常跟着一个动词或者介词,根据这一点可以找出常见的人名。下面用一个小shell脚本来玩一下^.^ 脚本如下:
#!/bin/sh
# name:filter_name.sh
# JH Gao <gaopenghigh@gmail.com>
# function:从小说中过滤出经常出现的人名
# 主要步骤如下:
# 编码转换
# 把动词替换为换行,于是每行的前几个字很可能就是人名,再把空行去除
# 取得每行的前3个字
# 过滤掉一些一般不是名字但又经常出现的字
# 过滤掉一个字的行
# 排序,统计,取前100个
iconv -f GB18030 -t utf-8 $1 \
| sed 's/[、,“”听笑说道想答。!:?]/\n/g' | sed 's/[[:space:]]*//g' | sed '/^$/d' \
| cut -nb 1-9 \
| grep -v -e '^$' -e [:\<\>父今哈咱\"还似转整间没他她它在地低众到却急这就怎最嗷但那是什么都拿曰吃二其每另否两么不了你啊只着突我吧各此又虽便即第嘿忽的忙] -e '其实' -e 'http' -e '……' -e '原来' -e '自己' -e '心想' -e '终于' -e '当然' -e '微笑' -e '淡淡' -e '们' -e '然后' -e '所以' -e '可以' \
| sed '/^.\{1\}$/d' \
| sort | uniq -c | sort -k 1 -n -r | head -n 100
执行结果如下:
$ ./filter_name.sh 天龙八部.txt
596 段誉
564 慕容复
532 木婉清
528 王语嫣
461 段正淳
358 鸠摩智
351 游坦之
323 南海鳄
297 阿紫
293 虚竹
265 阿朱
257 保定帝
249 萧峰
232 丁春秋
211 乌老大
203 马夫人
174 王夫人
160 段延庆
159 段公子
156 巴天石
143 朱丹臣
140 钟万仇
139 段誉心
137 乔峰
136 耶律洪
123 风波恶
119 寻思
113 云中鹤
108 邓百川
106 苏星河
105 钟夫人
103 王姑娘
101 少林寺
91 公冶乾
90 左子穆
90 全冠清
89 段誉见
89 李秋水
89 徐长老
87 童姥
86 慕容公
84 白世镜
84 段誉一
83 非也
83 赵钱孙
83 薛神医
81 黄眉僧
81 萧峰心
78 星宿派
78 崔百泉
77 司空玄
73 青袍客
73 大哥
72 很好
72 大伙儿
71 秦红棉
71 姊夫
71 妙极
70 乔帮主
69 镇南王
68 大声
67 阮星竹
67 薛慕华
67 萧远山
67 段誉大
67 星宿老
66 钟灵
66 司马林
62 阿碧
61 慕容博
60 虚竹心
55 段郎
54 霎时之
54 心中一
53 萧峰一
53 包三先
53 刀白凤
52 陈长老
52 诸保昆
51 玉虚散
51 江湖上
51 姑娘
50 摘星子
50 康广陵
50 姚伯当
49 飞库论
49 飞库制
49 颤声
49 」阿朱
49 电脑访
49 手机访
48 木姑娘
47 褚万里
47 虚竹一
47 少林派
46 高升泰
45 萧峰见
45 大理段
44 华赫艮
43 站起身
分享到:
相关推荐
总的来说,“jquery小脚本集合”是一个宝贵的资源库,对于初学者来说,可以作为学习jQuery和JavaScript实战的教程;对于经验丰富的开发者来说,它可以作为代码片段库,随时查找和借鉴。通过深入理解并实践这些脚本,...
一个测速小脚本,
综上所述,这个"java网页小脚本"压缩包提供了一个学习和实践Web开发,尤其是JavaScript和Java交互的好机会。无论是初学者还是经验丰富的开发者,都可以从中找到有价值的素材。如果你对Web开发有兴趣,不妨深入探索这...
一个备份的小脚本,linux系统向windows系统备份数据
这是一个非常基础的 Swift 语言的小脚本示例,这个脚本定义了一个简单的函数,用于计算两个整数的和
总的来说,小脚本4.71免费版作为一个编程助手,它的核心价值在于其丰富的功能集合,旨在简化脚本开发,提高代码质量,同时也为初学者提供了一个友好的学习环境。无论是自动完成、代码高亮,还是错误检查和版本控制,...
这对于非专业程序员或者编程初学者来说,无疑是一个巨大的福音,他们无需深入了解底层语法,也能轻松创建出符合自己需求的脚本。 在小脚本4.0的全套教程中,用户可以系统地学习如何使用这款工具,从安装到脚本编写...
这是一个非常好用的MAX渲染关机小脚本。当你在渲染出图的时候,时间比较长,你就可以设置渲染完后文件保存路径,然后用这个小脚本。还有晚上要渲染图的时候,也可以进行设置。非常方便好用!!
标题中的“一个小脚本,用于从libinput-debug-events读取并根据识别的手势触发键命令”揭示了这个压缩包文件的核心内容。这是一个基于Shell的脚本,它的主要功能是监听`libinput-debug-events`工具输出的事件,然后...
Scratch 是一款面向儿童和初学者的图形化编程工具,它允许用户通过拖拽积木式的代码...以下是一个简单的 Scratch 脚本示例,用于控制舞台上的角色“小猫”在点击绿旗时开始移动,并在碰到边缘时反弹:// 当绿旗被点击时
9. **版本控制**:文件名`charlestati-amplify-629e050`中的`629e050`可能是一个Git提交哈希,表示这是一个特定版本的Amplify库。这表明项目使用了版本控制系统,如Git,用于跟踪代码更改。 10. **社区支持与文档**...
本资源提供了一个简单的 JavaScript 小脚本,用于加载外部 JavaScript 文件。该脚本使用了基本的 DOM 操作来将指定的 JavaScript 文件加载到当前 HTML 文档中。 知识点解释: 1. JavaScript 文件加载:该脚本的...
一个小脚本,允许各种键盘以默认启用的功能键启动。___下载.zip
在实际应用中,理解并运用这些技术可以帮助我们更有效地处理数据丢失或损坏的问题,同时也展示了Winhex作为一个强大的工具,其在数据处理上的灵活性和深度。然而,需要注意的是,这种高级的加密方式在增加安全性的...
在网页开发中,分页是一种常见的功能,它用于将大量数据分成多个小部分,以便用户可以逐步浏览,提高用户体验。本篇文章将详细讲解如何使用小脚本来实现分页功能,特别是基于JSP(JavaServer Pages)的技术实现。...
【标题】"百度搜图小脚本spider"是一个基于Python编写的简易搜索引擎,主要用于从百度图片搜索中抓取特定类型的图像。这个脚本通过模拟用户行为,对百度图片搜索接口进行请求,获取并下载所需的图片。在日常生活中,...
首先,`mynmonForAIX`可能是一个针对IBM AIX操作系统的定制化性能监控脚本。AIX是IBM开发的一种高级多用户、多任务操作系统,广泛应用于企业级服务器。该脚本可能会关注AIX系统特有的性能指标,如CPU利用率、内存...
这是一个简单的汇编语言(x86架构)的示例程序,它将两个数字相加并将结果打印到屏幕上。这个示例使用NASM(The Netwide Assembler)作为汇编器,运行在Linux操作系统上。
这个名为"LinuxCheck-master"的压缩包很可能包含了实现这些功能的bash脚本,或者是一个更复杂的Python或Perl程序。使用时,通常只需在终端中运行该脚本,它会自动收集并显示相关信息,帮助应急响应团队快速定位问题...
生成MAC地址小脚本