`
gaopenghigh
  • 浏览: 245768 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

一个小脚本从小说中过滤出经常出现的人名

阅读更多
一个小脚本从小说中过滤出经常出现的人名
花名获取利器!
作者:高鹏

小说中,人名后经常跟着一个动词或者介词,根据这一点可以找出常见的人名。下面用一个小shell脚本来玩一下^.^ 脚本如下:
#!/bin/sh
# name:filter_name.sh
# JH Gao <gaopenghigh@gmail.com>
# function:从小说中过滤出经常出现的人名
# 主要步骤如下:
# 编码转换
# 把动词替换为换行,于是每行的前几个字很可能就是人名,再把空行去除
# 取得每行的前3个字
# 过滤掉一些一般不是名字但又经常出现的字
# 过滤掉一个字的行
# 排序,统计,取前100个

iconv -f GB18030 -t utf-8 $1 \
| sed 's/[、,“”听笑说道想答。!:?]/\n/g' | sed 's/[[:space:]]*//g' | sed '/^$/d' \
| cut -nb 1-9 \
| grep -v -e '^$' -e [:\<\>父今哈咱\"还似转整间没他她它在地低众到却急这就怎最嗷但那是什么都拿曰吃二其每另否两么不了你啊只着突我吧各此又虽便即第嘿忽的忙] -e '其实' -e 'http' -e '……' -e '原来' -e '自己' -e '心想'  -e '终于' -e '当然' -e '微笑' -e '淡淡' -e '们' -e '然后' -e '所以' -e '可以' \
| sed '/^.\{1\}$/d' \
| sort | uniq -c | sort -k 1 -n -r | head -n 100

执行结果如下:
$ ./filter_name.sh 天龙八部.txt
    596 段誉
    564 慕容复
    532 木婉清
    528 王语嫣
    461 段正淳
    358 鸠摩智
    351 游坦之
    323 南海鳄
    297 阿紫
    293 虚竹
    265 阿朱
    257 保定帝
    249 萧峰
    232 丁春秋
    211 乌老大
    203 马夫人
    174 王夫人
    160 段延庆
    159 段公子
    156 巴天石
    143 朱丹臣
    140 钟万仇
    139 段誉心
    137 乔峰
    136 耶律洪
    123 风波恶
    119 寻思
    113 云中鹤
    108 邓百川
    106 苏星河
    105 钟夫人
    103 王姑娘
    101 少林寺
     91 公冶乾
     90 左子穆
     90 全冠清
     89 段誉见
     89 李秋水
     89 徐长老
     87 童姥
     86 慕容公
     84 白世镜
     84 段誉一
     83 非也
     83 赵钱孙
     83 薛神医
     81 黄眉僧
     81 萧峰心
     78 星宿派
     78 崔百泉
     77 司空玄
     73 青袍客
     73 大哥
     72 很好
     72 大伙儿
     71 秦红棉
     71 姊夫
     71 妙极
     70 乔帮主
     69 镇南王
     68 大声
     67 阮星竹
     67 薛慕华
     67 萧远山
     67 段誉大
     67 星宿老
     66 钟灵
     66 司马林
     62 阿碧
     61 慕容博
     60 虚竹心
     55 段郎
     54 霎时之
     54 心中一
     53 萧峰一
     53 包三先
     53 刀白凤
     52 陈长老
     52 诸保昆
     51 玉虚散
     51 江湖上
     51 姑娘
     50 摘星子
     50 康广陵
     50 姚伯当
     49 飞库论
     49 飞库制
     49 颤声
     49 」阿朱
     49 电脑访
     49 手机访
     48 木姑娘
     47 褚万里
     47 虚竹一
     47 少林派
     46 高升泰
     45 萧峰见
     45 大理段
     44 华赫艮
     43 站起身
0
0
分享到:
评论
1 楼 wzp24 2012-06-05  
-e '终于' -e '当然' -e '微笑' -e '淡淡'  类似的关键字,实现的思路是怎样的?

相关推荐

    jquery小脚本集合

    总的来说,“jquery小脚本集合”是一个宝贵的资源库,对于初学者来说,可以作为学习jQuery和JavaScript实战的教程;对于经验丰富的开发者来说,它可以作为代码片段库,随时查找和借鉴。通过深入理解并实践这些脚本,...

    一个测速小脚本

    一个测速小脚本,

    java网页小脚本

    综上所述,这个"java网页小脚本"压缩包提供了一个学习和实践Web开发,尤其是JavaScript和Java交互的好机会。无论是初学者还是经验丰富的开发者,都可以从中找到有价值的素材。如果你对Web开发有兴趣,不妨深入探索这...

    一个备份的小脚本

    一个备份的小脚本,linux系统向windows系统备份数据

    一个Swift语言小脚本

    这是一个非常基础的 Swift 语言的小脚本示例,这个脚本定义了一个简单的函数,用于计算两个整数的和

    小脚本4.71免费版小脚本编程助手

    总的来说,小脚本4.71免费版作为一个编程助手,它的核心价值在于其丰富的功能集合,旨在简化脚本开发,提高代码质量,同时也为初学者提供了一个友好的学习环境。无论是自动完成、代码高亮,还是错误检查和版本控制,...

    小脚本4.0.rar

    这对于非专业程序员或者编程初学者来说,无疑是一个巨大的福音,他们无需深入了解底层语法,也能轻松创建出符合自己需求的脚本。 在小脚本4.0的全套教程中,用户可以系统地学习如何使用这款工具,从安装到脚本编写...

    渲染关机小脚本

    这是一个非常好用的MAX渲染关机小脚本。当你在渲染出图的时候,时间比较长,你就可以设置渲染完后文件保存路径,然后用这个小脚本。还有晚上要渲染图的时候,也可以进行设置。非常方便好用!!

    一个小脚本,用于从libinput-debug-events读取并根据识别的手势触发键命令_Shell_下载.zip

    标题中的“一个小脚本,用于从libinput-debug-events读取并根据识别的手势触发键命令”揭示了这个压缩包文件的核心内容。这是一个基于Shell的脚本,它的主要功能是监听`libinput-debug-events`工具输出的事件,然后...

    Scratch的一个小脚本

    Scratch 是一款面向儿童和初学者的图形化编程工具,它允许用户通过拖拽积木式的代码...以下是一个简单的 Scratch 脚本示例,用于控制舞台上的角色“小猫”在点击绿旗时开始移动,并在碰到边缘时反弹:// 当绿旗被点击时

    Amplify一个允许内嵌图像缩放的小脚本

    9. **版本控制**:文件名`charlestati-amplify-629e050`中的`629e050`可能是一个Git提交哈希,表示这是一个特定版本的Amplify库。这表明项目使用了版本控制系统,如Git,用于跟踪代码更改。 10. **社区支持与文档**...

    一个加载js文件的小脚本

    本资源提供了一个简单的 JavaScript 小脚本,用于加载外部 JavaScript 文件。该脚本使用了基本的 DOM 操作来将指定的 JavaScript 文件加载到当前 HTML 文档中。 知识点解释: 1. JavaScript 文件加载:该脚本的...

    一个小脚本,允许各种键盘以默认启用的功能键启动。___下载.zip

    一个小脚本,允许各种键盘以默认启用的功能键启动。___下载.zip

    winhex数据恢复小脚本

    在实际应用中,理解并运用这些技术可以帮助我们更有效地处理数据丢失或损坏的问题,同时也展示了Winhex作为一个强大的工具,其在数据处理上的灵活性和深度。然而,需要注意的是,这种高级的加密方式在增加安全性的...

    小脚本分页 分页功能实现 分页

    在网页开发中,分页是一种常见的功能,它用于将大量数据分成多个小部分,以便用户可以逐步浏览,提高用户体验。本篇文章将详细讲解如何使用小脚本来实现分页功能,特别是基于JSP(JavaServer Pages)的技术实现。...

    百度搜图小脚本spider

    【标题】"百度搜图小脚本spider"是一个基于Python编写的简易搜索引擎,主要用于从百度图片搜索中抓取特定类型的图像。这个脚本通过模拟用户行为,对百度图片搜索接口进行请求,获取并下载所需的图片。在日常生活中,...

    linux性能监测小脚本

    首先,`mynmonForAIX`可能是一个针对IBM AIX操作系统的定制化性能监控脚本。AIX是IBM开发的一种高级多用户、多任务操作系统,广泛应用于企业级服务器。该脚本可能会关注AIX系统特有的性能指标,如CPU利用率、内存...

    汇编语言的一个小脚本示例

    这是一个简单的汇编语言(x86架构)的示例程序,它将两个数字相加并将结果打印到屏幕上。这个示例使用NASM(The Netwide Assembler)作为汇编器,运行在Linux操作系统上。

    EDL.BAT高通平台进9008模式小脚本

    高通平台进9008模式小脚本,不需要强制上拉BOOT管脚,

    linux-一个linux信息搜集小脚本主要用于应急响应

    这个名为"LinuxCheck-master"的压缩包很可能包含了实现这些功能的bash脚本,或者是一个更复杂的Python或Perl程序。使用时,通常只需在终端中运行该脚本,它会自动收集并显示相关信息,帮助应急响应团队快速定位问题...

Global site tag (gtag.js) - Google Analytics