Python实现敏感词过滤替换

天外归云 2017-02-23

python 程序员 os path 脚本 string utf-8

[本文出自天外归云的博客园]

问题

最近在网上搜到了一些练习题,对第十二题稍作修改如下:

敏感词文本文件“filtered_words.txt”,里面的内容:

北京人
人大
北京
程序员
公务员
领导
牛比
牛逼
你娘
你妈
love
sex
jiangge

当用户输入敏感词语,则用星号“*”替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」。

思路

这道题练习的是字符串的替换,不过如果不小心的话很容易把过程想简单。在过程中会涉及到递归方法的使用,在Windows下用python2还涉及到编码的转换,要考虑到的是过滤完一遍字符串后可能并没有过滤完的情况,例如在过滤一遍并将敏感字符串替换之后剩余字符串中新组成了敏感词语的情况。这种情况就要用递归来解决,直到过滤替换完一遍之后的结果和过滤之前一样没有发生改变才能视为替换完成,否则在逻辑上是有疏漏的。

编写脚本

代码如下:

# -*- coding: utf-8 -*-
import os
curr_dir = os.path.dirname(os.path.abspath(__file__))
filtered_words_txt_path = os.path.join(curr_dir,'filtered_words.txt')
import chardet

def filter_replace(string):
    string = string.decode("gbk")
    filtered_words = []
    with open(filtered_words_txt_path) as filtered_words_txt:
        lines = filtered_words_txt.readlines()
        for line in lines:
            filtered_words.append(line.strip().decode("gbk"))
    print replace(filtered_words, string)

def replace(filtered_words,string):
    new_string = string
    for words in filtered_words:
        if words in string:
            new_string = string.replace(words,"*"*len(words))
    if new_string == string:
        return new_string
    else:
        return replace(filtered_words,new_string)

if __name__ == '__main__':
    filter_replace(raw_input("Type:"))

运行测试结果:

 

 
登录 后评论
下一篇
云栖号资讯小编
16932人浏览
2020-07-13
相关推荐
正则表达式
1330人浏览
2013-01-22 08:18:00
正则表达式-Csharp
1501人浏览
2017-06-05 09:08:00
The Chain Of Responsibility (1)
927人浏览
2016-05-24 09:31:00
Python的几个练习题
942人浏览
2017-11-12 03:56:00
JS-过滤敏感词【RegExp】
509人浏览
2017-03-17 11:55:00
如何优雅地过滤敏感词
6406人浏览
2018-08-06 13:26:44
asp.net敏感词过滤
975人浏览
2014-07-07 19:20:42
Java实现敏感词过滤
1230人浏览
2016-04-18 16:55:49
0
0
0
2399