当前位置: 华龙文档网 > 范文大全 > 公文范文 >

网络有害信息

| 浏览量:

下面是小编为大家整理的网络有害信息,供大家参考。

网络有害信息

 

 网络有害信息 互联网的快速发展使得人们可以很方便的获得各种信息, 与此同时, 抵御互联网 E 的反动、 淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。

 互联网上主要有两类有害信息:

 一类是反动、 色情、 迷信、 谩骂和机密等有碍社会公德和不便公开的信息;

 另一类是会影响互联网本身和用户计算机安全的不良代码, 如特殊控制、 计算机病毒等。

 网络有害信息的发现机制主要有主动发现和被动防御两种方式。

 主动发现的方式主要有基于搜索引擎的有害信息主动监测, 被动防御的方式以网络内容过滤为主。

 1 基于搜索引擎的有害信息主动监测技术 采用主动扫描探测方法进行有害信息监控的系统, 首先要设计网络蜘蛛模块, 实现对 html、 asp、 php 和 jsp 等网页的自动抓取, 采用算法实现中文分词,开发信息索引模块, 实现对网页的批量和增量索引, 并且包含有害信息检索模块,实现有害信息监控及预警功能。

 搜索引擎, 概括起来其组成大致分为四个部分:

 (1)搜索器。

 主要完成互联网上获取网页和链接结构信息进行分析处理;

 (2)索引器。

 理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表, 为用户检索奠定基础。

 索引器可以使用集中式索引算法或分布式索引算法,

 (3)检索器。

 用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。

 (4)用户接口。

 主要作用是输入用户查询、 显示查询结果、 提供用户相关性反馈机制。

 主要目的是方便用户使用搜索引擎, 高效率和多方式地从搜索引擎中得到有效并且及时的信息。

 2 内容过滤技术 内容过滤技术一般包括名单过滤技术、 关键词过滤技术、 图像过滤技术、 模版过滤技术和智能过滤技术等。

 现阶段的内容过滤技术主要分为基于网关和基于代理两种, 二者都不能解决的问题是对网络速度的负面影响。

 而且因为是串行处理, 如果网关和代理出现故障都会使网络不通。

 目前过滤技术大多在网络处理的应用层实现, 适应性和安全性较差。

 基于网络层的实现, 最大的挑战有两个方面:

 首先, 应用层分析技术必须全面, 因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。

 其次, 是实现兼容性, 为实现与操作系统网络底层处理融合, 需要充分了解操作系统网络实现机制, 甚至替代部分功能, 如何不影响操作系统的原有功能是相当困难的,

 1. 3 有害信息监测的核心技术 有害信息监铡的核心技术包括分词技术、 文本内容分类关键字识别、 变形关键字识别、 锚文本分析、 有害代码特征识别等 1、 分词技术 对网页进行监测时需要进行特征项的提取。

 对于英文文本, 一般足进行词汇的提取, 由于词汇之间有天然的分隔符(空格), 所以特征项的提取比较容易。

 中文信息没有这个特点, 所以必须采用中文分词技术, 把没有词汇标示的中文句子,通过某种特殊的技术切分出词汇。

 现有的分词算法可分为三大类:

 基于字符串匹配的分词方法(机械分词方法)、 基于理解的分词方法和基于统计的分词方法。

 基于字符串匹配的分词方法也称为基于词典的分词方法是目 前二种分词方法中最快的。

 影响这种方法分词速度的因素主要有两点:

 词典的结构以及匹配算法。

 2、 文本内容分类 文本内容分类是一个广泛研究的课题, 它的任务足把一文本内容分类是一个广泛研究的课题, 它的任务足把一以通过文本分类的方法, 把网页分为有害信息网页和普通信息网页。

 现有的文本分类方法有支持向量机(SVM)、 决策树、 Nearest neighbor、 algorithm 等。

 这些训练过程的基本思路都是从文章中抽取出一些特征关键词, 根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。

 3 关键字识别 对关键字词进行过滤, 最理想的方法就是先对字串的词法、 句法和语义信息进行分析, 再根据句义进行取舍。

 但计算机对语法、 语义的自动分析目前仍处于研究阶段, 还不成熟。

 通常的做法是先人工做成一个含有需要过滤词汇的词典,

 再根据该词典对用户所发的信息进行检查, 即在信息中逐个查找词典中的每一个词。

 如果找到, 有两种方法处理:

 一是终止查寻, 认为该留言不能发表; 二是继续查找, 直到找出文本中所有的关键词, 然后计算该留言中关键词出现的频度,根据事先制定的规则, 决定该信息能否通过发表。

 4 变形关键字识别 为了 逃避过滤, 不法分子会故意将留言中的关键字进行适当变形后进行提交。

 关键字常用的变形方法有同音字法、 拼音法、 字词颠倒法、 字词间加其它字符串、 以及多种变形混用法等。

 由于关键字特征被完全打乱, 基本上找不到可以匹配的关键字。

 因此首先根据关键词识别的情况, 就可以判断出属于此类问题。

 然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序, 最后再进行过滤。

 5 锚文本分析 每一个超级链接都有一个描述文本即锚文本, 这个文本反映了该网页与该链接所至网页的某种关系, 是互联的关键所在。

 通过分析这个描述文本, 就可以得到网页之间重要的关系。

 导向词是一组关键词, 它们会引导搜索器按照一定顺序搜索网络。

 通过设置导向词以及对应的权值, 锚文本中含有导向词的网页会被优先进行信息采集。

 权值的设定有根据经验手工设定和采用程序进行特征提取两种方法。

 6 有害代码特征识别 网络上除了有碍社会公德的有害信息外, 还存在影响互联网本身和用户计算机安全的不良代码, 如特殊控制、 计算机病毒等。

 计算机病毒等可以通过各类防火墙的杀毒模块进机病毒等。

 计算机病毒等可以通过各类防火墙的杀毒模块进是网络过滤的重点。

 (1) 可执行代码的过滤 HTML 足一种标记语言, 即在普通文本中插人一些标记(Tag)来控制文本的显示属性。

 通常 HTML 本身不具有执行程序的功能, 但 HTML 支持插入功能各异的 ActiveX控件, 如一般的客户端浏览器就支持非常流行的 VbScript 脚本语言和 Java. Script脚本语言。

 为使调用 Script 脚本语言的代码失效, 可以用。

 &1t; ” 代替“<”。

 因

 为。

 &h; ” 是“<” 的转定义字符, 浏览器在解释“&h; ” 时会把它当作“<” 来处理, 但它这时不会把“<” 作控制符看, 而只是把它当作显示字符。

 为避免大小写混写的“<Script>” 查不出来, 可使用 Lcase0 函数先把字符串变成小写再查,这样就限制了“<Script>” 后面的脚本程序的执行, 同时将代码显示出来。

 (2) 贴图代码的过滤 在 BBS 中, 文字可使用过滤的方法进行处理, 图像信息和视频信息目前却无好的解决 办法。

 通常的做法是在 BBS 中禁用贴图和加视频流的代码。

 在 HTML 中, 除了正常的贴图指令<IMG SRC=“?” >以外, 还有很多可以贴图的非正规指令, 也必须一一找出来加以过滤。

 (3) 其它代码的过滤 述代码外, 还有一些代码如果出现在 BBS 中, 也有可能造成危害, 因而需要在过滤程序中将这砦代码过滤掉, 如包含页代码<IFRAMEx/ IFRAME>,可以在页面中插入任何其它页面 I 自动跳转页面代码<meta

  httlYequiv=“refresh”

 content=-。

 3 l url=http:

 / / ??/ ncwpage. htm” >可以将页面从当前页跳转到任何页面。

 如果包含页或跳转贞面含有有害信息, 一般来说,在 BBS 中需要过滤掉的代码有<img, background, <embed, <input, <iframe,<object, <applet, <script, <meta 等。

推荐访问:网络有害信息 有害信息 网络

热门文章

解读吸烟与肺癌的关系

解读吸烟与肺癌的关系  世界卫生组织从1989年起将每年的5月31日定为世界无烟日,旨在引起国际社会

青春励志演讲稿:关于梦想

青春励志演讲稿:关于梦想  每一个有志青年,都不想做一辈子的路人甲,都想有一天能站在舞台上当一回主角

关于香蕉的三年级学生作文四篇

关于香蕉的三年级学生作文四篇  三年级香蕉作文300字(一)  我最喜欢吃的水果是香蕉,它不但好吃而

“科学发展、安全发展”林业局安全生产月活动总结

“科学发展、安全发展”林业局安全生产月活动总结  以“科学发展、

订货会发言稿范文四篇

订货会发言稿范文四篇  以下是工作范文网的小编给大家整理的关于订货会发言稿,希望能帮助到大家!  订

教育局信访工作年终总结4篇

教育局信访工作年终总结教育局坚持以“以人为本、以情治访”为原则,综合运用政策、法律、行政等手段,采取教育、协商、调解等多种有效方法,注重身心下移,变上访为下

组织提拔个人自传

组织提拔个人自传  无论处在什么岗位,我都会一如既往,更加努力地做好本职工作,珍惜每一次机会,争取更

五四优秀共青团员、团支部先进事迹材料【5篇】

五四优秀共青团员、团支部先进事迹材料五篇  下面工作范文网的小编就给大家分享下关于五四优秀共青团员、

关于努力奋斗的高中优秀作文4篇

关于努力奋斗的高中优秀作文4篇  01  梦想是人类的翅膀,拥有了它,人类才能在蔚蓝的天空中翱翔;梦

吸烟有害健康,戒烟为什么会那么难?珍惜身体远离香烟

吸烟有害健康,戒烟为什么会那么难?珍惜身体远离香烟  说到戒烟,我想有很多吸烟的烟民,常说的一句话就

安全生产发言稿范文【5篇】

安全生产发言稿范文五篇  下是工作范文网的小编给大家整理的关于安全生产发言稿范文,希望能帮助到大家!

关于人脸识别技术的利与弊两篇

关于人脸识别技术的利与弊两篇  以下是工作范文网的小编给大家整理的关于人脸识别技术的利与弊,希望能帮