|
三、数据挖掘和WEB挖掘 数据挖掘(Data Mining)是信息技术(IT)领域中最热门话题之一。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,似乎从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息治理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。当数据挖掘技术应用于网络环境下的WEB中就成为WEB挖掘(Web Mining),WEB挖掘可以广义地定义为从WWW中发现和分析有用的信息。这个定义有两方面的意义:一方面它描述了自动地从数以百万计的WEB站点和在线数据库中搜索和获取信息和资料,这叫做WEB内容挖掘(Web Content Mining);另一方面,发现和分析用户访问一个或多个站点和在线服务的模型叫做WEB使用挖掘(Web Usage Mining)。
WEB中的异构型和非结构化的数据,使得发现、组织和治理信息变得非常困难。传统的搜索、索引工具,诸如 Lycos, Alta Vista, WebCrawler, ALIWEB等,虽然它们都能为用户提供一些方便,但它们都不提供结构化数据,也不提供分类、过滤和文档翻译等基本功能。近年来,研究人员正努力研究WEB内容挖掘,开发智能化的信息检索工具。基于代理的检索方法正是这种智能化的信息检索工具,它是一个人工智能系统。它可以代表某一特定用户,自动地或半自动地发现和组织基于WEB的信息,它可以根据用户的基本情况,自动检索出用户感爱好的信息,并组织和翻译好这些信息。有些代理甚至可以自动学习用户的爱好,并根据用户的爱好为用户检索出相关信息。WEB内容挖掘的另一种方法是基于数据库的方法。这种方法是把WEB中异构的非结构化的数据集成和组织成结构化的数据,就像关系数据库那样,然后用标准的数据库查询机理和数据挖掘技术来访问和分析这些信息。
WEB使用挖掘(Web Usage Mining)是发现用户访问模型(或称为访问习惯),它的数据是自动从每日的访问日志等中收集到。WEB使用挖掘对建立用户基本情况档案非常要害。研究用户在某个或多个服务器上的行为表现,对改善WEB站点使其更有效地服务于用户是非常必要的。
四、信息服务 WEB挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从WEB中检索出相关的可靠的信息是一个系统的最基本的要求。WEB挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和猜测用户的访问习惯。这样给设计人员在设计WEB站点时有更多的可靠的信息。WEB挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。WEB挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。
例如;院校图书馆员们应用WEB挖掘技术为本院校不同学科中的不同研究课题从WWW中检索相关信息。该技术可以自动地检索信息,并把信息按照课题领域进行分类,使它们更轻易访问。图书馆员可以通过为不同的课题领域建立一组特征,并以这些特征为基础进行检索和分类,从而保证得到的信息是可靠的和具有权威性的。由于WEB挖掘技术能够自动地,不须人工干预地从WWW中发现和组织信息,从而使图书馆员只需花少量的时间来维护数据库即可完成任务。用户由于不需要花大量的时间来浏览成百上千的文档,就可在相当短的时间里得到想要的信息而感到非常满足。更重要的是,他们可以在任何时间访问到世界任何地方的信息。事实上,这就是图书馆员把他们的咨询服务从桌面转移到INTERNET的具体工作表现。
|
| 共3页: 上一页 [1] 2 [3] 下一页 |
评论加载中…