互联网存在的价值就是低成本、高容量、多方的信息传递。
互联网每一个杀手级应用都离不开信息和传递这两个要害词。邮箱是、即时通讯是、搜索引擎还是、将来的杀手级应用还依然离不开信息和传递这两个要害词。
搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面:
1. 确解用户之意 信息抽取,优化排序
用户在搜索用到“最新”、“免费”、“官方网站”、“北京”、“电话”等要害词的时候并不是一定需要网页中有这个要害词,而是找这类信息。
用户在找“最新”的时候实际上是希望获取其它词汇的最新相关内容,而不一定是需要含有“最新”这两个词汇的。所以在排序的时候考虑见新的网页排列在靠前位置更满足了用户的需求。
用户搜索“十八街麻花 北京”是想找在北京的十八街麻花的地址或者电话。
用户搜索“北京泽通华程科技发展有限公司 电话”的时候是想找电话号码。
在处理这类请求需要对地理位置信息和“电话”这类词汇进行前端分析,在索引的时候识别电话号码、地址信息,在排序的时候将有相关信息的页面放置在前面、并且在做摘要提取的时候直接体现用户需要。
2. 基于视觉网页块分析
这项技术激动人心,对于优化网页的排序、自动摘要的质量很有帮助。网页搜索引擎可以全文检索一样在几乎纯净的数据中处理,再加上网页中富有的其它信息,你说网页搜索的相关性能不大幅度提升吗?
3. 网页库内容分类
用户在搜索“申花”,那他有可能是两个需求,1.足球相关 2.申花电器 3.其它
假如用户搜索“申花”出来的全部是足球相关信息,这显然不能代表不同网民的需求。作为一个入口而言,假如将不同类型(行业不同、知识类型不同)的信息排列在首页,那用户会感觉很happy,满足了多样性的需求。
这也可为将来做个性化搜索提供预备。
4. 潜在相关性
搜索“恐怖”,出现一篇拉登的新闻,虽然这篇文章里面没有“恐怖”这个要害词。
搜索“西红柿”出现“番茄”,但是网页中没有“西红柿”这个要害词。
这个技术似乎还不是很成熟。
5. 网页结构化信息抽取类技术,网页上文本内容的相关性分析
抽取实在是未来应用前景最好的一种技术,自动的抽取任意网页上的结构化数据。主要可用垂直搜索引擎:对网页数据进行采集、抽取、深度加工后为用户提供更好的、更专业的服务。
结构化信息抽取可以识别网页中文本之间的相关度,可用于改善多词汇检索的关联度(计算偏移量不仅仅在文本距离上而且在表格单元格的相关性上);改善链接的相关性;改善文件和文本的相关性……
地图搜索、黄页搜索、mp3搜索、图片搜索、bbs搜索等等各种搜索都离不开网页结构化信息抽取。
6. 自然语言处理、简单的语意语法分析
NLP还有很远的路要走,在走路的过程中也可以获得很多可应用的价值。说不定NLP不很成功,但是有可能催生了某种新技术的非常成功。而NLP不需要完全成功前就可以使用他了。
搜索引擎可以根据内容来进行简易的语法分析,将某些呈现在用户面前。比如google的“DEFINE:“就用到了这种方法、同义词的识别等都可以用到这种简单的语法分析来搞定!还可以对具有某类语法的形式的正文进行要害词调权,改善检索效果。
7. 重复识别
互联网的数据冗余实在太厉害了,一篇文章可能会被转载数千数万次。
评论加载中…
![]() |