|
第二个问题就是如何决定一个查询条件可能对应的主题–- 当用户输入诸如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以最恰当的主题,以及为什么一些查询条件更轻易受到影响的原因。
2-1-3. 关于Applied Semantics公司及其专利技术CIRCA
Applied Semantics网络广告软件公司是互联网广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords要害词广告系统中,为PPC广告客户提供基于内容的广告就是采用了Applied Semantics的AdSense技术。
事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是Applied Semantics公司所拥有的专利技术CIRCA。
CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的治理和检索,从而为搜索用户更好的提供探索知识的机会。
CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的要害词词根还原系统。
尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,假如用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。
2-1-4. 二者的有机结合:主题性搜索引擎的实现
现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?
首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。
在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。
现在,假如用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。
由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。
当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。假如匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。
2-1-5. 安然接受和理解算法的改变
可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。
有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站提供的。
|
| 共3页: 上一页 [1] 2 [3] 下一页 |
评论加载中…