NemShow

 I'm Nem
您的当前位置: 首页 > 科技 > 从百度主题研究项目中 看搜索引擎发展

从百度主题研究项目中 看搜索引擎发展

2014-02-12   来源:   编辑:     

导读: 互联网蕴含着海量信息,对普通用户来讲,既有惊喜,也有烦恼。喜的是,不管需要什么样的信息,经过查找引擎,咱们都能找到;与此相对的是,信息量过于丰厚,在查找所需信息时,要花费许多的时刻扫除无用信息。有疾 ...

互联网蕴含着海量信息,对普通用户来讲,既有惊喜,也有烦恼。喜的是,不管需要什么样的信息,经过查找引擎,咱们都能找到;与此相对的是,信息量过于丰厚,在查找所需信息时,要花费许多的时刻扫除无用信息。有疾速满意用户需要的办法呢?

在第二届baidu敞开研讨方案之IT主题项目研讨中,baidu页面查找部与南开大学刘晓光教授协作的“检索词间隔约束的倒排索引求交算法研讨”项目,为处理上述问题供给了极好的思路。

吴迪,baidu页面查找部的资深工程师,“检索词间隔约束的倒排索引求交算法研讨”项意图首要负责人之一。吴迪指出,该项目归于前瞻性探究,期望经过新的办法处理上述难题。据了解,假如用户的查找词是ABCD,一起包括这四个词的页面十分多,查找引擎公司需要做初筛,也即是一般所说的开始挑选。初筛有许多的思路,各公司都有不一样的做法,baidu当前的算法是,用智能算法猜想关键字和页面的匹配程度,将分数低的页面提早,在最短的时刻内, 给用户最精确的答案。不然页面太多,影响用户体会。

“检索词间隔约束的倒排索引求交算法研讨”项目测验在分数核算中引进间隔要素等新的信号新的办法。举例来说,用户在baidu查找引擎中输入“魔兽国际点卡”,查找引擎可将该查找词拆分为“魔兽”、“国际”以及“点卡”,在查找展现时,用户期望看到的是关于“魔兽国际”的信息,而不是“魔兽XX国际”,由于“魔兽XX国际”能够表达了不一样的寓意。根据这种状况,“检索词间隔约束的倒排索引求交算法研讨”项目组发现,用检索词间隔做初筛,也是一种十分好的办法。吴迪在跟刘晓光教师协作的过程中,期望刘教师能够提出一些新的东西,以利于页面查找部扩宽思路,一起也期望能够从南开大学选拔一些优异的同学进行培育。

“运用查找引擎时,由离散射中形成的转义有时会给用户形成搅扰。”吴迪表明,“咱们这个项意图含义在于,探究初筛十分好的办法,咱们研讨发现,参加”词距”这一维度做初筛,能够更精确地筛掉更多无用效果,换言之,搅扰信息被除掉得更洁净,用户体会会十分好。”

据吴迪介绍,该项目处于前瞻性探究期间,当前所获得的项目效果还无法在baidu的商品中详细使用,可是它的学术效果十分有价值,在学术界引起了广泛的重视。根据此项目效果,南开大学方面已先后宣布了多篇高水平的学术论文,其间多篇在ACM、ACM SIGIR等尖端国际会议上发布。别的,在人才培育方面,参加该项意图常好哲同学现已拿到了baidu的offer,有望正式参加baidu页面查找部。

尽管查找引擎为用户查询、获取信息供给了快捷的办法,可是当前它还不行完满,从“检索词间隔约束的倒排索引求交算法研讨”项目中,咱们或许能够猜想,完满的查找引擎必定更高效,或许它行将诞生在baidu!

    “叫兽”金秀贤其实是个帽子控 中的图片