必威体育Betway必威体育官网
当前位置:首页 > IT技术

微软开源Bing搜索背后的关键算法

时间:2019-10-15 10:13:18来源:IT技术作者:seo实验室小编阅读:83次「手机版」
 

微软搜索

微软今天宣布开源了一项 Bing 搜索背后的关键算法 —— SPTAG,它使 Bing 能够快速将搜索结果返回给用户

仅在几年前,网络搜索很简单,用户输入几个关键词然后浏览结果页面。现如今,这些用户可能会在手机上拍照并将其放入搜索框中,或使用智能助手提问,而无需亲自触摸设备。他们也可能会输入一个问题并期待一个实际的答复,而不是一个可能答案的页面列表。

SPTAG (Space Partition Tree And Graph,空间划分树和图)是分布式近似最近邻域搜索(ANN)库的核心,为大规模矢量搜索场景提供高质量矢量索引构建、搜索和分布式在线服务工具包。

利用 SPTAG 算法作为开源 Python 库的核心,Bing 能够在几毫秒内搜索数十亿条信息

640?wx_fmt=png

当然,矢量搜索本身并不是一个新想法,但微软所做的是将这一概念应用于深度学习模型

首先,团队采用预先训练的模型并将数据编码到矢量中,其中每个矢量代表一个字或像素。然后使用新的 SPTAG 库生成向量索引。随着查询的进入,深度学习模型将该文本或图像转换为向量,该库紧接着就能在索引中找到最相关的向量。

微软表示,SPTAG 库迄今已对超过 1500 亿条数据进行了编目,包括单个单词、字符、网页代码段和完整查询。

“Bing 每天处理数十亿个文档,现在的想法是将这些条目表示为向量,并搜索这个 1000 亿以上向量的巨大索引,以便在 5 毫秒内找到最相关的结果”。

通过将矢量搜索应用到深度学习模型,微软让 Bing 搜索引擎能更快地向用户提供更相关的结果。

例如在 Bing 上搜索“巴黎的塔楼有多高?”,搜索引擎会告诉你埃菲尔铁塔高 324 米(1063 英尺),尽管在搜索关键词中并没有出现“埃菲尔”(Eiffel)这个单词。

Bing 团队期望开源 SPTAG 可用于构建可识别基于音频片段所说语言的应用,或用于让用户拍摄植物照片并识别属和物种的服务。

该库现已开放使用,并提供构建和搜索这些分布式矢量索引的所有工具。

码云极速下载地址

https://gitee.com/mirrors/sptag

开源让世界更美好↓↓↓

相关阅读

有哪些方法可以突出网页中的关键内容?

编者按:我有特别的抢眼技巧!今天的好文非常值得拜读,@飞屋睿UIdesign 同学从对比、色彩、字体、留白等方面帮同学们将最关键的内容

百度网站关键词快速排名|百度手机端刷排名靠前

seo实验室推出最新的网站关键词快速排名,冷门词7-15天关键词排名到首页,热门词15-30天上首页。可刷百度关键词排名、360、搜狗、百

复盘分析:网易、雪球测试小游戏刷屏背后的套路与不足

你看过《疯传》么?你听过“社交货币”么?乔纳·伯杰总结了让一切事物疯传的STEPPS六个原则:社交货币、诱因、情绪、公共性、使用价值

Telepresence开源工具使用

一、概述 telepresence是一款为kubernetes微服务框架提供快速本地化开发功能的开源软件。 目前国内很少关于该软件的介绍,本文内容

【python】百度关键词排名查询实现

python版本:3.7.1 安装依赖包requests  re urllib bs4...... 安装方法:打开python安装目录,找到scripts的目录,按住shift出现打开命

分享到:

栏目导航

推荐阅读

热门阅读