深度分页

深度分页其实就是搜索的深浅度,比如第1页,第2页,第10页,第20页,是比较浅的;第10000页,第20000页就是很深了。

POST    http://10.0.0.220:9200/shop/_doc/_search

{
    "query": {
        "match_all": {}
    },
    "from": 9999,
    "size": 10
}


ES默认情况下,最大允许获取10000条数据,超过10000则会报错。另外,我们在获取第9999条到10009条数据的时候,其实每个分片都会拿到10009条数据,然后集合在一起,总共是10009*3=30027条数据,针对30027数据再次做排序处理,最终会获取最后10条数据。如此一来,搜索得太深,就会造成性能问题,会耗费内存和占用cpu。而且es为了性能,他不支持超过一万条数据以上的分页查询。那么如何解决深度分页带来的性能呢?其实我们应该避免深度分页操作(限制分页页数),比如最多只能提供100页的展示,从第101页开始就没了,毕竟用户也不会搜的那么深,我们平时搜索淘宝或者百度,一般也就看个10来页就顶多了。

譬如淘宝搜索限制分页最多100页,如下:



修改默认值
如果有更大的需求,或是需要获取更深的数据,如获取20000到20010条的数据,我们可以去设置相关参数index.max_result_window:(此时我们将最大获取条数设置为30000)

PUT    http://10.0.0.220:9200/shop/_settings

{
	"index.max_result_window":"30000"
}



重新获取第9999到10009条数据:


scroll 滚动搜索
一次性查询1万+数据,往往会造成性能影响,因为数据量太多了。这个时候可以使用滚动搜索,也就是 scroll。滚动搜索可以先查询出一些数据,然后再紧接着依次往下查询。在第一次查询的时候会有一个滚动id,相当于一个锚标记,随后再次滚动搜索会需要上一次搜索的锚标记,根据这个进行下一次的搜索请求。每次搜索都是基于一个历史的数据快照,查询数据的期间,如果有数据变更,那么和搜索是没有关系的,搜索的内容还是快照中的数据。

  • scroll=1m,相当于是一个session会话时间,搜索保持的上下文时间为1分钟。
    ### 第一次查询
    POST     http://10.0.0.220:9200/shop/_search?scroll=1m
    {
        "query": { 
        	"match_all": {
        	}
        },  
        "sort" : ["_doc"], 
        "size":  5
    }
    
    
    ### 第二次查询
    POST     http://10.0.0.220:9200/_search/scroll
    {
        "scroll": "1m", 
        "scroll_id" : "your last scroll_id"
    }

     


第一次查询


第二次查询


官文说明:https://www.elastic.co/guide/cn/elasticsearch/guide/current/scroll.html

最后修改于 2020-04-09 08:53:39
如果觉得我的文章对你有用,请随意赞赏
扫一扫支付
上一篇