PM搜索总结(一)——如何通过query分析、session分析挖掘用户搜索需求把握行为习惯

搜索产品和推荐产品一样,是策略主导的产品类型,与功能型产品相比,前者更加注重背后逻辑策略的设计,但在用户的需求和行为的把握方面,搜索产品,或者说任何产品,面临的要求挑战都是相同的。了解你的目标用户,通过功能或者策满足用户需求,追求更好的用户体验,是产品设计的重要目标之一。

跟其他pm一样,需求挖掘是策略产品经理的基本功,定性定量的用户行为分析是需求挖掘的重要方法,也是数据分析的重要方法之一,这里分析的用户行为指的是用户使用搜索产品的最终诉求在于找到自己想要的商品或者信息。为满足此需求,用户会在搜索产品留下一系列的行为轨迹信息。我们都应该听过“方案》数据》算法”的说法,很多例子都证明,方案层的优化往往比一味的提高算法准确率对更加有效,我们要做的用户分析、需求挖掘是一切方案的基础。

搜索产品在进行用户行为分析中常用的两种分析方法:“query分析”,“session分析”。

一.query分析

概念:query即查询的意思,query分析指的是通过对用户查询词的拆解与分析,了解用户意图与需求。

query分析通常会从case的定性分析入手,然后结合数据进行定量分析,最终实现了解用户目的。case抽样中,采用随机抽样即可,笔者在进行一次完整分析时通常抽取数量500+或1000+。

第一步:数据分析过程中,在完成数据采集及清洗过后,将数据分类整理是重要的第一步。

1.query类型划分:

query按照不同维度可以有多种分类方法,以电商产品为例。

按照query组成结构分类:

在分析组成结构的时候要注意分词粒度,对于电商产品,可以以索引基本单元划分,即term级。

例如“zara儿童包包”,可以分为zara/儿童/包包:三个term的类型分别为品牌,性别,类目,这个query的类型就是品牌+性别+类目。

按照query的精准程度分类:

“zara儿童包包”与“包”对比,前者的精准程度明显大于后者,根据query精准程度的不同,可以划分为“泛搜索词”与“精准搜索词”,划分粒度根据需求决定。

按照query是否含有不明意图修饰词划分:

例如“最好看的包包”,“最好看的”就是非明确意图的修饰词,一般这种类型的query在电商行业比重较小。

按query是否错误划分:

同音字、错别字、输入法错误导致的query错误,也是一种类型。

2.query类型划分的意义:

 2.1通过抽样调查的结果,统计各个类型query所占比例,了解你的搜索产品用户需求的分布,是策略设计的前提,同时也要注意,产品设计中考虑投入产出比,并不是所有的问题都需要解决,所有的点都需要优化,哪些问题影响面广,优化覆盖率高,各个类型的query比例是优先级的依据。明确高频词(头部)、低频词(长尾)组成,按照基本的二八原则,可以指导很多策略的确定。这里需要注意以上几个分类并不是独立的,不同分类维度不同,结果存在耦合。

 2.2query组成结构代表用户的关注点,通常电商产品用户一般关注品牌、类目、性别、有明确意图的修饰词,类似:颜色、款式等,不同垂直领域会有分布差别,了解用户关注点,才能有的放矢的匹配用户需求。

 2.3query精准程度、需求明确程度通常反应代表用户的购买意图,搜索“zara儿童包包”的用户往往比搜索“zara”的用户购买意愿更加强烈。

 2.4包含无明确意图的修饰词往往代表用户是专业内新手,无法明确表达自己的需求,当此类query过多的时候,需要考虑更多的资讯类内容进行新手的教育。

 2.5query错误的时候,需要纠错、改写策略。

第二步,query分类后续分析。

通过query分析,我们通常能得到搜索产品的需求分布与比例,但query类型划分并不是query分析的终点,而是分类查找问题的开始。

概念:

召回:搜索查询返回物品的过程。

召回率:返回物品的数量/数据库内应该被召回的物品的总量。

准确率:召回物品中准确的物品数量/召回物品的总量。

F1-sorce:是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率。F1-sorce是模型准确率和召回率的一种加权平均,F1-sorce=2*p*r/(p+r),最大值是1,最小值是0

召回率、准确率以及F1-sorce是评估策略的重要指标。

示例一个简单的query抽样分析:


抽样分类后仍然需要结合定量的数据统计,查看抽样case暴露出来的问题总量。

可以思考以下问题

1.哪类query召回数量少?

是否资源过少无法满足用户需求?是否需要通过招商配合丰富商品?

2.哪类query的召回率低?

低的原因:商品信息填写不全导致无法命中?部分信息未建索引导致无法命中?其他技术问题?

3.哪类query准确率低?

低的原因:商品信息填写不准确导致误召回?商家seo作弊?技术bug?

4.哪类query平均浏览结果数量少?

少的原因:排序不合理?商品数量过多降低浏览欲望?

5.哪类query点击/购买数量少?

少的原因:缺乏优质/新颖商品?未召回优质商品?排序不合理无法迅速查找目标商品?价格太贵?

……

搜索结果页的产品展示设计问题、信息整合问题、ui设计问题都可以此逐一分析。

具体问题解决环节要从占比大、程度重的解决。

二. session分析

query分析侧重从用户在搜索过程中留下的查询词入手,session分析则侧重用户从进入搜索到推出搜索的整个过程分析用户行为。

概念:

session:即会话,是指在制定的时间段内在网站上发生的一系列互动,搜索的sesion分析指的是从点击搜索输入框/icon至离开搜索的一些列行为。

session分析:是一种专业的数据分析,把用户单点行为串联成一个整体,在此基础上进行分析,解决用户分析中的“线”型难题。

(以上定义参考神策-张乔的文章《数据分析方法论:你真的懂session(会话)分析吗?》)

session切割时间:session切割一向是比较模糊的难题,有很多论文论述session切割标准与方法,笔者在做搜索session分析时通常采用“离开搜索30分钟未返回”标准切割。

搜索中用户单点行为包括:

 输入查询词

 点击查询

 浏览结果

 点击结果

 返回结果瀑布流

 更换搜索词

 收藏商品

 加入购物车

 购买/下单商品

……

一个session中通常包含多个单点行为,同时每个单点行为通常带有其他信息。

举例笔者分析通过session分析查找用户搜索后无点击行为的例子。

通过数据分析,发现搜索后无点击行为占比比较高,分析前先做调查,搜索后无点击原因包含常规的原因,如用户对商品不满意,用户对召回结果不满意等原因,除此之外,用户搜索心理对点击的影响却很难凭空猜测,通过session分析的方法,查找其原因,尤其是用户自身原因。

第一步:采集数据与人工整理。

数据采集可以采用第三方数据平台,例如神策,在埋点详细的情况下,也可直接找研发,好处是可以根据自己需要灵活提取详细数据。

本次选取包含从输入某查询词点击查询至改写查询词或者离开搜索页过程中,无点击结果行为的100个搜索session。


第二步:将用户搜索意图根据需求程度大致分类。

电商行业区别于o2o行业,用户在没有购买转化意愿的时候也会常常使用产品,其目的是多样的,且每一种目的比例都很可观。结合线下访谈与平台特性大致划分以下三类。

1.了解认识:出于了解行业动向了解,“换季了,新出了什么衣服”,“听说了两个牌子,搜搜看什么风格”,或者无意义浏览,类似线下的无目标逛街,打发时间,标准的“浏览型”用户。

2.关注偏好:用户对某些品牌或者商品有特定爱好,会定期查询了解相关动态。

3.准确意图:有具体的商品目标,通常一定要找到该目标商品,可能加入购物车或者购买,也可能最终决定放弃。这一类是典型的“购买型”用户。

出于不同搜索目的的用户在搜索后无点击行为的原因是不同的,例如:出于了解认识的用户,搜索后无点击行为,但是如果发生浏览行为仍然说明本次搜索满足了用户需求。而出于准确意图的用户,搜索后无点击则说明搜索或者商品本身是存在需要解决的重大问题。

第三步,以上分类粒度是无法满足定位具体原因目的的,需要将用户搜索行为按照一定的标准归入大类,并继续划分次级类型,并分析每种类型背后的原因。

如何将搜索行为归纳到以上类型,并继续划分次级类型,以下行为标准可以参考:

1.查询次数:一次完整的搜索session通常由多次查询组成。

2.query类型:参照上面query分析里的分类,确定意图。

3.查询改写的类型: 

用户将查询提交给搜索引擎,然后对搜索结果进行浏览,如果发现搜索结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确地描述自己的信息需求,之后重新构造新的查询请求,如此形成用户和搜索引擎交互的闭合回路。后续的查询改写是用户逐步澄清搜索需求的一个过程。

抽象化改写:将原来的查询进行语义抽象,比如由“zara儿童包包”经过抽象改写为“zara包包”,后者在语义概念层次上要更加宽泛,包含了儿童包包这个概念,之所以要做这种类型的改写,往往是因为原先查询找到的东西太少了,通过概念泛化增加搜索的召回率,以此方法找到更多内容。

具体化改写:具体化改写与抽象化改写相反,从宽泛的语义概念下行收窄,改写后的查询更加具体,这么做可以更加精准的的定位查找内容。

同义化改写:此类型改写则保持改写前后的查询含义不变,比如将“儿童”改写为“小孩”,两者代表的含义是相同的,用户如此改写往往是对原先查询的搜索结果不满意,所以换了一种同一说法来继续搜索。

多类型改写:用户在目标明确且查找意愿非常强烈而返回结果不能让其满意的情况下,用户会进行反复的查询改写,导致一次搜索session包含多次改写,改写类型也不相同。

其他关联类型:即使用户的查询语义并无上述逻辑,通常也不代表前后查询毫无关联,尤其是在电商行业,依然可以根据查询词是否存在“品牌”“类目”“颜色”“款式”等内在相同点来判断用户意图的相关性和连续性。这里还有一类隐藏较深的关联关系,例如“Sandro”与“maje”两个品牌类型查询词,看似无关,了解品牌的同学可能会知道这两个品牌都是著名的少女风格时尚品牌,因此这次的查询改写仍然是有关联的。

4.浏览行为与点击行为:浏览的深度和是否发生点击行为往往代表用户是否找到满意的商品。

5.切换排序方式:搜索的结果页提供多种排序方式,默认-按照热度-按照价格-按照销量-按照时间,用户在切换排序方式的时候反应影响查找商品决策的因素。

6.筛选行为:通过筛选,缩小查询范围。

7.加入购物车行为与购买行为:发生加入购物车或者购买行为代表用户找到目标商品,目标信息与第一次查询的偏移程度也可作为用户行为分析的内容。

用户搜索意图是由整个session综合分析得到,任何单一的行为都不能完整的代表用户意图。

最终可形成初步结果:


以上述表格中session为例进行分析。

session1:用户第一次查询词“zara儿童包包”,召回结果数=浏览数量,点击次数为0,无加入购物车以及购买行为,第二次查询改写为“zara包包”,为抽象化改写,这次召回商品数量为5000,浏览数量1000,远多于第一次,本次发生点击行为,但点击商品位置排名较后。

说明用户有明确的商品目标,第一次“zara儿童包包”召回结果数过少,未包含用户目标商品,进行抽象化改写后,扩大搜索范围,找到目标商品,发生点击,猜测可能存在目标商品无法召回问题,需分析召回问题,点击位置说明排序存在问题,有优化空间。

session2:用户第一次查询词“chanel”,浏览深度大于平时浏览平均深度,切换过“按价格排序”,第二次改写查询词为“gucci”,浏览深度大于平时浏览平均深度,无其他行为,两次搜索都无点击行为。

分析“chanel”与“gucci”并无风格类似等内在联系,但都为大家耳熟能详的热门奢侈品品牌,同时用户浏览深度较大,可判断是出于了解认识目的,“线上逛街”,并无明显的优化点,可考虑增加更多资讯信息,以及信息组织形式,满足浏览型用户“逛”的需求,用户切换过“按价格排序”,可能属于价格敏感性用户,可考虑增加优惠信息,辅助激发购物欲望。

这里面的“行为原因”就是用户出于不同目的引发的无点击行为原因,据本次分析,包括“了解认识_正常浏览”“准确意图_懒,首次查询输入信息不全”等多种原因。

第四步,从问题角度汇总整理。


这样就能完成一次session分析查找无点击行为总结。

最终根据整理的问题,按照优先级依次解决。




萧饭饭,搜索推荐产品经理,WX:xiao-xiao1991,欢迎大家一同探讨,共同进步~

推荐阅读更多精彩内容