社区的核心是用户,用户进入社区的主要目的是消费内容。内容可以是广义上的图形、音频和视频,也可以是通过社区解决问题的方案。优质的内容可以提升用户活跃度,为平台带来流量和时长,实现用户增长和留存,获得更多商机和收益。
“搜索”是社区直接获取内容的最有效方式,每个社区都在不断解决以下搜索效果问题:如何准确理解用户的搜索意图并返回最匹配的结果?如何通过内容传播的差异化和个性化,改善用户的搜索体验,提升社区归属感和忠诚度?社区内不同领域、不同品类、不同渠道之间如何在内容召回上实现互动和连接?如何实现非商业内容与商业内容更好的融合发展?
带着上述思考,本文将分析内容社区行业搜索的特点和挑战,并介绍阿里云智能开放搜索——内容社区行业解决方案的加强版及应用实践。
曝光机会多——无结果率低;
更好的搜索质量-高搜索相关性和更高质量的排名;
更丰富的业务功能——结合业务功能调整搜索结果;
更全面的配套功能——智能纠错、热搜、底纹、下拉提示等配套能力;
拥有成本更低——比自建搜索引擎的开发、资源和运维成本更低;
开发使用更便捷——上线周期短,降低了搜索引擎开发和效果优化的难度;
用户的搜索意图具有很强的指向性——主搜索汇聚了多个渠道的内容,搜索结果的相关性更加精准;
以某论坛社区为例,产品线覆盖多个平台,包括网页、app、小程序等多种形式,并在业务上区分多个渠道。随着业务的发展,主页综合搜索(以下简称“主搜索”)的流量不断增加,各种付费和引流服务的接入对搜索流量的运营变得更加重要。主搜索的业务需求越来越多,需要聚合多个渠道的内容,同时要求搜索结果的相关性更加准确。在考虑文本相关性的前提下,应加入更多的商业因素。
成熟的搜索引擎涉及离线模块、在线模块、查询理解服务、算法平台等系统,需要大量的开发、算法优化和持续复杂的运维。由于人力有限,自建搜索系统难以满足业务需求。
文章搜索博文、问答、经验分享等内容,搜索精品内容,发现热点帖子,对付费资源进行分类筛选。
(图片来自阿里云开发者社区)
话题搜索热点活动、话题互动PGC、UGC热搜、底纹、下拉提示等搜索指南个性化且及时。
(图片来自阿里云开发者社区)
方案架构
功能介绍
内容行业增强版基于阿里巴巴最新的算法功能,契合不同垂直内容搜索场景的痛点和需求,提供内容行业专属的智能语义理解能力、向量召回和排序算法,为内容行业的搜索性能和效果准确性提供了双重保障,有效解决了超大词库数据带来的搜索延迟高、资源消耗大、搜索失败率高等行业重难点问题。对于内容行业,open search还提供了向量模型来实现向量召回和多渠道搜索,提高查询准确率,并提供多模态搜索解决方案。
普通版与内容行业增强版之间的功能差异
功能列表
通用版
内容行业增强版
一站式配置
创建应用程序后,您需要手动创建和配置查询分析、排序策略和下拉提示模型。
结合内容行业常见的搜索场景,选择所需的能力和功能,并提供应用结构模板和索引结构模板,实现一键配置,降低新用户门槛。
查询分析
为通用行业提供同义词扩展、停用词省略、拼写纠正、词权重分析、类别预测等能力。
为内容行业提供增强的分析器和查询分析功能。结合内容搜索场景和行业问题,可以更准确地构建索引并识别用户的查询意图,优于通用版本。
策略排名
创建应用程序后,您需要结合业务场景手动配置和调试相应的排序策略。
基于结构模板和索引结构模板的应用,提供了内容行业常用的排名表达式,无需额外配置即可满足大部分内容行业的排名效果需求。
函数迭代
定期更新分析器、查询分析等系统的默认字典。
根据内容行业术语和产品的变化,我们将不断迭代更新,优化原有的分词和查询分析能力,提供更及时的服务保障。查询分析效果比较
与普通版相比,行业增强版在查询分析功能上做了更深入的优化,不仅在普通版的基础上更新了常见的不良案例,还为内容行业丰富了现有的词库。分词:(带空格的分词)
询问
通用版
行业增强版
为了减压
为了理解压缩
为了减压
真实参与参数
真实参与参数
实参数和形参数
结构超载
结构重量负荷
结构超载
谷歌浏览器框架
谷歌浏览器框架
谷歌浏览器框架拼写纠正:
询问
通用版
行业增强版
淘宝只能看。
淘宝只能看。
淘宝智能视觉
Mybatics代码生成
Mybatics代码生成
Mybatis代码生成
计算机网络
计算机网络
计算机网络
微程序
微型小程序
微信小程序
向西方深入学习
向西方深入学习
深度学习
内容产业矢量召回
为内容行业的垂直行业数据分布提供高质量的向量召回模型,并确保长尾查询的召回效果向量召回,包括错别字查询,以及依靠同义词重写召回查询。
询问
美国gmted2010的Shuju下载
向量召回top1
Gmt43相关代码和数据下载地址。
矢量回忆top2
gmt0054-2010.pdf
向量召回top3
Gmted2010美国下载地址
询问
3D游戏画面处理
向量召回top1
3d游戏动画处理基础
向量召回top2
3d游戏动画的基础
向量召回top3
动画游戏处理
询问
禁用n卡
向量召回top1
网卡的禁止和启动
矢量回忆top2
禁用网卡
向量召回top3
禁用和启用网卡
CTR预测模型——个性化搜索效果基于Seq行为建模,实现个性化搜索。
例如,用户的连续搜索:“interview”和“Java”与用户仅搜索“Java”的结果不同,从而实现个性化召回,满足不同用户的搜索需求并提醒用户搜索体验。深度排名模型
模型参数规模可达千亿级,保证了更好的搜索效果,且模型训练和使用成本低,远低于自研人力+机器+R&D支持的成本。深度召回模型集成了阿里云达摩院的NLP能力,提高了搜索效果,降低了无结果率。
根据用户和数据的特点,结合阿里巴巴长期的技术积累,对模型结构进行深度定制,实现了Make for you独有的深度模型结构。
轻松访问,快速启动,一键访问行业模板,可根据自身业务定制选择功能,并满足非技术人员对业务干预和优化以及数字化运营的需求;点击体验互动演示
表格结构设计
有关详细信息,请参考应用程序结构-》创建多表连接。
数据存取
开放式搜索支持用户通过数据源或不通过数据源访问数据。通过API/SDK/ console上传文件导入数据的详细信息如下:RDS数据源配置MaxCompute(原始ODPS)数据源配置POLARDB数据源配置API/SDK数据导入。
内容社区行业模板的配置
功能选择:以“IT”行业为例,模板功能可自行勾选(默认全部选中)。
模板功能包括:查询分析(IT词权重、IT同义词包、文本矢量化等。)、排序策略(多搜索、文本相关、向量相关)和下拉提示。
如果搜索测试需要使用“IT向量索引”进行搜索,则需要先配置查询分析-文本矢量化功能,并在搜索测试中添加相应的IT向量索引:test:
效果定制服务
如果有深度召回、排名效果优化和个性化搜索需求,并且开放搜索团队的专家支持效果定制服务,您可以填写咨询问卷:https://page.aliyun.com/form/act1638084369/index.htm.
作为一个中文IT内容社区,技术社区致力于为中国软件开发人员提供知识传播、在线学习和职业发展等全生命周期服务,包括各种产品。
自从我开始接触阿里云的开放搜索产品以来,一年时间里我已经连接了PC端和移动端的多个平台,涵盖了首页搜索、博客、下载、问答等子业务的渠道搜索。通过开放搜索,我们将为其产品的用户提供高质量的搜索服务,并通过搜索能力的优化带来更多业务转型,提升整体业务收入。与基于开源和自建的服务相比,CTR提高了80%以上。后续算法专家继续通过深度定制模型帮助客户进行优化。每个曝光用户的点击量增加了16.7%,Item-CTR增加了11.8%,效果仍在提升。
原文链接:http://click.aliyun.com/m/1000339045/
本文为阿里云原创内容,未经允许不得转载。
网友评论