算法备案公示说明
为依法保障用户对网易云音乐算法服务的基本原理、目的意图和主要运行机制等的知情权,告知用户网易云音乐提供的算法服务备案情况,网易云音乐服务提供者(或简称“我们”)制定本《算法备案公示说明》,帮助用户了解在使用网易云音乐产品和服务的过程中我们如何通过利用算法技术向用户提供信息和服务。
1. 个性化推送类
算法名称:网易云音乐个性化推荐算法
算法基本原理:云音乐个性化推荐算法是对云音乐上的内容资源做千人千面的分发算法;内容资源包括歌曲、歌单、播客、视频、直播等内容。个性化推荐算法利用海量的数据帮助用户从过载的内容资源中,快速选择用户可能喜欢的资源,提升用户获取信息资源的效率;同时,云音乐的算法系统也能够高效的分发积极正向的内容,弘扬社会正能量。
算法运行机制:云音乐个性化推荐算法由数据收集、风控处理、特征引擎、召回引擎、排序引擎、线上推荐服务、人工干预等几部分组成。
1) 数据收集:数据收集包括客户端日志、服务端日志、资源内容数据;针对用户隐私数据,通过隐私数据保护模块对用户的隐私数据进行加密处理;
2) 风控处理:风控处理对作弊内容进行捕获,每日生成作弊数据;后续推荐系统使用的数据会过滤掉作弊,防止作弊对推荐系统造成干扰;
3) 特征引擎:基于用户基本信息和用户行为计算用户的偏好特征,建立用户画像特征;通过对海量用户对资源的行为分析,建立资源的资源画像特征;
4) 召回引擎:首先,在千万级别数量的资源池中,过滤黑名单数据和线上用户不可消费的资源,再结合用户画像特征和资源画像特征,利用用户偏好的分类特征、协同过滤、深度复杂召回模型等,为用户召回可能偏好的千级别数量的资源;
5) 排序引擎:利用用户的口味偏好数据,建立更加复杂的排序模型,预测用户对召回资源更加准确的偏好度分数,基于偏好度分数从高到低排序,为用户推荐最可能喜欢的十级别歌曲;
6) 线上服务:用户打开App,在客户端的各种动作,当打开推荐场景,客户端会调用服务端,服务端调用推荐的线上服务,线上服务执行召回引擎和排序引擎,经过人工干预,返回给客户端,供用户消费;
7) 人工干预:整个推荐系统有人工干预机制,可以对待推荐的内容进行上下线,建立黑名单,确保内容能被最终干预,及时处理,规避风险;也可以直接加白名单,强制干预推荐结果。
算法应用场景:云音乐歌曲、歌单、视频、直播、播客推荐
算法目的意图:云音乐个性化推荐算法,根据用户公开的行为数据,播放、收藏、评论、互动等刻画用户对内容的兴趣偏好,利用海量的数据通过深度算法模型,帮助用户从过载的内容资源中,快速匹配选择用户可能喜欢的歌曲内容,提升用户获取信息资源的效率,提升用户体验满意度;同时能够减少信息茧房,传播正能量,提升正向风气。
备案编号:网信算备330109830471102220013号
2. 检索过滤类
算法名称:网易云音乐内容检索算法
算法基本原理:网易云音乐检索算法辅助用户快速查找目标内容。通过理解用户输入词,系统从海量资源中召回潜在目标内容,基于相关性、权威性、时效性、多样性等多维内容特征进行排序展示,能够辅助用户做信息筛选,浏览点击决策,提升用户体验。
算法运行机制:云音乐内容检索包括以下部分,如下所示:内容整理、风控处理、建立索引、检索词解析、内容召回、内容排序、安全过滤、人工干预等:
1) 内容整理:确定进入检索范围的内容,进行初步分析,梳理出名称、作者、别名等需要检索字段,同时基于业务层面的标签需求,对内容进行标签分类,提高用户检索体验;
2) 风控处理:内容进入索引前,经过统一风控分析过滤,对于不符合要求的内容提前进行处理,无法进入索引;除了统一接入审核系统之外,每种资源都有独立的运营审核系统;
3) 建立索引:采用统一倒排引擎,建立索引,内容数据增量实时更新,天级别全量更新;
4) 检索词解析:检索发起端来自于用户输入,高效准确的分析出用户检索词意图对于下游的任务至关重要。基于音乐类数据进行统计加工,生成大规模意图词典;其中意图主要分为精确资源意图检索、歌词意图检索、泛意图检索、影综意图检索等种类,为后续召回和排序提供指导。
5) 内容召回:生成规范的语法树结构,请求索引召回潜在目标内容。此过程涉及分词、倒排求交等机制;
6) 内容排序:内容召回后需要排序,精确找到用户希望的目标结果。通过主流的深度模型对候选内容进行打分排序,采用较全面的内容特征、交互匹配特征以及搜索词特征构建训练样本,采用深度模型训练用于音乐、歌单、视频等内容上的预测打分,同时在排序过程中对于正规来源、权威内容搜赋予更高的排序权重。
7) 安全过滤:检索结果展示前,对关键词进行分级管理,确定展示的内容范围。关键词管理,支持区分垃圾类别、内容预上线、内容定时释放、多种匹配方式;支持运营人员不断迭代优化;
8) 人工干预:检索结果具有人工干预机制,可以对检索词展示内容进行上下线,确保有问题及时处理,规避风险。
算法应用场景:网易云音乐内搜索
算法目的意图:网易云音乐内容检索算法,基于用户搜索客观需求进行内容检索和结果展示;检索功能作为云音乐基础核心功能,辅助用户快速查找目标内容,为用户提供选择的便利,增加用户使用产品的满意度,提供更加权威正向的内容。
备案编号:网信算备330109830471104220015号
3. 排序精选类
算法名称:网易云音乐内容排行榜算法
算法基本原理:网易云音乐内容排行榜算法,以内容的互动行为作为特征,以加权的线性模型作为打分排序依据,并辅以排行榜规则计算得到的内容排序;排行榜算法客观反应内容的搜索和消费热度以及时点内容,具有较强的权威度,为用户提供非个性化的信息筛选。
算法运行机制:网易云音乐内容排行榜算法的运行机制,由数据收集、风控处理、指标计算、榜单过滤、人工校验、人工干预等几部分组成。
1) 数据收集阶段
收集内容消费互动数据,包括内容被搜索、播放、收藏、互动的次数;排行榜算法在隐私告知范围内以最小、最少、够用原则采集数据,以加密的形式传输和存储数据,避免数据丢失、泄露、篡改等;
2) 风控处理阶段
风控处理会对作弊内容进行捕获,生成作弊数据,榜单计算时会过滤掉风控捕获的作弊数据,防止作弊对指标统计造成干扰,杜绝刷榜问题;风控处理对排行榜正确性、稳定性、安全性尤为重要,会进行如下处理:1、会过滤异常地域、异常账户、异常行为的日志数据;2、会打压同一个账户异常的行为数据,例如同一账户、同一歌曲、同一日期播放次数异常等;3、会过滤掉异常的搜索行为数据;
3) 指标计算阶段:指标计算按照搜索热搜榜、内容排行榜的榜单计算规则,对经过风控之后的数据进行统计加工,生成初始的排行分数;榜单排行榜分数是一个线性加权模型,对内容和热搜的播放、搜索、收藏、分享、评论次数,经过归一化之后,做线性的加权,最后生成得分;
4) 榜单过滤阶段:榜单过滤部分根据黑名单、白名单内容进行过滤、加权、降权操作;例如对涉嫌违法内容进行过滤,白名单机制保证所有排行榜的内容在审核的内容池;
5)人工校验阶段:人工校验部分确保最终生产的内容经过二次审核,确保内容的正确、真实、公平;
6) 人工干预阶段:热搜排行榜和内容排行榜有人工干预机制,可以对榜单的内容进行上下线,确保内容能被最终干预,及时处理,规避风险。
算法应用场景:网易云音乐App歌曲排行榜、播客排行榜、视频排行榜、热搜排行榜等。
算法目的意图:网易云音乐内容排行榜算法,根据客观的数据表现,从海量的内容中挖掘时点、热点内容,具有较强的权威度;内容排行榜、热搜排行榜是非个性化推荐的信息入口,能够辅助用户做信息筛选,浏览决策,为用户提供选择的便利,从而提升用户体验,更好服务用户。
备案编号:网信算备330109830471103220019号