一种弹幕敏感信息的检测方法、装置及后台服务

发布日期：2024-08-21 浏览次数：次

本技术涉及数据处理，特别是涉及一种弹幕敏感信息的检测方法、装置及后台服务器。背景技术：1、用户在观看视频的过程中，可以通过发送弹幕来发布自己对于视频内容的感受。弹幕是指在播放视频时视频显示页面中弹出的用户发送的评论性字幕。然而，在视频显示页面上经常会出现用户发送的弹幕恶意刷屏，这些弹幕中可能包含恶意评论、恶意玩笑，甚至是低俗语言等其他用户不想看到的信息。并且，随着语言文化的发展，一些看似正常实则具有隐蔽性负面含义的弹幕在与视频所呈现的视频画面结合后，可能引导观众对该视频画面所呈现的剧情产生负面理解，甚至是曲解视频画面所要呈现的剧情内容，从而，影响用户的观看体验。2、基于此，如何确定视频中的弹幕是否为会引导观众产生负面理解的恶意弹幕，成为当前亟需解决的技术问题。技术实现思路1、本技术实施例的目的在于提供一种弹幕敏感信息的检测方法、装置及后台服务器，以实现对视频中会引导观众产生负面理解的恶意弹幕进行检测处理，使用户获得良好的观影体验。具体技术方案如下：2、在本技术实施例的第一方面，首先提供了一种弹幕敏感信息的检测方法，应用于后台服务器，所述方法包括：3、获取待处理视频中所呈现的剧情内容的剧情类型为预设剧情类型的待处理片段；4、获取所述待处理片段所包含的目标弹幕文本；5、识别所述目标弹幕文本的文本语义，并根据所得到的语义识别结果，确定所述目标弹幕文本中是否包含敏感信息。6、可选的，一种具体实现方式中，所述获取待处理视频中所呈现的剧情内容的剧情类型为预设剧情类型的待处理片段，包括：7、对所述待处理视频进行切分，得到视频片段；8、确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型，若是，则确定所述视频片段为待处理片段。9、可选的，一种具体实现方式中，所述剧情内容包括台词文本，所述确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型，包括：10、获取所述视频片段中包含的台词文本；11、根据所述台词文本，通过以下方式确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型：12、确定所述台词文本中是否包含预设关键词，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型；13、和/或，14、对所述台词文本进行语义识别，确定所述台词文本表达的剧情内容是否为预设剧情类型，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。15、可选的，一种具体实现方式中，所述剧情内容包括视频帧画面，所述确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型，包括：16、获取所述视频片段中包含的视频帧画面；17、根据所述视频帧画面，通过以下方式确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型：18、确定所述视频帧画面中人物之间的距离是否小于预设距离，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型；19、和/或，20、确定所述视频帧画面中人物皮肤的暴露比例是否大于预设比例，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。21、可选的，一种具体实现方式中，所述剧情内容包括音频，所述确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型，包括：22、获取所述视频片段中包含的音频；23、确定所述音频中是否包含预设音频内容，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。24、可选的，一种具体实现方式中，所述对所述待处理视频进行切分，得到视频片段，包括：25、确定所述待处理视频中台词的播放时间段；26、基于所述台词的播放时间段对所述待处理视频进行切分，得到视频片段；其中，每一视频片段包括预设数量的台词。27、可选的，一种具体实现方式中，所述对所述待处理视频进行切分，得到视频片段，包括：28、将所述待处理视频切分为多个指定时长的视频片段。29、可选的，一种具体实现方式中，在确定所述目标弹幕文本中包含所述敏感信息时，所述方法还包括：30、删除所述目标弹幕文本；31、或，32、为所述目标弹幕文本设置预设的停止展示标签，以使得客户端在识别到所述停止展示标签后，在所述待处理视频在播放时不展示所述目标弹幕文本。33、可选的，一种具体实现方式中，所述方法还包括：34、接收客户端所发送的举报信息，确定所述举报信息所指示的指定弹幕文本，以及所述指定弹幕文本的起始展示时刻；35、在所述待处理视频中确定包含所述起始展示时刻的指定视频片段，并确定所述指定视频片段所呈现的剧情内容的剧情类型是否为所述预设剧情类型；36、若是，则识别所述指定弹幕文本的文本语义，并根据所得到的语义识别结果，确定所述指定弹幕文本中是否包含所述敏感信息。37、可选的，一种具体实现方式中，所述识别所述指定弹幕文本的文本语义，包括：38、将所述指定弹幕文本输入至预训练的弹幕语义识别模型中，识别所述指定弹幕文本的文本语义所表征的文本特征，并将所述文本特征对应的语义识别结果，确定为所述弹幕语义识别模型的输出结果；39、其中，所述弹幕语义识别模型是基于带有第一标签的第一样本弹幕和带有第二标签的第二样本弹幕训练得到的，所述第一标签用于表征在所述预设剧情类型下所述第一样本弹幕中包含敏感信息，所述第二标签用于表征在所述预设剧情类型下所述第二样本不包含敏感信息。40、在本技术实施例提供的第二方面，还提供了一种弹幕敏感信息的检测装置，应用于后台服务器，所述装置包括：41、剧情类型确定模块，用于获取待处理视频中所呈现的剧情内容的剧情类型为预设剧情类型的待处理片段；42、弹幕文本获取模块，用于获取所述待处理片段所包含的目标弹幕文本；43、弹幕文本检测模块，用于识别所述目标弹幕文本的文本语义，并根据所得到的语义识别结果，确定所述目标弹幕文本中是否包含敏感信息。44、可选的，一种具体实现方式中，所述剧情类型确定模块，包括：45、视频切分子模块，用于对所述待处理视频进行切分，得到视频片段；46、剧情类型确定子模块，用于确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型，若是，则确定所述视频片段为待处理片段。47、可选的，一种具体实现方式中，所述剧情内容包括台词文本，所述剧情类型确定子模块，具体用于：48、获取所述视频片段中包含的台词文本；49、根据所述台词文本，通过以下方式确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型：50、确定所述台词文本中是否包含预设关键词，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型；51、和/或，52、对所述台词文本进行语义识别，确定所述台词文本表达的剧情内容是否为预设剧情类型，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。53、可选的，一种具体实现方式中，所述剧情内容包括视频帧画面，所述剧情类型确定子模块，具体用于：54、获取所述视频片段中包含的视频帧画面；55、根据所述视频帧画面，通过以下方式确定所述视频片段所呈现的剧情内容的剧情类型是否为预设剧情类型：56、确定所述视频帧画面中人物之间的距离是否小于预设距离，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型；57、和/或，58、确定所述视频帧画面中人物皮肤的暴露比例是否大于预设比例，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。59、可选的，一种具体实现方式中，所述剧情内容包括音频，所述剧情类型确定子模块，具体用于：60、获取所述视频片段中包含的音频；61、确定所述音频中是否包含预设音频内容，若是，则确定所述视频片段所呈现的剧情内容的剧情类型为预设剧情类型。62、可选的，一种具体实现方式中，所述视频切分子模块，具体用于：63、确定所述待处理视频中台词的播放时间段；64、基于所述台词的播放时间段对所述待处理视频进行切分，得到视频片段；其中，每一视频片段包括预设数量的台词。65、可选的，一种具体实现方式中，所述视频切分子模块，具体用于：66、将所述待处理视频切分为多个指定时长的视频片段。67、可选的，一种具体实现方式中，所述装置还包括：68、弹幕处理模型，用于删除所述目标弹幕文本；或，为所述目标弹幕文本设置预设的停止展示标签，以使得客户端在识别到所述停止展示标签后，在所述待处理视频在播放时不展示所述目标弹幕文本。69、可选的，一种具体实现方式中，所述装置还包括：70、举报弹幕获取模块，用于接收客户端所发送的举报信息，确定所述举报信息所指示的指定弹幕文本，以及所述指定弹幕文本的起始展示时刻；71、剧情类型判断模块，用于在所述待处理视频中确定包含所述起始展示时刻的指定视频片段，并确定所述指定视频片段所呈现的剧情内容的剧情类型是否为所述预设剧情类型；若是，则触发文本识别模块；72、所述文本识别模块，用于识别所述指定弹幕文本的文本语义，并根据所得到的语义识别结果，确定所述指定弹幕文本中是否包含所述敏感信息。73、可选的，一种具体实现方式中，所述文本识别模块，具体用于：74、将所述指定弹幕文本输入至预训练的弹幕语义识别模型中，识别所述指定弹幕文本的文本语义所表征的文本特征，并将所述文本特征对应的语义识别结果，确定为所述弹幕语义识别模型的输出结果；75、其中，所述弹幕语义识别模型是基于带有第一标签的第一样本弹幕和带有第二标签的第二样本弹幕训练得到的，所述第一标签用于表征在所述预设剧情类型下所述第一样本弹幕中包含敏感信息，所述第二标签用于表征在所述预设剧情类型下所述第二样本不包含敏感信息。76、在本技术实施例提供的第三方面，还提供了一种后台服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一弹幕敏感信息的检测方法。77、在本技术实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一弹幕敏感信息的检测方法。78、在本技术实施例的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一弹幕敏感信息的检测方法。79、本技术实施例提供的方案，应用于后台服务器，由于相同的弹幕文本在不同的剧情内容对应的剧情类型下所表征的含义不同，在一些特定剧情类型下，相同文字内容的弹幕文本可能为恶意弹幕文本。因此，为了净化视频环境，使用户获得良好的观影体验，可以预先设置预设剧情类型。这样，在进行敏感信息检测时，基于上述预设剧情类型，可以直接在待处理视频中确定待处理片段，从而，在获取到所确定待处理片段所包含的目标弹幕文本后，识别上述目标弹幕文本的文本语义，并根据所得到的语义识别结果，确定上述目标弹幕文本中是否包含敏感信息。80、并且，通过结合待处理片段的剧情内容对包含具有隐蔽性负面含义的敏感信息的弹幕文本进行识别，可以降低对弹幕文本的误判，从而，提高对包含有敏感信息的弹幕文本的识别准确率。并且，基于预先设置的预设剧情类型，可以直接确定上述待处理视频中的待处理片段，从而，针对所确定的待处理片段所包含的目标弹幕文本进行进一步的敏感信息检测，以大量减少所需检测的弹幕文本的数量，进而，提高弹幕的检测效率。