篮球运动技战术数据统计与视频分析的现状与挑战-jrs直播免费直播平台

除了 2 分球、2 分球、三分球、三分球、扣篮、助攻、盖帽、抢断、失误、犯规和得分等技术信息外，篮球还需要统计战术信息。目前，大部分统计工作都是人工完成的，这种统计方法存在一些不足，比如统计速度比较慢，统计信息不全面，只能统计一些简单的信息，每次进攻或防守中球员的移动路线和篮球落点都无法统计。除了统计技术和战术数据外，教练员和运动员有时还需要通过观看某场比赛或某支球队的比赛的视频来分析对手的技术和战术特点。例如，教练和球员在比赛结束后反复观看比赛视频，了解球队在比赛中缺少什么，球队会对视频进行非线性编辑。赛后对游戏视频进行非线性编辑需要时间且缺乏时效性。

到目前为止，许多专家学者对篮球视频事件检测和标注进行了研究，产生了许多不同的想法。从最初的听觉、视觉、文本等单模态特征分析方法，到结合多模态特征的视频分析方法;从结合域特征的检测方法到使用通用模型的检测方法，篮球视频事件检测技术得到了极大的发展。

为了收集更全面的技术和战术信息，在编辑视频时花费更少的时间，更对时间敏感，本项目需要研究篮球比赛的技术和战术获取系统。同时，需要结合深度学习技术对体育视频进行预处理，包括分帧操作、重采样操作等，实现篮球运动员和篮球的定位技术和跟踪。根据视频中篮球运动员的运动特点设计深度学习网络，完成球员和篮球的定位。确定篮球运动员和篮球在多个视频帧中的运动轨迹，完成运动动作分类和识别技术;基于深度学习，对跟踪的序列目标数据进行分类，以确定目标当前执行的操作类型。实现战术数据的自动采集，并统计当前时间段内每位运动员的动作;最后，生成相应的统计分析结果并进行可视化处理。

针对以上要求，将本项目需求划分为多个模块，采用合理的技术路线，最终实现既定目标。

2 技术路线图2.1 模块化规定

根据项目需求，整个过程分为六个模块，模块设计如下：

（1）数据集构建

（2）目标检测设计

（3）多目标跟踪设计

（4）行为识别设计

（5）全面实现播放器对视频流的动作识别

（6）篮球战术数据指标统计可视化

将模块划分后，为每个模块提出最优技术路线，解决模块问题，最后将所有模块集成在一起，形成完整的技术路线，完成项目任务。

2.2 技术路线图和要求 2.2.1 数据集构建

技术路线：基于 PYQT5 构建人机交互友好的人工标注数据集平台

要求： 1. 使手动注释更高效。2. 有效管理数据集组织的能力 3.导出的数据集可用于后续的模型训练。

2.2.2 目标检测设计

技术路线：基于平台搭建网络模型

要求：

（1）训练需求：能够基于模块 1 数据集构建的标注文件进行训练并生成权重文件，准确率达到 98% 以上。

（2）预测要求：能够检测到玩家在某帧图像上的位置，并针对输入的视频帧进行标记。

2.2.3 多目标跟踪设计

技术路线：基于平台搭建网络模型

要求：

（1）训练需求：基于模块 1 的数据集和模块 2 的目标检测权重文件构建的标注文件，可以训练生成准确率超过 98% 的权重文件。

（2）预测要求：能够持续跟踪每个播放器在视频上的位置，并为输入的视频流维护播放器的 ID。

2.2.4 行为识别设计

技术路线：基于平台搭建网络模型

要求：

（1）训练要求：能够基于构建的 AVA 数据集进行训练并生成权重文件。

（2）预测需求：能够间歇性地识别输入视频流的播放器动作信息。

2.2.5 全面实现视频流的播放器动作识别

技术路线：基于平台构建全面的网络模型。能够持续跟踪玩家的位置并维护 ID 以识别移动信息。

要求：能够持续跟踪玩家位置并维护 ID 以识别移动信息。

2.2.6 篮球战术数据指标统计可视化

技术路线：基于 PYQT5 搭建篮球战术数据指标统计平台

要求：对于输入动作识别视频，可实现战术数据指标的自动统计和可视化。

2.3 创新点分析

（1）本项目完整技术路线如图2-1所示

图 2-1 技术路线

（2）创新点分析

图 3-2 显示了基于完整技术路线图的创新点分析

图 2-2 创新分析

3 多模块分析数据集构建 3.1.1 简介

构建的数据集是能够训练后续模块的基石，因此构建符合训练格式的数据集尤为重要。经过调查，与检测、跟踪和行为识别相关的篮球视频数据集很少，现有的标注软件难以有效构建合理的数据集。综上所述，本项目使用 PYQT5 [1] 开发了一种自由度高的人工数据集标注软件，满足训练需求，适应多模态。

3.1.2 基于 PYQT5 构建篮球视频标注软件

标注软件分为两个模块，（1）视频帧提取模块和（2）标注模块

（1）视频帧提取模块：

功能说明：用于从输入视频中提取帧，获取多帧图像，用于数据集的标注。如图 3-1 所示

图 3-1 视频帧提取模块

（2）标注模块：

功能说明：用于对从视频帧提取接口输入的图片的数据集进行标注，最后导出原始input.csv文件（包括动作信息和位置信息）进行模型训练。如图 3-2 所示

图 3-2 标注模块

3.1.3 数据集构建结果

标注完成后，可以获取原始 input.csv 文件，可以从 XML 文件、AVA 数据集格式文件以及后续模块所需的其他训练文件中导出。

Input.csv 文件如图 3-3 所示

图 3-3 input.csv文件

文件格式说明如下：

第 1 列：录制了带注释的视频编号;视频以 .mp4 格式命名，后跟视频编号。第 2 列：记录图片的帧数第 3-6 列 x1、y1、x2、y2：记录框的位置坐标;第 7 列：记录对应的 ID;第 8 列：记录人员标签。

有关如何基于 CSV 格式的原始数据集形成每个模块所需的数据集的详细信息，请参见博客地址 [2]。

视频演示：

数据集构建

目标检测[3] 3.2.1 简介

数据集就位后，第一件事是执行对象检测任务。起初，它是基于 -RCNN [4] 的，但后来发现 -RCNN 相比 [5] 在速度上明显逊色，因此为了保证效率，该模型被用于训练。

3.2.2 模型介绍

模型结构大致如图 3-4 所示

图 3-4 整体结构

它可以称为骨干特征提取网络，根据它的结构和 Yolo trunk 的先前名称，我一般都叫它，输入图像会先在特征中被提取出来，提取的特征可以称为特征层，也就是输入图像的特征集。在骨干部分，我们得到三个特征层，用于下一步的网络建设，这三个特征层我称之为有效特征层。

FPN 可以称为增强特征提取网络，其中在主干中获得的 3 个有效特征层与特征融合，特征融合的目的是将不同尺度的特征信息组合在一起。在 FPN 部分，使用已获取的有效特征层继续提取特征。我们不仅会对特征进行上采样以实现特征融合篮球投篮训练器，还会再次对特征进行下采样以实现特征融合。

Yolo Head 是一个分类器和回归器，有了 FPN，我们已经可以获得三个增强的有效特征层。每个特征层都有宽度、高度和多个通道，我们可以把特征图想象成一个接一个的特征点的集合篮球投篮训练器，每个特征点都有通道的几个特征。Yolo Head 实际上是判断特征点，判断是否有对应的物体。与以前版本的 Yolo 一样，使用的解耦头是在一起的，即分类和回归在 1X1 卷积中实现。

因此，整个网络所做的工作是对特征点对应的目标进行特征提取、特征增强和预测。

3.2.3 基于玩家检测

图 3-5 显示了训练过程

图 3-5 训练过程

测试结果如图 3-6 所示（同一场比赛的最后 200 帧）。

图 3-6 测试结果

3.2.4 检测指标分析

图 3-7 显示了训练 mAP 值

图 3-7 训练指标

最终的 map 值收敛在 0.98 左右篮球投篮训练器，所以训练提前结束，直到第 155 代（蓝线是这次训练的 map 变化，黑线是上一次训练的结果）。

此外，对比 RCNN 训练到 155 代，如图 3-8 所示：

图 3-8 - Rcnn MAP 值

通过控制变量实验发现，在相同的 100 张图像和 155 代训练中，-rcnn 在准确性和时间效率方面的性能优于 -rcnn。

多目标跟踪[6]设计前言

进行目标检测后，得到目标检测的权重文件。我们可以输入权重文件信息和数据集以及训练权重来完成多目标跟踪训练任务。最后，可以持续跟踪输入篮球视频上多个球员的位置并维护他们的 ID。

目前篮球视频多目标跟踪存在以下问题：

1. 形态变化：姿态变化是目标跟踪中常见的干扰问题。当运动目标的姿态发生变化时，其特性和外观模型也会发生变化，这很容易导致跟踪失败。

2. 尺度变化：尺度的适应也是目标追踪中的一个关键问题。当目标缩放比例缩小时，由于跟踪帧无法进行自适应跟踪，会包含大量的背景信息，从而导致目标模型的更新错误：当目标缩放比例增加时，由于跟踪帧无法完全包含目标，导致跟踪帧中的目标信息不完整，这也会导致 Model 的错误。因此，需要实现 Scale 自适应跟踪。

3. 遮挡和消失：目标在移动过程中可能会被遮挡或短暂消失。发生这种情况时，跟踪帧往往会在跟踪帧中包含遮挡物和背景信息，从而导致后续帧中的跟踪目标漂移到遮挡处。如果目标完全遮挡，则由于找不到目标对应的模型，会导致跟踪失败。

4. 图像模糊：光照强度的变化、目标的快速移动、低分辨率等，都会导致图像模型化，尤其是当移动目标与背景相似时。因此，有必要选择有效的特征来区分目标和背景。

本项目采用网络模型，可以有效解决上述问题。

3.3.2 [7] 型号介绍

模型如图 3-9 所示

图 3-9 模型

它是 sort 思想的改进算法。SORT 算法使用简单的卡尔曼滤波器来处理逐帧数据的相关性，使用匈牙利算法处理相关性指标，这种简单的算法在高帧率下取得了良好的性能。但是，由于 SORT 忽略了被检测对象的表面特征，只有在对象状态估计的不确定性较低的情况下才是准确的，在 Deep SORT 中，使用更可靠的度量而不是相关度量，并使用 CNN 网络在大规模行人数据集上进行训练并提取特征，这增加了网络对损失和障碍的稳健性。

工作流程大致如下：

检测器获得一个 bbox，→生成→卡尔曼滤波器预测→使用算法匹配卡尔曼滤波器更新→预测帧和当前帧（级联匹配和 IOU 匹配）。

3.3.3 多玩家跟踪

跟踪情况如图 3-10 所示

图 3-10 跟踪结果

3.3.4 跟踪指标分析

当训练准确率接近 99% 时，可以终止训练，并得到多目标跟踪权重文件。

图 3-11 指标分析

指标分析：由于该方法基于目标检测，因此多目标跟踪的质量与目标检测的情况密切相关。因此，想要获得良好的多目标跟踪结果，首先需要具有良好训练效果的目标检测结果。

视频演示：

篮球视频分析 ———— 多目标检测结果

3.4 行为识别设计3.4.1 简介