【人工智能与机器人研究】基于多目标跟踪的课堂人数自动统计算法研究
本文聚焦于基于多目标跟踪的课堂人数自动统计这一主题,提出将YOLOv8和SORT (Simple Online and Realtime Tracking)算法相结合的方法。其中,YOLOv8作为先进的单阶段目标检测算法,能迅速识别图像或视频帧中的目标并输出关键信息;SORT算法借助卡尔曼滤波预测目标位置变化。研究通过运用特定的软硬件配置开展实验,对模型进行训练与验证。该方法旨在实现课堂人数的精准
导读
本文聚焦于基于多目标跟踪的课堂人数自动统计这一主题,提出将YOLOv8和SORT (Simple Online and Realtime Tracking)算法相结合的方法。其中,YOLOv8作为先进的单阶段目标检测算法,能迅速识别图像或视频帧中的目标并输出关键信息;SORT算法借助卡尔曼滤波预测目标位置变化。研究通过运用特定的软硬件配置开展实验,对模型进行训练与验证。该方法旨在实现课堂人数的精准自动统计,满足课堂管理和动态监控的需求,为教师及管理人员提供有力工具。其不仅在算法应用上具有创新性,而且在教育管理实践中具有重要的实用价值,有望对智慧教育领域的课堂管理产生积极深远的影响。
作者信息:
王一磊, 刘小军*, 余成锟, 唐 笋, 何一驰, 刘 磊, 王 波:嘉兴南湖学院信息工程学院,浙江 嘉兴
正文
在汉斯出版社《人工智能与机器人研究》期刊上,有研究提出了课堂人数自动统计算法,它结合了计算机视觉、机器学习等多个学科的知识,对于提升教育信息化水平具有重要意义,大学校园存在教学管理难题,如学生出勤率低、课上玩手机等,影响教学质量与管理。针对这些现实问题,该项目拟充分结合各团队成员深厚的知识积累以及浓厚的学习兴趣,以目标追踪算法为坚实基础,深入研究课堂视频精准分析,实现人数自动计数,掌握出勤情况,跟踪学生行为,为教师提供数据,助力高效课堂管理,打造优质智慧教育环境。
首先,YOLOv8作为一种先进的单阶段目标检测算法,基于深度学习模型快速识别输入图像或视频帧中的目标,并输出每个目标的边界框(bounding box)、置信度(confidence)和类别标签。该算法以高效的网络架构为基础,能够在保证检测精度的同时,显著提高推理速度,适合实时性要求较高的应用场景。接收到检测结果后,算法会根据目标的空间位置、置信度和类别对感兴趣的对象进行筛选,并为后续的目标跟踪提供输入数据。
在多尺度检测过程中,每个grid cell会检测其区域内的目标并生成对应的 Bounding Box (候选框)。Bounding Box是目标检测的核心输出之一,包含了目标的中心位置、宽高比例以及目标类别的置信度。例如,在8倍下采样的输入图像中,每个grid cell会生成与其覆盖区域相对应的多个Bounding Box (如图2所示)。这些框记录了检测目标的位置信息、学生类别(如坐姿、站姿)及其存在概率。通过在不同尺度上生成Bounding Box,模型能够更准确地捕捉到前排和后排学生的位置与特征信息,为课堂人数统计提供可靠的基础数据支持。
YOLO作为单阶段检测算法,与以单阶段目标检测算法SSD、RetinaNet为代表的双阶段检测算法不同,采用直接回归,没有预选框阶段,在视频识别等对效率有要求的场景中具备出色的识别速度。YOLOv8相较于YOLOv1~YOLOv7,在性能上实现了全面提升。它进一步优化了网络结构,在输入端、基准网络、Neck网络和Head输出层等方面进行了深度改进。在Neck部分优化了特征融合方式,使不同尺度的特征能更好地交互;在Head输出层,改进了预测机制,提升检测的准确性和稳定性。如图3所示。
模型通过Darknet-53主干网络提取多尺度特征,并利用路径聚合网络(PANet)融合深浅层特征,最终输出边界框坐标、类别概率及置信度。图像标准化处理把原始图像像素值转换到[0, 1]范围,包括像素值缩放和均值方差归一化,提升模型泛化能力。多尺度采样针对不同尺度目标,对输入图像进行8倍、16倍和32倍下采样,划分网格单元检测目标,生成Bounding Box,提高检测精度和可靠性。通过非极大值抑制(NMS)过滤重叠检测框,其阈值设置为IOU_thres = 0.4,如图7所示。
从训练曲线和评价指标来看(如图11所示),该模型在训练过程中表现出良好的收敛性和稳定性,整体性能显著提升。包括损失函数(box_loss, cls_loss, dfl_loss)和性能指标(precision, recall, mAP50, mAP50-95)的曲线。首先,训练过程中的三个损失函数(train/box_loss, train/cls_loss, train/dfl_loss)均呈现出稳定下降的趋势,说明模型在不断优化。具体而言,box_loss从1.6逐渐下降至1.2,表明模型对目标边界框位置的预测逐渐精准;cls_loss从1下降至0.5以下,显示出模型在目标类别预测上的精确性提升;dfl_loss从1.05下降至接近0.95,表明模型对目标边界的聚焦能力有所增强。在验证阶段,val/box_loss、val/cls_loss和val/dfl_loss同样呈现出下降趋势并趋于平稳,验证了模型在未见数据上的表现与训练数据一致,没有明显的过拟合。
结论
基于多目标跟踪的课堂人数自动统计算法研究展示了强大的目标检测能力,通过实时捕捉教室场景中的人员分布,成功实现了高效的课堂人数统计。系统能够在不同密度的区域内准确识别人员,并通过绿色边界框和置信度标注每个目标,覆盖范围包括前排、中排和后排的所有学生位置。在图像中,系统检测到75名人员,置信度大部分高于0.6,体现了模型对目标类别的高识别能力。尽管在人员密集区域(如后排)可能出现轻微的边界框重叠,但总体检测效果良好。
该算法结合了目标检测和人数统计功能,实时性强,适合应用于课堂管理和动态监控场景,为教师和管理人员提供了便捷的工具。未来可进一步优化模型在密集区域的检测精度,以及对复杂场景(如遮挡或低光照)的适应性,从而进一步提高课堂人数统计的准确性和稳定性。这一系统为智能课堂和教育数字化管理提供了可靠的技术支持。
基金项目
嘉兴南湖学院2024年国家级大学生创新创业训练项目(202413291024);
嘉兴南湖学院2023年校级SRT项目(8517233225);
嘉兴南湖学院2023年校级SRT项目(8517233234);
嘉兴南湖学院教学基本建设项目(238518012);
教育部产学合作协同育人项目(企业案例深度融合的教育模式改革实践)。。
更多内容请关注原文链接!

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)