奕斯伟杯赛题分析
赛题任务
基于ESWIN RISC-V架构开发板设计并实现边缘侧AI应用,并且需要结合硬件加速模块(NPU/DSP/GPU)优化性能,提供端到端解决方案。
http://univ.ciciec.com/nd.jsp?id=892#_jcp=1 (赛题链接)
题目解读
关键词: RISC-V 边缘计算 机器视觉 多模态交互 硬件加速
1、RISC-V在边缘AI中的优势是什么?
边缘计算 指在靠近数据源的设备端完成计算,而非依赖云端,可降低延迟、提高隐私性。本赛题需基于RISC-V架构优势,在边缘设备设计并实现边缘侧AI应用。RISC-V架构在边缘计算有以下优势。
- 开放性:开源指令集,灵活定制扩展,避免生态垄断。
- 低功耗高性能:适合边缘端资源受限场景,结合硬件加速模块(NPU/DSP)提升AI算力。
- 高安全性:架构可控,适合工业检测、自动驾驶等对安全要求高的场景。
2、赛题核心要求是什么?
核心需求其实就是在一个创新的场景下做一个板卡应用,然后该应用要用到板子上的硬件加速单元
- 场景创新:需在缺陷检测、智慧交通、机器人控制等方向提出新应用,结合图像/视频信号处理。
- 硬件加速:必须利用开发板内嵌的NPU(20 TOPS INT8)、GPU、DSP等模块优化算法性能。
- 多模态扩展:进阶需融合语音、文本交互,提升系统智能化水平(如语音控制机械臂)。
3、如何选择开发板?
HiFive Premier P550与ESWIN EIC7700-02-1154B1功能完全一致,仅商标和颜色不同。
- 关键硬件资源:
- 四核RISC-V CPU(1.4GHz~1.8GHz) + 20 TOPS NPU + 8K视频编解码。
- 外设支持:PCIe、USB 3.2、HDMI、SATA等,可扩展摄像头、传感器、屏幕。
设计指标(基础)
- 基于赛题提供的软硬件做一个场景适配的AI应用:
选择工业检测/智慧交通等场景,设计完整的图像采集→处理→决策流程(如YOLOv8目标检测)。软件系统需要基于开发软件包(包括OS、ESWIN EIC7700X SDK等)实现完整的软件功能。软件功能需要覆盖机器视觉新应用及新算法,基于对硬件平台的正确理解,使用相关开发环境(包括操作系统以及深度学习开发套件)有效实现上层功能。
- 在片上实现硬件加速功能:
首先要明白硬件加速的概念,软件加速是通过代码优化达到系统运行效率提升,而硬件加速则顾名思义是通过硬件优化达到系统运行效率提升。举个例子,当我们的系统运算包含大量的矩阵运算,只用CPU来算太慢了,严重影响了系统效率。此时我们可以增加一块TPU(张量处理单元-擅长矩阵运算)并矩阵运算的部分调整到TPU上运行,这样整体的运行效率就提升了,这就是硬件加速。赛题提供的板卡,片上包含了NPU、GPU、DSP等处理单元,我们可以通过SDK调用NPU/DSP加速模型推理(如ResNet量化部署),对比纯CPU性能提升≥50%。
- 系统完整性:
需要完成完整的系统设计,并且设计报告中需要提供硬件连线图(摄像头连接PCIe)、软件流程图(模型编译→推理→结果输出)、关键代码(SDK接口调用)。算法需说明训练/量化过程,提供准确率、FPS等验证数据。
设计指标(进阶)
- 多模态交互:
首先什么是多模态交互?多模态交互指在人机交互过程中,综合运用多种不同的交互方式和信息模态,以实现更加自然、高效、灵活的人机信息交流。这个很好理解,我们可以举以下两个例子。
- 语音+视觉:例如语音指令控制机械臂抓取识别到的目标。
- 文本+视觉:结合OCR技术提取图像中的文字信息(如交通标志识别)。
- 硬件算子优化:
首先什么是算子优化?算子是指在数学、计算机科学和工程领域中,对数据进行特定操作的基本运算单元。在线性代数中,我们就学过一些微分、积分、梯度运算算子。在硬件层面,算子通常由电路实现,例如加法器、乘法器、卷积核等。硬件算子优化就是通过对这些实现算子的硬件电路或硬件架构进行改进,以提高算子的执行效率、降低能耗等。在赛题中,主要可以通过GPU、DSP、NPU相关的优化工作。
- 基于GPU/DSP开发自定义算子(如非极大值抑制NMS加速),减少延迟。
- 结合NPU实现混合精度推理(INT8+FP16),平衡速度与精度。
- 商业化扩展:
这一拓展主要针对确实有不错市场应用前景的设计,评估系统成本与功耗,设计可量产方案(如工业缺陷检测机)。在完成前面设计的基础上,可以尝试去做一下。
Tips:
- 硬件限制:NPU仅支持特定算子(如Conv2D、ReLU),需提前验证模型兼容性。
- 多模态陷阱:语音交互需考虑环境噪声抑制,推荐使用端到端模型(如Wav2Vec 2.0量化版)。
推荐资源:
评分机制
初赛
初赛还是以文档内容为主,要好好些文档,写好的文档给老师师兄看看修改优化,同时视频要好好剪辑(可以有礼貌地拜托宣传部的同学)。
- 方案设计(20分):场景创新性(10分)、硬件加速合理性(10分)。
- 方案实现(45分):功能完整性(25分)、工具链使用规范性(10分)、硬件优化深度(10分)。
- 作品输出(35分):演示视频流畅度(10分)、文档质量(10分)、答辩表现(10分)。
分区决赛
复赛的核心在于硬件加速,现场需要演示硬件加速的优化成果。
- 现场演示:需在开发板上实时运行,重点考核延迟(如目标检测≤100ms)与稳定性(连续运行1小时无宕机)。
- 性能对比:提供硬件加速前后数据(如NPU推理速度提升3倍)。
全国总决赛
决赛则高阶要求必须要二选一实现,并且需要提供商业落地报告。
- 高阶要求:必须实现多模态交互或自定义硬件加速算子,提供商业化落地分析报告。
- 创新加分:结合大语言模型(如边缘端Llama 2精简版)实现语义理解功能。
学习路线
四步冲击国奖 🚀
- 第一步:熟悉开发板——完成官方Demo部署(如YOLOv5缺陷检测),掌握SDK调用与模型量化流程。
- 第二步:设计基础系统——选择场景(如智慧交通车辆计数),实现摄像头数据采集→模型推理→结果可视化全流程。
- 第三步:优化性能——利用NPU加速模型,对比CPU/GPU/NPU的FPS与功耗,撰写优化报告。
- 第四步:突破进阶——添加语音控制模块(如ESP32麦克风+语音识别模型),实现多模态交互。