2025-07-17 17:04:12
2025-07-17 17:02:07
c++扩展算子开发③:CUDA算子的开发
本文介绍了使用C++进行CUDA算子开发的流程,以tanh算子为例,包含编写.cu文件实现运算、.cpp文件实现Python调用绑定、.py文件实现安装。展示了前向输出和回传梯度与官方实现一致,还详细拆分了各文件代码及作用。
809
2025-07-17 16:59:23
基于体素的3D目标检测网络:VoxelNet
本文基于PaddlePaddle框架复现了VoxelNet算法,这是一种基于体素的3D目标检测算法,在KITTI数据集上开展实验并提供预训练模型和在线体验。VoxelNet含特征学习网络、卷积中间层和区域候选网络,通过划分点云为体素、提取特征等实现检测。复现过程参考相关改进项目,解决了内存泄漏等问题,取得一定检测精度。
1136
2025-07-17 16:53:43
基于飞桨实现乒乓球时序动作定位大赛-baseline
时序动作定位(提案生成)是计算机视觉和视频分析领域一个具有的挑战性的任务。本次比赛不同于以往的ActivityNet-TAL,FineAction等视频时序检测动作定位比赛,我们采用了更精细的动作数据集--乒乓球转播画面,该数据集具有动作时间跨度短,分布密集等特点,给传统模型精确定位细粒度动作带来了很大挑战。
649
2025-07-17 16:36:24
ERFNet:用于实时语义分割的高效残差分解卷积神经网络
语义分割是一项具有挑战性的任务,它以统一的方式解决智能车辆的大部分感知需求。深度神经网络擅长这项任务,因为它们可以进行端到端训练,以在像素级别准确分类图像中的多个对象类别。然而,在最先进的语义分割方法中还没有在高质量和计算资源之间进行良好的权衡,这限制了它们在实际车辆中的应用。而ERFNet是一种深度架构,该架构能够实时运行的同时提供准确的语义分割。
820
2025-07-17 16:28:10
【论文复现-图像分类】基于PaddlePaddle实现RAM
本文介绍Recurrent Attention Model (RAM)的复现情况。RAM通过循环神经网络处理图像子区域信息,自主选择子区域,降低复杂度。其含glimpse sensor等五部分结构。复现用MNIST数据集,验证误差1.18%(290epoch),测试误差1.17%~1.28%,还提及复现中rsample方法和索引操作的问题及解决,提升了训练速度。
586
2025-07-17 16:18:41
WebAI.js:一个简单的网页前端部署工具
WebAI.js 是基于 OpenCV.js 和 ONNXRuntime 的 Web 前端 AI 模型部署工具,支持 HTML 和 node.js 调用,可部署目标检测、图像分类、图像分割等 CV 模型,兼容 Paddle 系列套件部分模型,提供模型加载与推理 API 及使用示例。
626
2025-07-17 16:15:53
科大讯飞-人脸关键点检测挑战赛:基础思路 MAE 2.2
该内容是人脸关键点检测竞赛方案,涉及4个关键点检测。使用5千张带标注训练集和2千张测试集,数据含图像与坐标标注。构建了全连接和CNN两种模型,经数据加载、预处理、训练验证,CNN模型表现更优,40轮训练后验证集MAE约0.061,最后用模型对测试集预测并可视化结果。
617
2025-07-17 16:10:54
【AI达人创造营第二期】基于LSTM的现代诗生成器
本项目利用LSTM模型实现现代诗自动生成,解决个人创作难题。数据集含约2000首爬取的现代情诗,另混合部分古诗补充数据量。采用LSTM模型,其通过逻辑门优化长文本语义理解。项目含训练与使用文件,models文件夹存两种风格模型。加载模型时,输入前缀和开头即可生成诗句,虽部分内容语义模糊,但能生成连贯文本,实现核心功能。
745
2025-07-17 16:06:28