zhangkeyang f7b65feb6b | ||
---|---|---|
data/weights | ||
static | ||
.gitignore | ||
README.md | ||
config.py | ||
dsnet.py | ||
main.py | ||
requirements.txt |
README.md
此仓库是ICDD实验室的视频摘要生成项目根目录。
环境配置
本节介绍项目环境的安装与配置流程。
创建虚拟环境
如果使用的是conda
,可以使用以下命令创建并激活虚拟环境:
$ conda init bash
$ conda deactivate
$ conda create --name vsumm python=3.10
$ conda activate vsumm
如果使用的是venv
,首先需要安装Python 3.10,并创建并激活虚拟环境:
$ python --version # 确保当前正在使用的是python 3.10
$ python -m venv venv/
$ source venv/Scripts/activate
安装项目的依赖包
首先安装ffmpeg
。如果是实验室的服务器环境,可以直接使用以下命令安装软件包:
$ apt install ffmpeg
如果是个人的Windows开发环境,需要从官方网站ffmpeg下载二进制发布包,并配置环境变量。
在控制台中,使用如下指令验证安装是否成功:
$ ffmpeg
ffmpeg version 7.0-full_build-www.gyan.dev Copyright (c) 2000-2024 the FFmpeg developers
# ...
接下来安装torch
与torchvision
。项目使用的版本是:torch-2.1.0+cu118-cp310
与torchvision-0.16.0+cu118-cp310
,可以在官方的下载连接找到下载地址;下载完成后,使用以下指令安装2个软件包:
$ pip install <下载的whl文件路径>
之后,就可以安装项目的其他依赖包:
$ pip install -r requirements.txt
启动服务器
在项目的根目录下,激活虚拟环境后,使用以下指令启动服务器:
$ python main.py
或者:
$ uvicorn main:app
之后,可以访问http://localhost:8000/home
进入主页。
当前使用的数据集
当前项目进度
项目使用的模型来自:DSNet的anchor-free版本。
master
分支是一期项目的工作。当前开发进度是:完成主页界面与前后端接口设计、部署模型并完成推理流程。
当前工作存在以下不足:
- 在上传文件并生成摘要后,没有设计“历史记录”页面。这导致在刷新页面后,无法查看此前已经生成的摘要
- 一次只能上传一个文件并执行推理。这是因为官方提供的推理方法给定的Batch为1,暂未调研提高Batch之后带来的影响
- 当前使用的
opencv
暂不支持H264
编解码,因此需要在推理结束后使用ffmpeg
再次转码,以支持在线预览摘要视频 - 当前使用的摘要方法使用
opencv
逐帧写入视频文件(与官方版本保持一致),因此生成的视频不包含音轨