推荐一个开源的视频理解模型,带对话提问功能,而且在demo里边试了下速度还不错,20S的视频两三秒就能解读完毕。
CogVLM2-Video
🧐CogVLM2-Video 是一个时序感知的视频理解模型,能够在处理视频问答和描述任务时,准确地理解和定位视频中的时间信息,提供了更好的时序定位和开放领域问答能力。
➡️链接:https://cogvlm2-video.github.io/
✨重点 ● 🎥 模型特点:CogVLM2-Video 能够在视频理解、视频描述和时序定位任务中表现出色。模型引入了时间戳信息,使其能够在视频问答和生成任务中感知视频的时间轴。
● 📊 数据集构建:通过自动化的数据生成流程,模型从现有的视频片段中提取帧级别信息,并生成 30,000 条时序定位问答数据。这种方法克服了传统手动标注的局限性,为大规模训练提供了高质量的数据支持。
● 🧠 模型架构:CogVLM2-Video 在传统的视频理解模型基础上,改进了时间感知能力。它将多帧视频图像和时间戳作为编码器输入,与文本输入进行联合理解,克服了现有模型在处理时间信息时的局限性。
● 🌐 应用场景:该模型在开放领域问答、视频描述、时序定位等任务中均取得了出色的表现,能够用于视频生成、视频摘要等后续任务。
● 📈 评估结果:在多个公开的视频理解基准测试中取得了最佳表现,并在 VideoChatGPT-Bench 和 MVBench 数据集上表现优异。
● 🛠 在线资源:提供了 Hugging Face、ModelScope 等平台的模型资源和 在线演示,方便用户直接体验模型能力。相关代码和模型也已开放,便于进一步研究和应用。
CogVLM2-Video
🧐CogVLM2-Video 是一个时序感知的视频理解模型,能够在处理视频问答和描述任务时,准确地理解和定位视频中的时间信息,提供了更好的时序定位和开放领域问答能力。
➡️链接:https://cogvlm2-video.github.io/
✨重点 ● 🎥 模型特点:CogVLM2-Video 能够在视频理解、视频描述和时序定位任务中表现出色。模型引入了时间戳信息,使其能够在视频问答和生成任务中感知视频的时间轴。
● 📊 数据集构建:通过自动化的数据生成流程,模型从现有的视频片段中提取帧级别信息,并生成 30,000 条时序定位问答数据。这种方法克服了传统手动标注的局限性,为大规模训练提供了高质量的数据支持。
● 🧠 模型架构:CogVLM2-Video 在传统的视频理解模型基础上,改进了时间感知能力。它将多帧视频图像和时间戳作为编码器输入,与文本输入进行联合理解,克服了现有模型在处理时间信息时的局限性。
● 🌐 应用场景:该模型在开放领域问答、视频描述、时序定位等任务中均取得了出色的表现,能够用于视频生成、视频摘要等后续任务。
● 📈 评估结果:在多个公开的视频理解基准测试中取得了最佳表现,并在 VideoChatGPT-Bench 和 MVBench 数据集上表现优异。
● 🛠 在线资源:提供了 Hugging Face、ModelScope 等平台的模型资源和 在线演示,方便用户直接体验模型能力。相关代码和模型也已开放,便于进一步研究和应用。