视频时间轴标签(ViTT)
此仓库提供了在( || )中引入的视频时间轴标签(ViTT)数据集。
如果您发现对自己的工作有用的数据或文件,请考虑引用以下内容:
inproceedings{huang2020multimodal,
title={Multimodal Pretraining for Dense Video Captioning},
author={Huang, Gabriel and Pang, Bo and Zhu, Zhenhai and Rivera, Clara
此仓库提供了i3-video批注[]
如果您发现对自己的工作有用的数据或文件,请考虑引用以下内容:
inproceedings{2020-hessel-zhu-pang-soricut-beyond,
title={Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on {YouTube}},
author={Hessel, Jack and Zhu, Zhenhai and P