TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

2025年1月1日·

Xiangyu Zeng

,

Kunchang Li

,

Chenting Wang

,

Xinhao Li

,

Tianxiang Jiang

,

Ziang Yan

,

Songze Li

,

Yansong Shi

,

Zhengrong Yue

,

Yi Wang

,

Yali Wang

,

Yu Qiao

Limin Wang

Limin Wang

· 0 分钟阅读时长

引用 URL

类型

出版物

The Thirteenth International Conference on Learning Representations

最近更新于 2025年1月1日

Limin Wang

Authors

bv1946伟德官网

← Taste more, taste better: diverse data and strong model boost semi-supervised crowd counting 2025年1月1日

Tra-MoE: learning trajectory prediction model from multiple domains for adaptive policy conditioning 2025年1月1日 →