山东大学教师主页唐昊煜首页中文主页

唐昊煜

助理研究员

所属院部：软件学院

访问次数：次

基本信息

教师英文名称：

Haoyu Tang
入职时间：

2022-01
所在单位：

软件学院
学历：

博士研究生毕业
办公地点：

软件学院科研楼4楼422
性别：

男
学位：

工学博士学位
毕业院校：

西安交通大学
硕士生导师

学科：

软件工程其他专业

教师简介

唐昊煜，山东大学助理教授，硕士研究生导师。分别于 2016 年、2021 年获得西安交通大学本科、博士学位，师从软件学院祝继华教授。研究方向为多媒体计算、跨模态检索、机器学习，具体聚焦于自然语言引导的跨模态视频理解、视频-文本问答和标记学习等方面；已在 CVPR、AAAI、IJCAI、MM、IEEE TKDE、IEEE TMM、IEEE TCSVT、IEEE TITS 等国际 CCF A 类会议或 ACM/IEEE 汇刊发表10余篇论文（其中1篇ESI高被引论文），国家发明专利多项，主持国家自然科学基金青年项目、山东省自然科学基金青年项、阿里巴巴达摩院AIR计划项目等国家级和省部级横纵向课题共 5 项，作为子课题负责人参与JWKJW重点项目、山东省重点研发项目，同时担任 IEEE TPAMI, IEEE TKDE, IEEE TMM, IEEE TCSVT,和 ACM MM、ICML、NeurIPS、CVPR、ICLR等国际知名期刊会议的审稿人和程序委员会委员，已发表论文详见‬https://scholar.google.com/citations?user=pA9PNhsAAAAJ。欢迎本科生和应届硕士生联系来组科研！邮箱：tanghao258@sdu.edu.cn

新闻：

指导硕士生王雪飞一作论文《Resonating with RoPE: Spectral Quantization for High-Fidelity Key Cache Compression》被ACL 2026 (CCF-A)录用！（2026-4-7）
指导博士生姜涵一作论文《Memory Matters: Boosting Training-Free Zero-Shot Temporal Action Localization with a Learnable Lookup Table》被CVPR 2026 (CCF-A)录用！（2026-2-21）
本人第一作者论文《Decompose and Conquer: Compositional Reasoning for Zero-Shot Temporal Action Localization》被AAAI 2026 (CCF-A)录用！（2025-11-8）
指导硕士生穆晓旭一作论文《FACE: A Dual-Template and Adaptive Curriculum Framework for Unsupervised Text-Based Person Search》被ACM MM2025 (CCF-A)录用！（2025-7-5）
本人受邀为TPAMI 审稿人（2025-3-30）
指导本科生钟文亮一作论文《Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory》被CVPR 2025 (CCF-A)录用！（2025-2-27）
指导硕士生邓雄文一作论文《Boundary-Aware Temporal Dynamic Pseudo-Supervision Pairs Generation for Zero-Shot Natural Language Video Localization》被AAAI 2025 (CCF-A)录用！（2024-12-10）
指导硕士生姜涵一作论文《Revisiting Unsupervised Temporal Action Localization: The Primacy of High-Quality Actionness and Pseudolabels》被ACM MM2024 (CCF-A)录用！（2024-7-21）
本人第一作者论文《Listen as you wish: Fusion of audio and text for cross-modal event detection in smart cities》被Information Fusion(SCI 一区，IF=15)录用！（2024-5-19）

教育经历

2012-09 — 2016-07

西安交通大学

物理

理学学士
2016-09 — 2021-12

西安交通大学

计算机科学与技术

工学博士学位

研究领域

1.视频理解及视频片段定位

在多媒体（视频、图像、文本、音频）语义理解的基础上，研究基于传统模型和大语言模型的视频动作定位和跨模态视频片段定位技术。

图片1.png

跨模态视频片段定位

图片1.png

视频动作定位

2.多模态大模型

基于大语言模型进行图像/视频文本问答，评估大模型回答中的幻觉。

图片1.png

大模型问答

3.机器学习（多视角表示学习、标签分布式学习/标签增强）

通过建模样本与多个标签间的概率分布关系来提升多标签任务性能；通过优化标注质量、引入外部知识或生成伪标签等手段改善标签信息的完整性和准确性。

微信图片_20241107222351.png

标签增强

科研成果

论文

1. 曾祥宇. Adaptive Edge-Aware Semantic Interaction Network for Salient Object Detection in Optical Remote Sensing Images. IEEE Transactions on Geoscience and Remote Sensing, 61, 1, 2023.

2. Zheng, Qinghai. Twin Reciprocal Completion for Incomplete Multi-view Clustering. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2024.

3. Jiang, Han. Revisiting Unsupervised Temporal Action Localization: The Primacy of High-Quality Actionness and Pseudolabels. 32nd ACM International Conference on Multimedia, MM 2024, 5643-5652, 2024.

4. Chen, Jinqian. Breaking Barriers of System Heterogeneity: Straggler-Tolerant Multimodal Federated Learning via Knowledge Distillation. 33rd International Joint Conference on Artificial Intelligence, IJCAI 2024, 3789-3797, 2024.

5. 钟文亮. Towards stable and storage-efficient dataset distillation: Matching convexified trajectory. Proceedings of the Computer Vision and Pattern Recognition Conference(CVPR)), 2025.

6. Deng, Xiongwen. Boundary-Aware Temporal Dynamic Pseudo-Supervision Pairs Generation for Zero-Shot Natural Language Video Localization. 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025, 39, 2717-2725, 2025.

7. 赵新晓. CoGCN: co-occurring item-aware GCN for recommendation. Neural Computing and Applications, 2023.

8. 韩昱东. Exploiting the Social-Like Prior in Transformer for Visual Reasoning. 38th AAAI Conference on Artificial Intelligence, AAAI 2024, 38, 2058-2066, 2024.

9. 徐明珠. Superpixel Segmentation With Edge Guided Local-Global Attention Network. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2025.

10. 徐明珠. Cross-Model Nested Fusion Network for Salient Object Detection in Optical Remote Sensing Images. IEEE Transactions on Cybernetics, 2025.

11. 徐明珠. HDNet: A Hybrid Domain Network With Multiscale High-Frequency Information Enhancement for Infrared Small-Target Detection. IEEE Transactions on Geoscience and Remote Sensing, 63, 2025.

12. 徐明珠. CMIRNet: Cross-Modal Interactive Reasoning Network for Referring Image Segmentation. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 35, 3234, 2025.

13. Haoyu Tang. Two-stage Information Bottleneck for Temporal Language Grounding. 2024 IEEE International Conference on Multimedia and Expo, 2024.

14. 刘雨彤. Heterogeneous Feature Collaboration Network for Salient Object Detection in Optical Remote Sensing Images. IEEE Transactions on Geoscience and Remote Sensing, 2024.

15. 韩昱东. Exploiting the Social-Like Prior in Transformer for Visual Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence, 2024.

16. 唐昊煜. Listen as you wish: Fusion of audio and text for cross-modal event detection in smart cities. Information Fusion, 110, 2024.

17. 胡宇鹏. Semantic Collaborative Learning for Cross-Modal Moment Localization. TOIS, 42, 2023.

18. Haoyu Tang. Breaking Barriers of System Heterogeneity: Straggler-Tolerant Multimodal Federated Learning via Knowledge Distillation. IJCAI 2024,

19. Haoyu Tang** , Zan Gao , Meng Liu , Jihua Zhu and Zhiyong Cheng. Cross-modal Matching for Video Moment Retrieval. IEEE Transactions on Multimedia(TMM),

20. Haoyu Tang** , Jihua Zhu , Qinghai Zheng , Jun Wang , Shanming Pang and Zhongyu Li. Label Enhancement with Sample Correlations via Low-Rank Representation. Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI) 2020,

21. Haoyu Tang** , Jihua Zhu , Lin Wang , Qinghai Zheng and Tianwei Zhang. Multi-level Query Interaction for Temporal Language Grounding. IEEE Transactions on Intelligent Transportation Systems(TITS),

22. Haoyu Tang** , Jihua Zhu , Zan Gao , Tao Zhuo and Zhiyong Cheng. Attention Feature Matching for Weakly-supervised Video Relocalization. ACM Multimedia Asia 2020,

23. Qinghai Zheng , Jihua Zhu , Haoyu Tang** , Xinyuan Liu , Zhongyu Li and Huimin Lu. Generalized label enhancement with sample correlations. IEEE Transactions on Knowledge and Data Engineering(TKDE),

24. Qinghai Zheng , Jihua Zhu , Zhongyu Li and Haoyu Tang**. Graph-Guided Unsupervised Multiview Representation Learning. IEEE Transactions on Circuits and Systems for Video Technology (TCSVT),

25. Qinghai Zheng , Jihua Zhu and Haoyu Tang**. Label Information Bottleneck for Label Enhancement. Proceedings of the Computer Vision and Pattern Recognition (CVPR) 2023,

专利

1. 一种查询语句语义树生成编码方法及系统

2. 基于异构特征协作的光学遥感显著性目标检测方法及系统

3. 基于ELGANet的视觉超像素分割方法及系统

4. 一种基于细粒度时空关联建模的视频片段定位方法及系统

5. 基于跨模态交互推理的图像指代物体分割方法及系统

6. 一种遥感图像显著性目标检测方法、系统、设备及介质

科研项目

1. 基于多媒体语义解析的教学评价督导系统, 2025-06-25-2026-06-30

2. （包干项目）基于边缘隐私计算的跨模态协同事件定位技术, 2025-01-01-2027-12-31

3. 语义检索增强研究项目, 2024-04-18-2026-08-17

4. 下一代视频问答关键技术研究, 2022-11-19-2024-12-31

5. 基于文本-视觉语义协同推理的跨模态视频片段定位研究, 2022-09-07-2026-12-31

6. （包干项目）基于复杂多模态查询交互的视频片段定位技术研究, 2022-09-07-2025-12-31

团队成员

团队名称：

山东大学智能媒体研究中心

团队介绍：

iLearn自2017年成立以来，先后主持了多项国家自然科学基金青年项目、面上项目、重点项目、科技部重点研发课题、教育部长江学者、达摩院青橙奖、山东省杰出青年基金项目、智洋创新千万级横向项目、腾讯犀牛鸟项目、山东电力项目等横纵向项目，经费累计6000余万。 iLearn在CCF-A类会议或IEEE/ACM汇刊发表论文100余篇、专著3部，申请/授权40余项国内外发明专利。iLearn致力于打造多元化、国际化的科研环境，目前iLearn已与香港、新加坡、澳大利亚、英国、加拿大、美国等地区或国家的知名科研院所建立了密切的合作关系，实现老师和学生的多次互访。此外，iLearn注重以工业界的实际需求为导向，用工业界真实的数据，做最接地气的研究；积极探索产学研合作的新模式新机制，与智洋创新科技有限公司建立了人工智能联合实验室，将多媒体检索技术落地于智慧电力，实现成果转化及产品实现。

学生信息