Zhenhua Han

About Me

I am a Scientist at Nex-AGI. Check Nex-AGI to explore the Nexus of Agentic Intelligence, focusing on end-to-end agent solutions ranging from Models and Data to Frameworks.

I obtained my Ph.D. degree from The University of Hong Kong (HKU) in 2020, advised by Prof. Francis C.M. Lau. Before that, I received my B.Eng in Electronic and Information Engineering from the University of Electronic Science and Technology of China (UESTC) in 2014.

My current research interests focus on LLM Agents (e.g., Agent RL, Agentic Context Engineering, and Software 3.0). We are finding ways to unleash the power of LLM in real productivity, especially to teach LLM to understand how domain experts solve problems.

Selected Publications

* Corresponding Author + Student Advised

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

Nex-AGI Team

PDF

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Best Paper

Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

NeurIPS 2025 (Workshop ENLSP-IV) Best Paper PDF

Minference 1.0: Accelerating pre-filling for long-context LLMs via dynamic sparse attention

Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

NeurIPS 2024

Paper Project Code

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

Chaofan Lin⁺, Zhenhua Han*, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

USENIX OSDI 2024

Paper Code

PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation Invariant Transformation

Ningxin Zheng, Huiqiang Jiang, Quanlu Zhang*, Zhenhua Han*, Lingxiao Ma, Yuqing Yang*, Fan Yang, Chengruidong Zhang, Lili Qiu, Mao Yang, Lidong Zhou

ACM SOSP 2023 Conference

Optimizing Dynamic Neural Networks with Brainstorm

Weihao Cui⁺, Zhenhua Han, Lingji Ouyang⁺, Yichuan Wang, Ningxin Zheng, Lingxiao Ma, Yuqing Yang, Fan Yang, Jilong Xue, Lili Qiu, Lidong Zhou, Quan Chen, Haisheng Tan, Minyi Guo

USENIX OSDI 2023 Conference

Dynamic Resource Allocation for Deep Learning Clusters with Separated Compute and Storage

Mingxia Li⁺, Zhenhua Han, Chi Zhang, Ruiting Zhou, Yuanchi Liu, Haisheng Tan

IEEE INFOCOM 2023

ElasticFlow: An Elastic Serverless Training Platform for Distributed Deep Learning

Diandian Gu, Yihao Zhao, Yinmin Zhong, Yifan Xiong, Zhenhua Han, Peng Cheng, Fan Yang, Gang Huang, Xin Jin, Xuanzhe Liu

ASPLOS 2023

SiloD: A Co-design of Caching and Scheduling for Deep Learning Clusters

Hanyu Zhao*, Zhenhua Han*, Zhi Yang, Quanlu Zhang, Mingxia Li⁺, Fan Yang, Qianxi Zhang, Binyang Li, Yuqing Yang, Lili Qiu, Lintao Zhang, Lidong Zhou

EuroSys 2023 Paper

PilotFish: Harvesting Free Cycles of Cloud Gaming with Deep Learning Training

Wei Zhang⁺, Binghao Chen, Zhenhua Han, Quan Chen, Peng Cheng, Fan Yang, Ran Shu, Yuqing Yan, Minyi Guo

USENIX ATC ‘22

Paper Code

HiveD: Sharing a GPU Cluster for Deep Learning with Guarantees

Hanyu Zhao*, Zhenhua Han*, Zhi Yang, Quanlu Zhang, Fan Yang, Lidong Zhou, Mao Yang, Francis C.M. Lau, Yuqi Wang, Yifan Xiong, Bin Wang

USENIX OSDI 2020

Paper Code

Retiarii: A Deep Learning Exploratory-Training Framework

Quanlu Zhang, Zhenhua Han, Fan Yang, Yuge Zhang, Zhe Liu, Mao Yang, Lidong Zhou

USENIX OSDI 2020 Code

Automating Cloud Deployment for Deep Learning Inference of Real-time Online Services

Yang Li*, Zhenhua Han*, Quanlu Zhang, Zhenhua Li, Haisheng Tan

IEEE INFOCOM 2020 / IEEE/ACM ToN 2023

Gandiva: Introspective Cluster Scheduling for Deep Learning

Wencong Xiao, Romil Bhardwaj, Ramachandran Ramjee, Muthian Sivathanu, Nipun Kwatra, Zhenhua Han, Pratyush Patel, Xuan Peng, Hanyu Zhao, Quanlu Zhang, Fan Yang, Lidong Zhou

USENIX OSDI 2018 Paper

Online File Caching in Latency-Sensitive Systems with Delayed Hits and Bypassing

Chi Zhang, Haisheng Tan, Guopeng Li, Zhenhua Han, Shaofeng H-C. Jiang, Xiang-Yang Li

IEEE INFOCOM 2022

Regularization-Based Coflow Scheduling in Optical Circuit Switches

Haisheng Tan, Chi Zhang, Chao Xu, Yupeng Li, Zhenhua Han, Xiang-Yang Li

IEEE/ACM ToN 2021

Online Dispatching and Scheduling of Jobs with Heterogeneous Utilities in Edge Computing

Chi Zhang, Haisheng Tan, Haoqiang Huang, Zhenhua Han, Shaofeng H.-C. Jiang, Nikolaos Freris, Xiang-Yang Li

ACM MobiHoc 2020

Scheduling Placement-Sensitive BSP Jobs with Inaccurate Execution Time Estimation

Zhenhua Han, Haisheng Tan, Shaofeng H.-C. Jiang, Xiaoming Fu, Wanli Cao, Francis C.M. Lau

IEEE/ACM ToN 2021 (INFOCOM 2020)

OnDisc: Online Latency-Sensitive Job Dispatching and Scheduling in Heterogeneous Edge-Clouds

Zhenhua Han, Haisheng Tan, Xiang-Yang Li, Shaofeng H.-C. Jiang, Yupeng Li, Francis C.M. Lau

IEEE/ACM ToN 2019 (INFOCOM 2017)

Joint Online Coflow Routing and Scheduling in Data Center Networks

Haisheng Tan, Shaofeng Jiang, Yupeng Li, Xiang-Yang Li, Chenzi Zhang, Zhenhua Han, Francis C.M. Lau

IEEE/ACM ToN 2019

Camul: Online Caching on Multiple Caches with Relaying and Bypassing

Haisheng Tan, Shaofeng Jiang, Zhenhua Han*, Liuyan Liu, Kai Han, Qinglin Zhao

IEEE INFOCOM 2019

Energy Efficient Dynamic Virtual Machine Management in Data Centers

Zhenhua Han, Haisheng Tan, Rui Wang, Guihai Chen, Yupeng Li, Francis C.M. Lau

IEEE/ACM ToN 2019 (INFOCOM 2016)

Efficient Online Learning Based Cross-Tier Uplink Scheduling in HetNets

Zhenhua Han, Haisheng Tan, Rui Wang, Shaojie Tang, Francis C.M. Lau

IEEE/ACM ToN 2022 (INFOCOM 2018)

Congestion Game with Agent and Resource Failures

Yupeng Li, Yongzheng Jia, Haisheng Tan, Rui Wang, Zhenhua Han, Francis C.M. Lau

IEEE JSAC 2017

-->

Professional Services

Program Committee

• IEEE INFOCOM 2021, 2022
• MSN 2020

Journal Reviewer

• IEEE/ACM Transactions on Networking

Zhenhua Han

韩震华

About Me

Selected Publications

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Minference 1.0: Accelerating pre-filling for long-context LLMs via dynamic sparse attention

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation Invariant Transformation

Optimizing Dynamic Neural Networks with Brainstorm

Dynamic Resource Allocation for Deep Learning Clusters with Separated Compute and Storage

ElasticFlow: An Elastic Serverless Training Platform for Distributed Deep Learning

SiloD: A Co-design of Caching and Scheduling for Deep Learning Clusters

PilotFish: Harvesting Free Cycles of Cloud Gaming with Deep Learning Training

HiveD: Sharing a GPU Cluster for Deep Learning with Guarantees

Retiarii: A Deep Learning Exploratory-Training Framework

Automating Cloud Deployment for Deep Learning Inference of Real-time Online Services

Gandiva: Introspective Cluster Scheduling for Deep Learning

Online File Caching in Latency-Sensitive Systems with Delayed Hits and Bypassing

Regularization-Based Coflow Scheduling in Optical Circuit Switches

Online Dispatching and Scheduling of Jobs with Heterogeneous Utilities in Edge Computing

Scheduling Placement-Sensitive BSP Jobs with Inaccurate Execution Time Estimation

OnDisc: Online Latency-Sensitive Job Dispatching and Scheduling in Heterogeneous Edge-Clouds

Joint Online Coflow Routing and Scheduling in Data Center Networks

Camul: Online Caching on Multiple Caches with Relaying and Bypassing

Energy Efficient Dynamic Virtual Machine Management in Data Centers

Efficient Online Learning Based Cross-Tier Uplink Scheduling in HetNets

Congestion Game with Agent and Resource Failures

Professional Services

Program Committee

Journal Reviewer