一、带头人与团队介绍
实验室主任/带头人:郑纬民
清华大学计算机科学与技术系教授,博士生导师。1970年毕业于清华大学自动控制系,1982年获清华大学计算机科学与技术专业硕士学位。1985年至1986年在美国纽约州立大学石溪分校进修学习。1989年至1991年在英国南安普敦大学进修学习。获北京市优秀教师奖和北京市教学名师称号,享受国务院政府特殊津贴,曾任中国计算机学会理事长。2019年当选中国工程院院士。
团队现有教授3人(含一名深圳杰青),副教授5人,博士12人
二、总体定位与发展方向
实验室致力于以云计算、大数据为代表的分布式计算系统关键技术的研发和产业化应用,具体的研究内容包括:
l 云计算:研究虚拟化技术,云存储与数据共享技术,可按需定制的虚拟计算技术等。
l 存储及容灾:研究海量存储技术,数据删冗技术等;研究信息系统容灾备份及恢复技术。
l 高性能计算:研究并行程序性能分析和优化技术、编译技术,以及高性能计算在电力、气象、石油等行业的应用技术等。
l 计算系统全过程评测:研究针对计算系统在设计、实施和验收等各阶段进行性能预测以及可靠性及性能评估的方法等。
三、科研成果与产品展示
1. 分布式存储技术及系统
突破了海量存储的可靠性技术,通过内嵌的大规模纠删码存储方式,保证了数据在系统中不会丢失;突破了跨数据中心的超大规模存储空间统一管理技术,在提供用户统一视图的同时,降低了多站点同步的数据传输量;突破了主存储冗余数据删除技术,通过基于位置敏感哈希识别相似数据段和以相似数据段为单元组织删冗元数据等手段,能够在删除冗余数据的过程中保持存储系统性能。基于上述技术,构建了PB级云存储服务平台,物理存储容量超过了1.5PB。
2. 图计算技术及系统
提出了面向时序动态图的高效存储方法;设计了优化外存图计算的基于栅格划分的数据布局方式,通过双滑动窗口的顶点访问方式和Streaming-Apply计算模型,减少了数据读写量和I/O访问次数,在大规模图上可获得1个数量级的性能提升;提出了顶点数据的三维划分方法,通过将每一个点都切分成多个子点并分配给不同的计算节点,减少了节点间通信,相比PowerLyra性能提升4.7倍。基于上述技术,研发出通信量优化的高性能可扩展图分析系统,可支持200台服务器,支持超过5万亿条边的大图分析。
云存储服务平台的架构
云存储服务平台的服务门户
时序动态图存储方法中封印数据块的数据布局
基于栅格划分的双滑动窗口图计算模型示例
四、科研条件
实验室现有一套大数据存储与处理系统,其中戴尔R920大内存服务器2台,戴尔R720存储服务器85台,戴尔R720计算服务器18台,戴尔R720接入服务器10台,系统的总存储容量超过了1.5PB。
五、联系我们
深圳清华大学研究院云计算与容灾技术实验室
地址:深圳市南山区科技园南区高新南七道19号深圳清华大学研究院B410
电话:0755-26999105
邮编:518057