为营造良好的学术氛围,促进研究生跨学科深度交流,鼓励融合创新,提升研究生培养质量,复旦大学大数据研究院于2022年12月,组织“研究生创新活动月”系列活动。活动月期间,将组织研究生学术报告、系列专家讲座、创新研学活动、学科交叉融合交流活动等。
系列专家讲座
讲座主题:创新的价值闭环
黄波,华东师范大学数据科学与工程学院特聘教授,研究方向为数据驱动的系统优化及数字化教育服务平台。黄波教授在复旦大学获得博士学位,在编译器研发、语言虚拟机研发、系统优化、软件与服务架构、云计算等方面积累了丰富的项目经验。曾担任英特尔资深首席工程师、驭势(上海)汽车科技有限公司总经理和华为鲲鹏计算的首席架构师。共申请国内外专利30余项,在学术会议和期刊上发表论文30余篇。
讲座主题:重新思考Web场景下的事务抽象问题
王肇国,上海交通大学长聘教轨副教授,博士生导师。于2008年从南京大学本科毕业,11年和14年分别从复旦大学获得硕士和博士学位。2014至2018年在纽约大学从事博士后研究工作,后担任助理教授(非长聘教轨)。主要从事并行与分布式数据库系统方面的研究,主攻系统一致性、存储结构和SQL优化方面问题。相关成果发表在SIGMOD,OSDI,PPoPP,EuroSys,Usenix ATC,NSDI,PODC等国际重要会议上。曾获SIGMOD 2022最佳论文优胜奖(Honorable Mention),APSys 2017最佳论文奖,ACM ChinaSys新星奖,华为奥林帕斯先锋奖,以及两次华为火花奖。担任ACM ChinaSys秘书长、CCF数据库专委执行委员、CCF系统软件专委执行委员、FCS预备青年编委、ACM SIGOPS指定编辑,是ChinaSys学术开源创新平台的主要发起人,曾受邀担任 ACM ChinaSys 2021大会联合主席、ACM ChinaSys 2022程序委员会联合主席,ACM APSys 2018宣传主席, IEEE ICDCS 2020、IEEE Cluster 2021、TPDS 专刊 2020/2021等国际会议和专刊的程序委员会成员。
讲座主题:大数据的最新发展与如何在大公司生存?
姜伟华,复旦大学博士,阿里巴巴资深技术专家,阿里巴巴资深技术专家,实时数仓Hologres负责人,曾长期在 Intel、唯品会等公司工作。在 Intel 期间,创建并负责 Intel 大数据研发团队,创立 Intel 大数据发行版,并连续多年保持国内市场占有率第一。领导 Intel 大数据开源,团队涌现出 10+ Apache Committer,创立两个 Apache 项目。曾获 Intel 最高奖(Intel Achievement Award)和 Intel 中国最高奖(Intel China Award)。在唯品会期间负责大数据平台与 AI 平台。
讲座主题:智能复杂体系基础理论与关键技术
林伟,复旦大学数学科学学院教授、复旦大学智能复杂体系基础理论与关键技术实验室主任、教育部脑科学前沿中心副主任、计算神经科学与类脑智能教育部重点实验室副主任、复旦大学类脑智能科学与技术研究院副院长、计算系统生物学中心主任。国家杰出青年科学基金获得者。2011年入选教育部新世纪人才计划,2013年获国家优秀青年科学基金资助,2016年获选IEEE高级会员,2018年国家重点研发计划重点项目负责人,2019年获国家杰出青年科学基金资助。
讲座主题:科技论文写作技巧
周喆,复旦大学计算机科学技术学院青年副研究员,博士毕业于香港中文大学信息工程系,主要研究操作系统系统安全、体系结构安全、人工智能安全。已在系统安全四大会议(S&P,CCS,Security,NDSS)上发表多篇论文,并有支付安全研究工作在世界黑帽大会(Black Hat)上展示。指导的全部硕士毕业生均有CCF-A类论文发表,并赴海外留学深造。
研究生学术交流
1. 赵传磊
基于combining同步的并发GPU B+树设计与优化
针对新型异构硬件架构千/万级线程并发处理过程中同步开销大、服务质量差的问题,提出了一种高效、扩展强的并发控制算法,相比传统算法(当前最经典算法,UC Davis大学发表于PPoPP 2019的算法),性能和服务质量都获得超过7X的提升,并发吞吐率达到每秒24亿。
2. 耿子端
面向应用的体系结构特性分析工具集
当前应用计算需求呈指数级增长趋势,然而应用计算需求远超当前硬件性能发展速度,两者之间的鸿沟在逐步增大,迫切需要进行软硬件协同创新。体系结构特性分析抽象层次最高,适合进行设计空间探索和验证。现有开源特性分析工具存在分析结果不直观、覆盖面不足、可扩展性差、碎片化严重等缺陷。针对问题设计了面向应用的体系结构特性分析工具集ANT,包含指令分类与统计等共7个分析工具,达到了可深入、指示准、高性能、全面、易扩展易用的目标。
3. 贺巩山
面向AI的智能存储系统调研
随着数据量和计算能力的不断增长,深度学习迎来了第三次革命浪潮,已经广泛应用于计算机视觉、自然语言处理以及推荐系统等领域。现有的研究表明,I/O最高可以占到深度学习训练时间的70%。这一现象表明,在训练的过程中,GPU等加速器长期处于空闲状态,I/O已经成为深度学习训练的主要瓶颈之一。如何优化存储系统,缩短人工智能的训练时间,成为了研究的热点——Storage for AI。本报告将分析AI的I/O特点,并介绍Storage for AI的最新调研情况。
4. 王涵章
基于学习的JVM执行引擎性能优化
JVM是多种流行编程语言的运行环境,其执行引擎仍存在性能瓶颈。本报告将介绍一种基于学习的JVM执行引擎,该方法实现的执行引擎能够在原有基础上获得1.23倍的整体性能提升。
5. 梁超毅
基于学习的系统级仿真器
为了解决基于动态二进制翻译技术实现的系统级仿真器所具有的人工成本大、翻译质量差等问题,将基于学习的翻译技术应用到系统级的动态二进制仿真器中。该方法的动态代码覆盖率达到94.1%,相比于传统的系统级动态二进制仿真器(当前最流行的QEMU)能够获得1.36倍的性能提升。
6. 邓黎明
网络协议漏洞挖掘方法综述
协议模糊测试的发展以AFLNET工具为分界线。在AFLNET提出之前,主流的协议模糊测试工具采用黑盒的方法,由于黑盒测试不能得到SUT的反馈,模糊测试很难有效探索协议的状态空间;在AFLNET提出之后,基于覆盖的有状态灰盒模糊测试成为协议模糊测试的主流方法。有状态的灰盒协议模糊测试使用SUT返回的状态作为反馈信息来进行指导,状态可以由SUT响应报文中的粗粒度的响应码表示(AFLNET),也可以由SUT中细粒度的变量值表示(StateAFL和NSFuzz)。
7. 陈文灏
基于输入结构语义分析的定向fuzz
基于突变的模糊测试是一种重要的输入生成技术,用于检测软件中可能没有源代码的潜在问题。模糊测试依赖于随机突变来创建新的测试用例,并利用反馈信息(如代码覆盖率)来指导输入空间探索。应用模糊技术来测试对输入有较强语义要求的软件(如DBMS等结构化输入应用)存在挑战,此类目标通常在进入正常运行逻辑前执行语法检查和语义检查。如果种子输入格式有误,将限制现有的依赖运行时信息的程序输入空间探索策略,降低了模糊测试获取信息的效率,导致无法探索目标程序。基于输入结构语义分析的定向模糊测试技术,针对结构化输入应用,提出了一种快速的格式感知模糊方法来识别从指定输入到对应的指令的依赖关系。在模糊测试过程同时,获得一组输入与状态、输入长度、分支信息等与结构语义和程序信息相关的重要约束,改进现有模糊测试。
8. 刘宇
基于不变量的共模漏洞挖掘理论和方法
在构建“动态异构冗余”(DHR)的系统架构过程中,由于异构程度缺乏精确度量,异构体间“伪异构”的情况难以避免。当异构体间存在与执行环境无关并可利用的通杀漏洞时,DHR系统安全性与稳定性则面临挑战,共模漏洞存在于跨版本、跨语言、跨应用等不同程序的本征功能实现层面。本课题研究基于不变量的共模漏洞挖掘系统理论方法,结合程序分析理论中不变量映射程序执行状态,对不同语言进行语言无关的符号化表示,并利用模糊测试等漏洞挖掘技术,系统地挖掘多层面共模漏洞,进一步丰富和增强DHR架构的理论方法和安全属性。
9. 卫今
DOP攻击构造方法评估
随着针对控制流劫持攻击(ROP,JOP,等)的防御解决方案的广泛部署,面向控制数据的内存错误的利用变得很困难。然而,面向数据编程(Data-Oriented Programming,DOP)在攻击过程中不需要转移应用程序的控制流,通过改变非控制数据就能够实现图灵完备攻击,从而达到显著的破坏效果,是现在攻击者很有兴趣的研究方向。然而,DOP在构造data-oriented exploits的依赖条件也比较严格,例如数据对象的生命周期、对数据对象的操作以及所依赖的程序上下文都需要攻击者“精确”地进行构造。这也导致了DOP没有如同控制流类攻击的广泛应用。
10. 赖承杭
视觉语言推理——未来事件预测
通过观测给定的一段视频,人类可以很容易地预测视频的后续会发生什么。人类大脑可以基于先验知识,对周围环境和自身的状态和关系构建一个可解释的认知模型。将观察到的信息融合到人脑的认知模型中,产生新的信息,并进行评估和逻辑判断,实现对未来的预测。受人类在预测近期事件时的认知推断的启发,我们希望通过信息分析和推理,赋予机器类似的从已有信息中获取新知识的能力。
跨学科学术报告
将邀请数字经济、能源气象、自然语言处理、智能复杂系统工程、量子模拟与量子计算领域研究生分享研究成果。