议题介绍
Alluxio(alluxio.io)是一个开源数据编排系统,它可以为多个外部分布式存储系统提供统一的命名空间和数据访问接口。对于Alluxio而言,Alluxio为挂载的外部文件系统里的海量数据文件及文件夹提供高速、可伸缩的元数据存取服务非常重要且关键。
本此技术分享着重于我们在Alluxio元数据服务(主节点)的设计、实现和优化以解决超大规模文件系统元数据管理挑战方面的经验。Alluxio中采用了一系列技术方案,包括层次化元数据存储(基于堆外KV存储的RocksDB),细粒度的文件系统inode树锁,嵌入式状态复制机(基于RAFT),并针对常用的RPC框架(Thrift V.S. gRPC)进行调研和性能调优。目前,通过综合运用上述技术,Alluxio 2.0已经具备至少存储10亿个文件的能力,并且显著减少了内存占用,可支持满足3000个工作节点和30000个客户端规模的元数据服务需求。
最后,Alluxio开源社区经过7年的发展,已经吸引了超过 300 个组织机构的1000多名贡献者参与到 Alluxio 的开发中,包括阿里巴巴、 Alluxio、 百度、 CMU、 Google、 IBM、 Intel、 南京大学、 Red Hat、 腾讯、 UC Berkeley、 和 Yahoo。时至今日,Alluxio也已经在数百家机构的生产中进行了部署,最大生产部署运行的集群规模超过 1500 个节点。我们还将简要介绍几个Alluxio在这些生产环境中的经典部署应用案例。
讲师介绍
范斌博士是位于硅谷的开源数据平台软件Alluxio公司的创始成员和VP of Open Source. 加入Alluxio前, 范斌在Google山景城总部从事下一代大规模分布式存储系统的研究与开发。范斌博士毕业于卡内基梅隆大学计算机系, 博士期间在分布式系统算法和系统实现等方向发表多篇包括SIGCOMM, SOSP, NSDI等顶级国际会议论文以及多篇专利。
顾荣博士是南京大学计算机系副研究员,研究方向大数据处理系统,开源大数据存储系统Alluxio PMC Member & Maintainer,现任中国计算机学会系统软件专委委员,已在TPDS、JPDC、ICDE等国际前沿期刊会议发表论文20余篇,出版专著1部,获授权国家发明专利4项;主持多项国家自然科学基金项目和大型IT公司委托研发项目,成果应用于英特尔、百度、苏宁、字节跳动、中国石化等公司;获得第五届中国“互联网+”大学生创新创业大赛金奖、2018年度江苏省科学技术一等奖、2019年度江苏省计算机学会青年科技奖;曾在Microsoft Research、Intel、Baidu从事大数据系统研发工作。