大脑包含上百亿神经元,是人体身上最重要和最复杂的器官,复杂性远远超出了我们当前的认识能力,脑科学研究不仅是全球科技前沿的热点领域,也是理解人类本身的终极目标。为了加快脑科学研究的步伐, “脑科学与类脑研究”计划 于2016年正式启动,吸引众多顶尖科学家投身其中,以探索大脑秘密、攻克大脑疾病为导向的脑科学研究,以及以建立和发展人工智能技术为导向的类脑研究开启了新的征程。
作为国内高校最早成立的脑科学与类脑前沿交叉研究机构之一,复旦大学类脑人工智能科学与技术研究院(简称类脑研究院),面向脑与类脑重大科技前沿,依托学科优势,借助领先的计算、数据平台,致力于在类脑人工智能算法、重大脑疾病智能诊疗等领域创新,引领脑科学、人工智能与产业应用的融合,实现未来智能产业技术创新。
为了建成世界一流的脑与类脑前沿研究和科技创新机构,加速脑科学与类脑研究进程,复旦大学类脑研究院采用多维度、高精度的设备进行科研数据采集、传输、使用,如类脑研究设备涉及脑成像平台,磁共振成像设备系统、多台近红外光、脑电、脑磁图等实时脑功能监测系统,直流电刺激、经颅磁刺激、超声脑刺激等脑调控系统,认知神经科学平台拥有光学脑成像设备及认知行为解析设备,这些设备进行科学研究时产生了大量影像等数据。
在组建人脑大数据库的科研项目中,复旦大学类脑研究院并利用各种无创手段,以基因测序为主,对抑郁症,精神分裂症,健康人等不同类型的人群,并发采集其环境、行为、遗传、脑影像、神经等千万级小文件数据信息,实现研究重大脑疾病如抑郁症、精神分裂症、自闭症和物质滥用的病根构建并预测人脑的各种宏观指标如创造性、幸福感和毅力等,这对整个大平台的数据基础设施有着比较大的挑战和要求。
首先是对数据容量的要求:研究院部署较早的传统存储扩展能力受限制,且配置6TB及以上大容量硬盘采用RAID 6、RAID 10,空间利用率小于50%,在容量利用方面存在巨大提升空间。
其次是要有稳定的性能支撑:基因测序的生产过程是一个超高并发的文件转换过程,整个生产过程有非常密集的大小文件的读取和写入,一个完整的基因测序样本会产生千万级数量的文件,通过测序仪、分析仪等仪器获得包含原始基因序列碱基对的文件,大小大约几十GB,因此整个生物样本的导入过程对文件存储的性能有着极高的要求,满足不同科研任务对不同文件高带宽的存储需求,既要文件系统必须提供超大文件数量的支持,同时必须在有限的时间内完成海量小文件的导入。
最后能对设备和用户的进行高效和精准管理:一是用户层次多,类脑研究院拥有从本科生至博士生,以及各类研究员的使用者;在研究的过程中类脑研究院的教授、研究员及学生需要不同的级别,防止重要数据被误操作等;二是多台设备,使得故障点隐患增加,管理及配置难以统一化,运维压力较大。
浪潮信息存储助力类脑演讲基础平台建设
针对全脑网络可视化研究场景及相关需求,复旦大学类脑研究院的采用了浪潮信息提供的专业化的存储解决方案。
复旦大学类脑研究院采用浪潮信息分布式存储AS13000,可按需提供文件、对象、块、大数据等多种服务,采用8+2纠删码策略提供了3PB容量空间,利用率80%;方案统一化管理,降低多套设备部署和维护的复杂度,允许集群内同时故障2个节点,业务不中断,数据不丢失,保障业务连续。
通过对象聚合,提升单次落盘的对象大小,降低落盘操作次数,单节点恒定聚合带宽达2GB/s以上,连续72小时高清拍摄不丢帧,确保基因测序的连续性。
针对高校多个学科与多个课题组共享、使用、管理数据会产生多份数据,浪潮信息存储为用户定制的软拷贝功能,在元数据和索引上做变更,用户视角是多份不同的文件,但底层则是共同的存储空间,实现多份数据极速拷贝和使用,还大幅降低存储容量开销和管理成本,让数据共享、使用变得更加高效。平台通过部署增强ACL,支持读、写、执行、可视、删除,满足不同用户对文件精细的权限控制:保证不同研究员、学生和管理者对数据的访问和存储有不同的权限,防止误操作。
复旦大学类脑研究院下设的生物医学大数据中心---张江国际脑库(ZIB),不断加强高性能计算与存储能力建设,目前拥有6个队列,15000例被试,30 PB存储,1005 份问卷,形成了国内领先的生物大数据、云计算平台。预计到2023年,张江国际脑库将围绕精神分裂症、抑郁症、自闭症、脑卒中、神经退行性疾病以及正常人群六个队列建设,完成采集环境、行为、遗传、脑影像、神经5-O尺度全维度数,建成全球最大规模的全维度脑数据库和算法中心,服务脑科学基础研究、脑疾病临床诊疗与类脑智能新兴产业的发展。
同时与全球主流生物数据库建立合作共享机制,致力于建成全球最大规模的全维度脑数据库和算法中心之一。无论是脑科学还是类脑研究,对提升未来中国科技整体“智慧水平”、提高经济发展质量、促进人类的生产生活方式的转变均意义重大。