数据平台


智能教育数据平台简介

实验室长期围绕智能教育的核心应用开展理论和应用研究,长期以来通过自主研发和合作开发等途径采集和存储了海量教育数据。综合利用无感采集、人机交互获取、学习评测、脑电(EEG)、功能核磁共振(fMRI等多种数据采集方法和工具,建立了自适应学习数据库、儿童在线编程数据库、课堂教学诊断数据库、儿童脑智发育数据库、区域教育综合数据库等多源多模态教育大数据,数据覆盖完整基础教育阶段的学、教、管、评等重要教育环节。数据总量14T,覆盖师生数量逾1000万,数据记录逾3.3亿条。通过对海量数据的深度分析和挖掘,驱动智能教育若干关键技术和核心应用,服务千所学校,惠及千万学生。实验室将继续开发新数据,构建面向教育大数据的存储、分析和可视化平台,对数据进行更深层次的挖掘和分析,支撑三维自适应学习、高品质课堂诊断、核心素养进阶评测、特殊儿童智能辅助、智能教育社会实验等实验室重点研究方向,构建实现数据与知识双动力驱动的智能教育研究体系,助力于进一步提升学、教、管、评的智能化水平。


实验室现有数据的采集方法、种类及其支撑的研究方向

 

课堂教学诊断数据库:华东师范大学教育学部长期致力于高品质课堂教学研究,自主研发课堂数据采集系统,采集和收集大规模课堂教学诊断数据,以实现对高质量课堂教学诊断的证据研究。数据主要保存在课堂数据采集分析平台中,这些数据主要应用在课堂视频大数据采集、传输、存储、分析、和可视化等不同环节中。数据可分为结构化数据、非结构化数据,其中,结构化数据存储在MSSQL系数据库中,以数据库表的形式存在,共有数据记录总计357496条,918MB,包含10个关系表文件,数据量约为918MB非结构化数据存储在文件服务器上,以文档、音/视频、图像等形式存在,文件数量约1000个,数据量约为305GB;无半结构化数据。考虑到数据双备份,目前全部数据总量共约720GB

自适应学习数据库:华东师范大学智能教育研究院与高木教育科技(深圳)有限公司保持长期的合作关系,通过共同合作研究开发自适应学习系统,通过自适应学习系统无感采集超20万学生的在线自适应学习过程和评测数据。数据主要保存在数据库服务器和高性能计算集群的存储中,这些数据主要应用在对个性化自适应学习教育研究中。数据可分为结构化数据、非结构化数据和半结构化数据,其中,结构化数据存储在MYSQL关系数据库中,以数据库表的形式存在,共有数据库1个,关系表41张,数据量约为7GB非结构化数据存储在文件服务器上,其中一类以文档、图像、音频视频等形式存在,文件数量约52万个,数据量约为130GB;另一类用户提交文件,以文档、图像形式存在,数量约为19万个,数据量约为20GB;半结构化数据存储在应用服务器和文件服务器上,如HTMLXMLJSON文件等,文件数量约26万个,数据量约为20GB。考虑到数据双备份,目前全部数据总量共约360GB

儿童脑智发育数据库:华东师范大学脑科学与教育创新研究院为配合国家脑计划,启动“儿童青少年脑智发育追踪研究”,建设了儿童青少年脑智评估系统,基于该系统构建多个独立的测试工具,采集多维度脑智评估数据,再通过数据处理和深加工,得到多模态脑智数据库。既有数据主要保存在数据库服务器和高性能计算集群的存储中,数据可分为结构化数据、非结构化数据和半结构化数据,其中,结构化数据存储在ORACLEMYSQL关系数据库中,以数据库表的形式存在,共有数据库8个,关系表408张,数据记录250万条,数据量约为1GB非结构化数据存储在文件服务器上,其中一类以文档、音/视频、图像等形式存在,文件数量约4万个,数据量约为5GB;另一类为、基因数据、MRI数据、VR数据,文件数量约为8万个,数据量约为200TB;半结构化数据存储在应用服务器和文件服务器上,如HTMLXMLJSON文件等,文件数量约4万个,数据量约为3GB。考虑到数据双备份,目前全部数据总量共约400TB

儿童在线编程学习数据库:华东师范大学数字化教育装备工程中心一直致力于儿童在线编程学习研究,通过与麻省理工学院相关研究团队签属数据使用协议,获取了超过100万全球儿童用户的在线编程学习过程数据。原始数据存储在哈佛大学Dataverse公共数据存储平台,数据副本保存至华东师范大学数字化教育装备工程中心工作站。数据分为结构化数据、半结构化数据和半结构化数据,其中,结构化数据存储在MYSQL关系数据库中,以数据库表的形式存在,共有关系表32张,数据记录300多万条,数据量约为1GB非结构化数据以文档、音/视频、图像等形式存在,文件数量约200万个,数据量约为152GB;半结构化数据存储在应用服务器和文件服务器上,如HTMLXMLJSON文件等,文件数量约100万个,数据量约为3GB。考虑到数据双备份,目前全部数据总量共约310GB

区域教育数据库:上海数字化教育装备工程中心与上海市电教馆建立了长期的良好合作关系,发挥各自专长,优势互补。面向科学研究,双方共同开发研究覆盖上海地区的人口数据、学习资源数据、学习过程数据、综合评价数据、校园管理数据。数据存储在上海市电教馆服务器。数据分为结构化数据、半结构化数据和非结构化数据。结构化数据包括:管理类基本数据,涉及学生150万(基础教育和职教),教职工39.5万人(全覆盖),以及每年近32万的入学招生数据;上海市75万余名中学生(初、高、中职),超4800万条综合素质评价数据;上海市中小学生阅读数据:49048877条,其中数字阅读数据63616条,纸质图书借阅数据达到48985261条。非结构化数据包括:学习资源类数据包括逾2万门课程资源数据,含K12阶段优课、高中名校慕课、专题教育课程、空中课堂等;上海市静安区教育局下属所有学校的食堂、出入口安防数据,包含安防基础设施、视频流数据。半结构化数据包括:超1.5亿条xAPIJASON格式的学习行为数据;上海986所中小学共计324991位师生的作业行为数据。


  智能教育大数据平台DM Web