随着大数据和人工智能技术的发展,语言、历史、文学等人文研究都越来越多地引入了计算技术。人文学科与计算技术的交叉研究,关键在于基于语料库的人文大数据构建和大语言模型的应用。
01课程背景
为推动计算语言学与数字人文的学科建设与人才培养,北师香港浸会大学与澳门大学、南京师范大学,于2025年7月26日-8月5日(共9天),通过线上线下结合的形式举办语料库与数字人文暑期学院,包括讲习班和讲座交流两大部分。
讲习班课程A
将以开源免费软件“MySQL数据库+PHP编程语言”为主要平台,以开源的全唐诗、北大人民日报语料库等数据为例,介绍语料库的构建方法、字符集编码以及计量分析方法。
讲习班课程B
将以“荀子”古籍大语言模型为例,介绍大语言模型的开发、微调、提示词与本地应用。
学术讲座和文化考察
暑期学院还将邀请计算语言学和数字人文领域的知名学者开展十场学术讲座、珠海文化考察等交流活动。目前已邀请的讲座专家如下:
澳门大学袁毓林教授
北师港浸大庄以仁教授
北师港浸大陈湛助理教授
北京师范大学胡韧奋副教授
中国社科院民族所龙从军研究员
中国人民大学卢达威副教授
华中科技大学唐旭日教授
华中师范大学沈威副教授
02课程计划
(一)时间安排
时间:2025年7月26日-8月5日,共9天。
地点:线下(北师港浸大)/线上参与。
费用:课程免费。文化考察、食宿和交通费自理。
推荐酒店:北师港浸大国际人才学苑/榆栈酒店(位于校门口)。有需要的学员可以申请,或自行预订。
(二)课程安排
1. 计算语言学与数字人文领域专家讲座十场(每天上午)
2. 讲习班课程(每天晚上)
本期课程分为平行AB班开展,学员只能选择其一进行申请。
A班:语料库编程培训班
主讲:
李斌(南京师范大学)
常博林(南京师范大学)
马郝楠(北师香港浸会大学)
B班:大语言模型培训班
主讲:
王东波(南京农业大学)
刘畅(南京农业大学)
赵志枭(南京农业大学)
3. 研讨或文化考察(每天下午)
4. 上课方式
线下上课、线上腾讯会议同时举行。
讲习班共7次课程,每次2小时(一般安排在晚上7-9点)。每次上课前后QQ群答疑各半小时。
5. 面向对象
数字人文、语料库语言学等相关学科的本科生、研究生,青年教师。
A班线上线下共80人,主要面向零基础或编程初学者,具备英语四级及以上水平,即可报名。已具备计算机相关专业背景请勿申请。
B班线上线下共80人,主要面向具备一定的Python编程能力并较为熟悉大语言模型,但尚未掌握相关技术。计算机专业背景请勿申请。
6. 报名方式
课程采取线上报名的方式,总计不超过160人。线下录取80人,线上录取80人。其中,澳大、南师的学员录取不超过30人,北师港浸大学生不超过40人;其他单位的学员录取人数不超过90人。报名成功后签署上课协议,不接受改课或退课。
7. 结课方式
以独立构建的人文数据库网站或大模型应用为考核目标,每位学员须录制三分钟视频讲解自己的成果,专家予以点评和建议。完成课程考核合格者,可获得暑期学院结业证书。
03前两届讲习班回顾
语料库与数字人文暑期学院目前已举办两期,学员们取得优秀学习成果。两届讲习班期间,主办方均特邀计算语言学领域专家、学者举办讲座,通过分享相关研究方法、研究经验、研究成果以拓展学员的研究视野。
2024年1月13日-22日,首届寒假讲习班在南京师大顺利开展。讲习班一开放报名,便受到学员极大欢迎,共有200多位学员报名,最终线上录取了70名学员。经过十天学习后,学员开发40多个可用的数据库检索平台并在线展示,多位专家在线点评,进行开发指导和应用前景规划。共有60多名学员获得优秀或合格证书。
图1:2024寒假班学员汇报的优秀数据库系统合集
2024年8月10日至18日,第二届暑期学院在澳门大学顺利举办。暑期学院吸引了来自全球20个国家及地区的371所高等院校的956名师生参与报名,最终录取在线及线下总计110名学员参加8天的学习。在最终汇报中,学员们共展示了95个自建数据库。第二届暑期学院学生进行更为广阔的领域探索,涵盖文、史、哲、法律、医药、社会学等学科。8位专家听取学员汇报,针对数据库的研究目标、具体实现水平、未来改进方向进行了细致的点评。
图2:2024暑期学院学员汇报的优秀数据库系统合集
04报名方式
A.报名方式:
暂定2025年6月20日开启线上报名,6月27日截止报名。录取后需签署上课协议,不得更改报名的班级或缺课。
B.温馨提示:
建议申请人提前准备个人简历、研究基础和学习目标。
C.线上线下的区别:
线下可以参加下午的研讨和文化考察等活动,更可以近距离与专家学者、学员交流。
主办单位
北师香港浸会大学
联合主办单位
澳门大学人文学院
南京师范大学语言大数据与计算人文研究中心
指导单位
中国古籍保护协会古籍智能开发与利用专委会
协办单位
中国民族语言学会语言资源与计算人文专委会
中国社科院民族所民族语言文化行为实验室
中国人工智能学会语言智能专委会
南京师范大学文学院
数字人文专业发展联盟
(排名不分先后)