“清华大学历史系百年系庆”系列活动
“AI与史学文献处理”工作坊
一、概况
形式:线下工作坊(30人,报满即止)+线上旁听(不能参与互动)
对象:面向历史学方向且对计算机、AI感兴趣的老师、研究生、少量有志于人文研究的本科生。
线下地点:清华大学蒙民伟人文楼(报名完成后邮件通知)
时间:2026年3月18日(周三)晚6:30-8:30
3月25日(周三)晚6:30-8:30
3月29日(周日)下午2:00-5:00
4月12日(周日)下午2:00-5:00
总体目标:从账号注册与环境配置出发,逐步借助AI编程进行 OCR、数据清洗、实体提取、文本聚类与知识库搭建等数字人文基础技能。
参考资料:https://docs.qq.com/doc/DYmtHcFpDYWdRcWNE
二、安排
(一)环境搭建与 AI 编程准备
1.完成工作坊所需的软件安装(Anaconda、Trae)与账号注册(注册GLM、Qwen、Trae,及腾讯 ima 、识典古籍平台等账号);
2.熟悉在中国可用的大模型 API 与 coding agent 方案;
3.初步了解 AI 编程中的项目配置、Skills、MCP 与测试自动化等进阶概念 ;
4.以AI agent自主抓取数据并进行可视化分析为例,体验 AI 辅助编程流程。
(二)Vibe coding 通论与《宋会要》实践 I:从图片到结构化数据
1.了解大语言模型在人文研究中的不同角色:代码编写、文献识读、数据库查询等;
2.结合幻灯片与练习资料,学习如何利用大语言模型将未被OCR的PDF文档逐步制作成结构化表格。
(三)案例分析与《宋会要》实践 II:数据标准化
1.结合把数月工作压缩成数小时/分钟的真实案例,理解vibe coding的结果导向思想;
2.以《宋会要》数据的标准化实践为例,学习历史数据处理中的标准化。
(四)文本聚类与分类:大模型与经典算法
1.了解文本向量化与相似度的基本概念;
2.在AI编程的协助下使用大模型 embedding 与经典算法进行简单聚类/分类;
3.根据研究需要,将史料按时间、地区或主题等进行初步分群。
(五)知识库与问答系统:从资料到“助手”
1.理解 RAG(检索增强生成)和知识库工具的基本思路;
2.能够利用常用工具,搭建一个面向具体研究主题的小型知识库问答系。
三、报名方式
报名方式:https://f.kdocs.cn/g/AI3Pe89O/

【请在备注中说明自己的计算机基础,特别是有无Python经验。】
联系人:
王宏甦:hongsuwang@fas.harvard.edu
苏方怡:sufy21@mails.tsinghua.edu.cn
方诚峰:cfang@live.com(工作坊安排事宜请联系)