“清华大学历史系百年系庆”系列活动 --“AI与史学文献处理”工作坊-清华大学历史系

“清华大学历史系百年系庆”系列活动 --“AI与史学文献处理”工作坊

来源：发布时间：2026-03-11 点击数：

“清华大学历史系百年系庆”系列活动

形式：线下工作坊（30人，报满即止）+线上旁听（不能参与互动）

对象：面向历史学方向且对计算机、AI感兴趣的老师、研究生、少量有志于人文研究的本科生。

线下地点：清华大学蒙民伟人文楼（报名完成后邮件通知）

时间：2026年3月18日（周三）晚6:30-8:30

3月25日（周三）晚6:30-8:30

3月29日（周日）下午2:00-5:00

4月12日（周日）下午2:00-5:00

总体目标：从账号注册与环境配置出发，逐步借助AI编程进行 OCR、数据清洗、实体提取、文本聚类与知识库搭建等数字人文基础技能。

1.完成工作坊所需的软件安装（Anaconda、Trae）与账号注册（注册GLM、Qwen、Trae，及腾讯 ima 、识典古籍平台等账号）；

2.熟悉在中国可用的大模型 API 与 coding agent 方案；

3.初步了解 AI 编程中的项目配置、Skills、MCP 与测试自动化等进阶概念；

4.以AI agent自主抓取数据并进行可视化分析为例，体验 AI 辅助编程流程。

1.了解大语言模型在人文研究中的不同角色：代码编写、文献识读、数据库查询等；

2.结合幻灯片与练习资料，学习如何利用大语言模型将未被OCR的PDF文档逐步制作成结构化表格。

1.结合把数月工作压缩成数小时/分钟的真实案例，理解vibe coding的结果导向思想；

2.以《宋会要》数据的标准化实践为例，学习历史数据处理中的标准化。

1.了解文本向量化与相似度的基本概念；

2.在AI编程的协助下使用大模型 embedding 与经典算法进行简单聚类/分类；

3.根据研究需要，将史料按时间、地区或主题等进行初步分群。

1.理解 RAG（检索增强生成）和知识库工具的基本思路；

2.能够利用常用工具，搭建一个面向具体研究主题的小型知识库问答系。

【请在备注中说明自己的计算机基础，特别是有无Python经验。】

联系人：

王宏甦：hongsuwang@fas.harvard.edu

苏方怡：sufy21@mails.tsinghua.edu.cn

方诚峰：cfang@live.com(工作坊安排事宜请联系)