相关栏目
院系热点

古代文献研究数字人文课程的实践与思考

发布时间:2025年01月03日 来源: 网络 字体大小:

在古代学科领域内,数字人文逐渐受到重视,因此有必要设计相关课程以引导学生学习和实践。本课程在内容方面,主要包括“正则表达式深入”“标记语言介绍及相关应用”“Python相关知识与运用”“经典与新见数字人文项目”“常用数据库、工具软件简介”等部分。这一设计既与我们对“数字人文”的认识有关,也与授课对象的具体情况有关。课程采用循序渐进的讲授方式,充分重视基础知识,重视实践。经过一学期的讲授,从同学们的反馈中可见其学习情况与之前的设想大致相合,同时本课程在内容结构、讲授方式方面还能加以改进,应进一步增强同学们的实践能力,引导和训练其思维方式。

一、引言
在近些年的研究中,“数字人文”已成为了一个越来越热门的话题。相关数字方法和计算机技术与人文学科的结合愈加紧密,重要的研究成果也不断涌现。在古代学科领域内,数字人文也受到了许多研究者的关注和重视。其展现出的搜集、分析、处理、呈现(可视化)的强大能力,以及应运而生的数据库、工具、研究平台等成果,对于相关问题的学习和研究都有很强的推进作用。有鉴于此,我们设计了“古代文献研究中的数字人文方法”课程,主要讲授数字人文中与古代文献研究有关的重要基础知识和实践方式。希望借此一方面使学习者知晓已有的重要数字人文项目,为其深入相关领域提供契机;另一方面使学习者掌握基本的数字人文方法和工具,并在一定程度上自主加以运用,从而在研究中提升效率、拓展思路,同时增强创新能力和运用多种方法解决问题的能力。
二、主要内容
本课程主要着眼于数字人文方法与古代文献研究中的结合点。着重讲授相关基础知识(正则表达式、标记语言、编程语言),同时介绍重要的数字人文项目,兼及常用数据库、常用工具软件等,以达到“授人以渔”的效果。目前的授课对象为全校本科生。希望是对数字人文感兴趣,又从事古代学科学习和研究的学生;同时也欢迎其他感兴趣的同学参与学习。主要内容包括以下几个方面:

1.正则表达式深入。将在回顾正则表达式基本使用方法的基础上,进一步讲授其进阶的使用方式,及适用于古代文献研究的检索、替换等多方面的功能。此外,还将通过具体案例,展示其在搜集、整理、分析材料时的多方面运用。

2.标记语言介绍及相关应用。将介绍常见的标记语言,如 Markdown、HTML、XML等,并重点讲授Word、Excel、PowerPoint的使用方式和内部结构,同时辅以具体案例,说明其在研究中的可资利用之处。

3.Python相关知识与运用。将在回顾Python基本功能的基础上,重点讲授其中与字符串、文件读写有关的编程技术,及其应用于古代文献研究的具体方式,包括在搜集材料、处理材料、分析材料、呈现数据时的常见思路与方法。此外,还将讲解具体的实践案例。

4.经典与新见数字人文项目。将简要介绍数字人文的发展史,并重点讲授经典与新见的数字人文项目。在此基础上,说明现前的重要发展方向和存在争议之处,提出值得进一步思考和深入的问题。

5.常用数据库、工具软件简介。将介绍常用古籍资源库、研究平台、其他网络资源,以及常用文本工具、工具链、常用文本编辑软件、其他常用软件等。
三、课程考量与特点

上述课程设计与常见相关课程略有不同。之所以作此考量,首先与我们对“数字人文”的认识有关。目前相关领域的具体实践非常丰富,理论探讨也正蓬勃开展,关于什么是数字人文也有不同的看法。不过就其术语本身来看——把数字资源、手段与人文学科相结合,进行问题研究和其他相关活动——应是能够具有共识的方面。

从这一角度来说,正所谓卑之无甚高论,其实技术手段的变革对人文学科的影响在历史上也是一直存在着的,如造纸术、印刷术的发明与革新等。而数字手段的出现,更是将人文学科的研究推进了一大步。在过去的研究中,我们使用纸、笔来积累材料,使用卡片等来协助整理、分析资料,使用文件袋来对成果进行整理、归档。而现在电子信息技术手段能提供相当多的便利。如可将所需资料电子化,可使用程序语言灵活地处理、分析相关材料,可使用git等工具来协助论文的归档、备份、版本控制等。

总之,有了新的技术工具,自然能够利用其所关联的新方法,从这一角度来看,数字人文和传统人文研究之间的鸿沟其实并没有那么大。而这“道不远人”、渗透于日用云为的学习研究的方式,相关领域的同学易于理解和入手,能快速运用于惯常的学习研究活动之中;与此同时,他们能通过这种新方法提升自己解决问题的能力和创新能力,感受到这一新技术手段的力量。

其次,这一课程设计也与授课对象的具体情况有关。我们面对的主要是学习和研究古代人文学科的学生,因此要在授课内容、形式和方法上专门考虑设计,以适应学科特点。整体而言,我们是以材料检索、材料搜集、材料分析、研究成果呈现为内在逻辑安排课程内容的。在古代文献的学习和研究中,除了平常阅读之外,检索也是相当重要的手段,故而首先从“正则表达式”开始——讲授更进阶的检索方式。这之后,就是材料搜集了,于是会涉及标记语言的相关知识,以存储内容、记录思考成果。接下来便是材料分析及成果呈现,这时会用到Python来辅助处理分析,并将所得的结果以需要的方式展现出来。
基于上述设计,可以看出,本课程还具有以下几个特点:

首先是讲授方式循序渐进。选课同学多为人文学科的学生,需得考虑到同学们的知识背景有所欠缺,相关基础略显薄弱。相当大一部分的学生只学过最基本的编程知识,还有同学可能在这一方面从未涉猎,因此一上来不宜从较深、较难的部分讲起,而应该从较为简单、切近实用的部分开始介绍,以使同学们能够由浅入深地接受相关内容。我们认为,从正则表达式开始有以下几方面的优点:

第一,正则表达式是在检索中常会用到的工具,很多同学都曾经接触过,即便未曾用过,也因其与常见的检索方法差别不大而较易理解和上手。

第二,在学习和研究中,检索是经常需要用到的方式,无论是检索材料、资料、笔记还是论著,正则表达式都能很好地胜任。且由于其自身特性,能够满足多样的检索和替换需求,故而有很强的实用性。

第三,正则表达式本身的符号不多,语法简单。作为较先接触的某类形式语言,能够相对快速地被学习接受,并能够为之后学习其他形式语言奠定基础。至于标记语言,许多类似课程较少涉及,而我们把它作为重点关注的对象,主要也是基于类似的考虑,即它具有颇多适用于学习研究之处,并且同学们在平常的学习研究中常会用到——从某种意义上说,日常所用的docx、xlsx、pptx等文件,其内部也是使用OOXML格式进行存储,同学们早已习焉不察了;而相较于程序语言,标记语言又相对简单易学、方便入门,故而也先行安排讲授。

在同学们有了以上基础后,再进行编程语言的讲授,他们就更加容易理解和接受了。特别是初学者某些常见的错误和难点,如中英混杂、格式问题、保留字问题、运行逻辑不理解等,同学们经过以上知识的学习和实践,明白了内部原理,都能很快地规避、掌握。

其次是充分重视基础知识,兼及应用方面的内容。与类似课程有所不同,本课程更重视基础知识,比如会留出更多的课时用于教授语言本身,而针对特定数据库、平台、工具的介绍则用时较少。之所以如此设计,主要有以下三方面的考量:

第一,计算机语言是与计算机沟通的媒介,人们通过它直接向计算机传达指令。掌握相关知识更方便同学们理解计算机运行的内在逻辑,从而为之后进一步利用相关技术辅助学习和研究奠定基础。

第二,由于前一点的原因,具备基础知识后,同学们对于相关数据库、平台、工具的运行原理也能较好地掌握,更快地上手;同时也能根据自己的需要,编写开发相关数据库、平台、工具,以服务于自己的需求,真正实现技术手段为己所用。

第三,由于科学研究的特性,学习者和研究者往往有更个人化的需求;而一般的数据库和平台所提供的功能通常是为普遍需求服务的,未必能满足具体的学习和研究的需要。而如第二点所述,同学们在掌握最为基本的知识后,就能自己找到方法、设计工具,从而更轻松地解决个性化的问题,根据自己的方向和意图灵活地开展研究。当然,如何在学习研究中熟练地运用已学会的知识,也是需要加以引导的。我们会将自己在学习研究中的实际做法和经验分享出来,做成课堂案例,以供各位同学参考;同时也鼓励各位同学交流分享,以相互切磋增进。

再次是重视实践。作为与方法有关的课程,除了教授具体的理论知识外,还需要实际上手,进行实践,才能真正达到学以致用的目的。展开实践的方式主要有以下三种:首先,在课程的每一部分中,我们都会讲解大量的案例。这些案例皆与古代文献研究有关,基本都是从我自己的研究实践中选取出来的。比如在正则表达式部分中,为了说明每一符号的意义与用法,我们都会大量举例,而这些例子都源于对古代文本的实际的检索替换的需求。我们希望在这一部分里,能够尽量全地纳入古代文本的检索替换的场景。这样,学生在学完相关内容后,在独自面对古代文本时,于大部分场景下都能知道自己所希望的检索可以怎样进行,如何书写相对应的正则表达式。而在遭遇少数较为独特的情况时,也能举一反三,知晓如何在已学过知识的基础上加以创新。又如在Python部分中,我们也举了自己在研究中的实际案例,说明相关方法不仅仅体现在大家所习知的方面,而且实际上渗透于研究的每一环节之中,几乎于获取、处理、分析材料的各步骤上都能见其身影。这些案例能够起到转变思考和解决问题的方式、启发创造性思维的效果。

其次,由于课程特性,我们还特别重视当堂实践。即在讲解相应内容时,鼓励同学们使用自己的设备立刻进行尝试,有问题即时回答,有不清楚的地方随时解释,有不够满意之处当即讨论优化。如此使学生能够立时得到反馈,从而增强教学效果,并能避免一处不懂而后续皆不懂情况的发生。

最后,我们也会布置一些实践性的题目,供同学们亲自上手尝试。其尝试结果和相关思考,我们也鼓励同学们发在课程群里,一同交流讨论,以相互切磋,不断增进。
四、反馈与思考

依据上述设计,我们成功开设了本课程,并进行了一学期的讲授。学期结束后,我们向选课和旁听的同学发放了问卷,希望能了解同学们的意见。其中,我们特别询问了同学们在各部分内容上的收获、对各部分难度的看法、希望增加的内容。在课程收获方面,绝大部分同学都将正则表达式排到了第一位,可见正则表达式作为实现检索任务的趁手工具——而检索又是面对文本开展研究时的基本手段——最能给同学们带来切实的效用。同时,不少同学也都认为在学习“标记语言”和“Python处理文本的基本方法”时收获很大,说它们确实能给自己的学习和研究带来便利。在难度方面,大部分同学都将“Python处理文本的基本方法”排到较难的位置上,而将“标记语言”排到较易的次第上,“正则表达式”处于中间位置,这也与课程规划时的推测大致相符。毕竟标记语言的语法较为简单,与平常书写文档时的体验差别不大,同时一般不涉及复杂的逻辑思考,能表达的意义也很有限,故而较易学习。正则表达式就稍显困难一些,Python则要复杂不少,同时还关涉语法是否正确、能否准确达意的问题。许多之前较少接触或完全没有接触过计算机语言的同学,可能还要面对新知识的接受、思维方式的转换等困难,这些确实会构成不小的挑战。在希望增加的内容方面,绝大部分同学都希望能再多补充一些与Office使用自动化有关的内容,还有不少同学希望能多讲授一些文件备份与同步的方法,多介绍一些常用电子资源等。
根据同学们的反馈,我们计划对课程进行以下更进:

首先是补充课程内容、优化课程结构。从反馈中可以看到,许多同学都希望能涉及更多方面的内容——其实这些内容与日常的学习和研究都是非常切近的,应当增入。对其具体加以分析,可以看出有的内容能够为目前设计的框架所容纳,如“与Office使用自动化有关的内容”,在讲解Python相关包和实际案例时,可以在原先知识的基础上加以扩充。又如“多介绍一些常用电子资源”,在具体介绍相关网站、工具、平台时,也可进行补充。而有的则需要增加单独的板块,如文件备份与同步方法——毕竟随着学习研究的深入,积累的各项数据与资源越来越多,如何对其备份以防丢失,如何能够在多设备间同步以方便随时查阅、修订,也是很重要的一项问题,值得专门介绍。总之目前的框架还需进一步调整优化,或者在原有内容的基础上不断拓展深入,或者新增章节,以把同学们实际需要的更多内容纳入进去。

其次是改进讲授方式。在授课过程中,我们已经注意到,许多内容的讲授时间其实略嫌不足——前面正则表达式和标记语言还能讲解得比较充分,而之后Python部分的时间就略显紧张,至于“经典与新见数字人文项目”和“常用数据库、工具软件简介”更是只能一带而过了。这一问题或许在其他课程中也会存在,需要考虑解决——毕竟一门学问包涵的内容是非常丰富的,一学期的课程往往只能揭示其冰山一角,但该问题在此类课程中表现得尤为明显:

首先,所谓“数字人文”尚处于开创和飞速发展之时,还未充分“经典化”,故而并没有明确的教材可供同学们自学或参考;

其次,同学们的相关知识水平差异较大,有些同学对于计算机语言几乎没有接触过,有些同学已经非常熟悉了;此外,虽然主要讲的都是针对古代文献的处理方法,但由于同学们实际上拥有不同的学科背景、面对不同的研究课题,具体的需求也会有所不同。

有鉴于此,我们认为可以把部分内容作为自学或选学项目移到课下,如某些基本语法、某些案例与分析等。同时借助新技术的便利,相关内容可以用多种方式、渠道向同学们呈现,以供自学,并提供自我评测的工具。如此一来,较为简单的知识点可以让同学们在课下先进行基本了解,上课时就能对重点、难点进行针对性讲解,以提高学习效率;而较显特殊或较高难度的补充内容就可以让学有余力的同学自行选择学习,以满足更多元化的需求。

再次是进一步增强学生实践的能力。作为一门讲授方法的课程,实践是最为重要的。在之前介绍课程安排时,我们已经强调了实践的重要性。而在之后的改进中,我们将更进一步把实践作为重中之重,在各方面都体现出来。比如有同学在建议中提到可以增强课下实践的部分。结合前一点改进,我们将布置多项具体的实践作业,供同学们根据自己情况尝试探索,并在课上课下交流各自的问题、心得、体会等。此外,我们还考虑设计一些共同完成的任务。比如在课程之初,根据同学们的兴趣和需要,安排一两项共同完成的创新实践任务——其涉及的知识点也与课程的主要内容有关;而在具体讲授相关知识时,也会围绕该任务展开。这样,在授课结束时,同学们能亲手做出适合己用的数据库、研究工具、分析程序等。如此既学习了相关知识,又锻炼了思考和实践能力,还能享受到成功的喜悦。

最后是进一步引导和训练创新思维方式。我们认为,在课程实践中,最为重要也最为困难的,其实是将“数字”与“人文”富有创造性地真正结合起来,而非只是表面上的粘连——一些做法甚至在各自学科内缺乏相应的学理基础;或是将各自限定在某些特定的问题上,以固有的方式沟通彼此。换言之,如何分解自己所面对的问题,从中拆分出适合解决的部分,并使用已会的技术、已有的工具予以解决,其实是相当关键的点——既是重点,也是难点。然而,由于具体的问题林林总总,且随着研究的进展还总会出现新情况、新现象,所以上述问题点其实很难有统一的解答方式。

不过我们认为,至少可以通过某些手段对同学们加以引导和训练。其一,可以通过讲解案例,使同学们知道某些常见问题可以使用哪些常见手段来解决,或者又有哪些巧妙的方式可以解决某些看似不易解决的难题,以起到“抛砖引玉”的作用。其二,可以多设计一些情景,询问同学们面对相关问题时打算怎么来解决,并即时评议反馈、组织讨论,以使同学们在面对实际问题时也能知晓可以从哪些方面入手、如何评估工具方法的适用情况,从而能真正灵活、富有创造性地进行实践并解决问题。

总之,从目前的选课和反馈情况来看,同学们对于这门课还是很欢迎的——希望能更多地学习相关知识、方法和技术,应用于自己的学习和研究之中。从学习效果来看,也能基本上达到这一目的。

(来源:转载自《学衡》第4期;作者:李林芳)