把文化艺术、数据与深情厚意共冶一炉——人法大学首篇获EI检索随想笔者李洵专访

  李洵,厦门大学人文学院2011级中文系本科生,于2012年入选人文学院第一批“拔尖人才培养计划”。2014年,她和她的团队发表的论文On Developing Data Integration and Mining Platform for Classical Chinese Literature Study,成为人文学院首篇可被EI检索并进入IEEEEXPRO数据库的学术论文。

《数字人文与文学研究读本》将由清华大学出版社出版

来源:中宏网 2018-1-5


《数字人文与文学研究读本》近期将于清华大学出版社发行,这将是数字人文方法进入我国文学研究领域的第一个读本。

该读本系由清华大学中文系、芝加哥大学Text
lab、清华大学图书馆共同发起的“清华大学数字人文与文学研究国际工作坊”的论文集,这也是数字人文研究兴起以来,国内首次举办以“文学研究”为主题的数字人文研究领域国际会议。

据介绍,工作坊缘起于清华大学、芝加哥大学和《山东社会科学》杂志社最早发起的数字人文与文学研究专栏。由清华大学中文系的王中忱教授、刘颖教授和执教于哥伦比亚大学的戴安德博士、浙江大学的姜文涛博士、首都师范大学的赵薇博士共同召集,旨在推动数字人文方法进入文学研究领域,并展示最新的前沿成果和研究实例。

这次活动获得了来自清华大学中文系、古典文献研究中心、芝加哥大学Text
lab、东亚语言与文化系、英文系,哥伦比亚大学亚洲语言文化系,上海图书馆和清华大学图书馆等各方支持和响应。工作坊的演讲和讨论模式也广受与会师生的欢迎,讨论热烈,成果丰硕。

为期两天的工作坊分别由清华大学中文系的邓盾老师和会议召集人之一姜文涛博士主持。在10日的报告环节中,来自芝加哥大学的霍伊特·郎教授和苏真、朱远骋、戴安德博士团队分别介绍了他们最新的研究成果。霍伊特·朗教授团队使用机器学习的方法识别和研究英文俳句,通过机器学习俳句特有的词频、音节数、常用意象等特征,对语料库中的材料进行分析和区分。其研究中表现出的对文学和普通文献材料辨别的思考和对机器学习误判情况的解读,对于数字人文学者重审“细读”式的文学研究和文学文本的“文学性”提供了值得反思的案例。在下午的报告中,他又以“青空”日本文学数据库的复杂关键词检索为例,详细讲解了可检索数据库中如何使用复杂关键词叠加搜索大量文献,并展示了进一步处理结果时数据平台可以为研究者提供的有效筛选和提取手段。虽然空检索平台是基于日文的数据库,但可以推广的方法和类似平台的同类功能为与会者学习和使用检索平台开展研究提供了借鉴。

苏真、朱远骋、戴安德博士的Text
Lab团队则借助上海图书馆民国期刊电子数据库项目的建设,对民国期刊文献进行大规模的文本和数据分析。他们在致力于探索统计学、数字人文和前沿计算机技术在大规模文本分析中应用的同时,也保持了对文学文本和历史史料的谨慎态度,以期使用技术手段获得对中国近代文学和历史客观、宏观分析的新视角。上海图书馆的戴梦非女士对此项目促成的民国期刊全文数据库做了详细的介绍和使用说明。戴安德博士则将清华大学的数字人文研究前身上溯至早期清华导师梁启超和毕业生卫聚贤,并重提民国时代“用应用统计的方法来整理国学”的号召。统计专家朱远骋博士还就他们使用到的统计学方法以及在研究中需要注意的陷阱做了专门报告,用四则研究中的小故事引出诸如“辛普森悖论”“熵的陷阱”和“可置换原则”等文献统计的重要原则和值得注意的问题,为使用统计学方法开展文学研究的学者提供了生动详实的具体案例。

此外,来自清华大学古典文献研究中心的张力伟研究员代表中心向与会者介绍了关于“古典文献知识工程”的构想,这一平台体量大、文献全面、可检索程度高,在傅璇琮先生等老一辈专家的关心下较早着手实施,并已取得初步成果。来自清华大学中文系的江铭虎教授也做了《大数据环境下的语言认知与计算》专题报告,向来宾展示清华大学中文系计算语言专业在语言认知与数据分析方面取得的成果,并提出了未来学科交叉与融合的希望。

次日的报告由工作坊召集人之一、来自浙江大学的姜文涛博士主持。在半天的报告中,霍伊特·朗教授再次以中日近代小说作为研究对象展示了数字人文方法在文体研究中的应用,无论在微观的词汇、意向检索统计还是宏观的体裁、类型和写作风格分析方面,数字人文方法都为研究者展示了不同于以往的角度,使得定性、描述和批评的研究一定程度上转化为量化的、可视的和非主观的数字成果,展示了文学研究的另外一种可能性。

来自南京大学的陈静教授和但汉松教授,分别就《中国数字人文跨学科研究现状》和《数字化文学批评的进路与反思》做了专题报告,为使用中文进行研究的学者介绍了目前中国数字人文领域的发展进程。作为新兴的交叉学科,中国数字人文研究还很年轻,但在此概念提出之前,国内已经有许多学者致力于相关领域的研究,并涌现出许多成熟的研究成果和具备检索、分析功能的数据库,如“中国近现代史全文检索数据库”“全唐诗分析系统”“唐宋文学编年地图平台”等。同样的,作为一种文学批评的方式,数字人文的基本思想也很早地在文学领域萌芽,并随着计算机技术的发展得到越来越多的重视。但汉松教授特别强调数字人文方法在文学批评领域的独特性,一方面提醒研究者避免数字人文成为语料库研究方法的简单附庸,另一方面也对计算机语言中二元逻辑的局限与文学研究中的文学性之关系提出了自己的期待与担忧。

会议召集人之一、毕业于清华大学的赵薇博士和两位来自清华大学人文学院的研究生严程、涂梦纯同学也就自己的具体研究做了报告。赵薇博士的《社会网络分析与叙事性作品研究》,使用R语言、Gephi等技术手段针对李劼人的长篇叙事作品进行了一系列的数据分析和统计,并借助数字加权和算法应用发现与阐释小说人物的关系和作者的叙述意图,在展现和分析长篇小说时空情节、人物功能的基础上,回应了前辈学者通过直观阅读所得出的关于小说主人公和叙事意图的判断。来自清华大学中文系文艺学专业的博士生严程同学在《女性的友谊与诗:顾太清和她的秋红诸姊妹》中,用具体的交游网络研究实例展示了借助Gephi基础功能统计交游圈的交往情况和发现异常问题并加以解决的个案,为文学研究者借助数字人文的理念和工具发现论题提供了可操作的实例。来自计算语言学专业的硕士研究生涂梦纯同学则使用计量统计的方法分析时下热门的同类型网络小说《鬼吹灯》和《盗墓笔记》,从字、词、句和文学风格等不同角度解读了两种小说的区别与造成的效果,探索了与传统文学批评不同的研究路径。此外,来自海关出版社的刘冬女士还介绍了旧海关史料数据库的开发状况和使用方法。

永利电玩城首页 ,清华大学中文系的王中忱教授在会上做了总结发言,在总结各位与会学者研究成果的同时,也带领大家展望数字人文与文学领域研究的前景,并对在座的学者和年青一代学人寄语殷切期望。

编辑:徐静

  2013年1月,李洵获知申报“基础创新科研基金”和“大学生创新创业计划”的消息后,先选题后组队。

  由于李洵只接受过基础学科的训练,没有接触过真正的学术科研,所以她先寻求了拔尖班导师黄鸣奋的指点。黄老师向她推荐了两篇文章:华东师范大学郭金龙教授的《数字人文中的文本挖掘研究》、许鑫教授的《文本挖掘在人文社会科学研究中的典型应用述评》。文章侧重概述数字人文的概念、研究内容和现状,指出文本挖掘方法是数字人文研究的研究热点与趋势,同时也介绍了欧美发达国家文本挖掘应用于数字人文研究的前沿实践。在这两篇文章的启发下,李洵初定了三四个研究方向,并由黄老师牵线,和信科的杨帆老师进行合作。而杨帆老师又推荐了路易斯安那州立大学的李昕教授给她,接着中文系的曹聪和自动化系的陈潇相继加入她的项目组。

  这个横跨人文与信科两院的研究团队由此组建起来。李洵说:“正是因为事先选好课题,才诞生了一个‘混血’的团队。”然而一切才刚刚开始。

踽踽独行,摸索前进

  “我一直在认真地凑热闹。我对周围的事情不太敏感,如果大家都对一件事感兴趣,这时候我可能才会注意到。若我也对此也有兴趣,我就会认真去准备和完成,我参加拔尖班也是如此。”

  学术论文对她来说是解决问题的一条路。“所有问题都没有确切的回答,我只有把自己的想法敞开,与有相同疑问的人一起探讨,在这个过程中就能更接近真实。”李洵选择了专攻电子艺术学领域的黄鸣奋作为导师,以“将数据分析挖掘技术应用于中国古典文学研究和海外传播”作为研究方向,并走上了一条“孤独”的跨学科道路。

  黄老师曾对李洵说他退休后,也许就没有人带她研究了,因为这一方向后继无人。但这番话并没吓退李洵,她说:“‘大数据’这个词近两年非常热,我之前在机缘巧合下看了这方面的书,觉得应用前景很广,它并非别人认为的纯概念事物。现在我们想要做的研究是有可行性的,只是有没有人想去做而已。”

  然而研究路上的孤独还是超出了她的预想。文科生大多更注重精神性的追求,身边的朋友对她的项目都没兴趣,往往她一说完研究题目,别人就默默转移走了话题。曾有人问她:“为什么要做这个方向呢?好好的学术不做,你想去当程序员吗?”谁也没料到,后来李洵真的变成了一个会写程序的中文系女生。

  “我们人文的同学提供思路和要求,信科同学挖掘分析数据,再把数据反馈给我们,我们再来看分析数据结果的利用价值。”这是李洵在项目申报时设想的分工,然而数据分析的难度超乎想象,由于分析手段不成熟,很多程序都只能靠人工完成。“在用手段进行分析之前,我们还得人工找出分析点,再找范例,做样本给工具分析。”

  作为这个跨学科项目组的负责人,李洵必须统筹方向,带领队员们进行下一步操作。“项目做到一半的时候我觉得自己不得不去学点信科的知识。”这个学期,李洵特地选修了C++、数据库、软件技术基础课程。“从前不会有中文系的学生选这些课,班上突然出现一个中文系的学生,大家都很惊异,团队里信科的同学告诉我‘重在参与,随便听听就好’,连老师都觉得‘你是不是选错课?’”

  隔行如隔山,李洵只能在这个崭新的领域摸索前进在做数据库时他们选出六百多篇可用的文章,因为不知道能用什么计算机技术,只好一篇篇译名,一篇篇阅读。这些全英的学术文献有的有六七十页,面对奥难懂的词汇,她每个都要去查。“看到脊背都僵掉了,第二天看一眼电脑,还没坐下来就条件反射地开始觉得背痛”。但她也乐在其中。“我觉得自己天天都很忙又很闲,说‘闲’是因为我在研究想问的问题,也算是自得其乐吧。因为太偏向个人喜好了,所以就是闲得很忙。”

师长引航,朋辈携行

  李洵在大二下学期申报了这个项目,团队成员少,技术不成熟。尽管最后只需提交一篇论文,但他们同时在做三四个方向的同时研究。“不做就不会知道到能不能有结果,一个环节没按时完成,下一个环节就无从入手。”

  他们计划了材料查找和数据录入的时间,事实上录入用时短,找材料却耗费了他们极大的精力。“关键词的那个表格我们都做了一个多月,需要对数据库一个个进行摸索”。他们最后建立了数据库和查询系统,只要输入关键词,就可以模糊寻找相关文章,而且同一作家的其他作品也可同时列出。

发表评论

电子邮件地址不会被公开。 必填项已用*标注