吕梁信息港   >   科技  >  历史学家的新技艺:遥读作为史料的电子邮件

历史学家的新技艺:遥读作为史料的电子邮件

,

每一行都可以被理解成一个主题,其格式分别代表主题编号、在数据集中的比率以及词群。词群不是简单的高频词叠加,虽然不免也有一些不相干的词乱入,但总体来看聚集起来的还是能够讲故事的相关联实体。看到不同的词群,许多往事立马就涌上心头。比如主题7,看到了北大历史系许多熟悉的名字,反映了笔者在北大读书期间的生活经历。关键词表明了大部分内容都跟学生工作相关,没错,“发件王”H就名列其中。在南海研究中心担任秘书的经历,体现在了主题6之中。曾经做辅导员的经历也被挖掘出来了,“辅导员”就是要跟不同学生打交道,与学生们的互动也就相当频繁,主题10还有诸如“申请表”等关键词,透露着学生工作的事务性。

主题模型精准提取主题的能力有时候令人惊讶。主题2分明是一个学生在国外(加拿大)发来的问候;而主题29则是笔者开设的《基督教文明史》、《德意志精神与文化》等课程,与学生们的课程交流。这两个主题在邮件集中属于小众内容,居然也被算法提取出来了。

文本聚类的算法为我们深入理解庞杂的电邮数据集提供了一种指引。有效信息当然不止步于每个主题的10个关键词。实际上,算法还提供了更加丰富的细节,不过它们往往以数据矩阵的方式存在,让我们历史学者一看就感觉头大。比如,它们可能是这样的:

或者是这样的:

我们需要换一种更加直观的方式来观察数据的细节。实际上,这些数据能够更清晰地描绘Chauvin用电子邮件编织起来的“书信空间”,并且彰显其独有的属性。比如,那位“发件王”H,TA究竟在发什么?屈尊第二的G,又有哪些不同?WH2与WH12在跟Chauvin交流什么?R用德语跟Chauvin在讨论什么问题?

每个主题用10个词来表达,是笔者的人为设定。实情是,算法给出了远远多于10个关键词的主题矩阵,而且每个词具有不同的权重。我们可以效法文字云,做出主题的词云来,每个主题的细节更加丰富了。于是,仍然以主题7为例,我们看到了诸如“报告会”、“研究生院”、“组织部”等词,北京大学的生活经历就变得愈加立体了。我们也看到广告邮件的顽强存在感,主题33表明Chauvin是“当当网”的忠实客户,但他不过是在他们家买了一些书,却被推送了许多不相关的商品。主题13则显示Chauvin是12306在线购买火车票的重度依赖者。

主题词云

本文标题:历史学家的新技艺:遥读作为史料的电子邮件 - 科技
本文地址:www.llxxg.com.cn/keji/189.html

今日热点

小编精选

热门推荐

联系我们|www.llxxg.com.cn All Right Reserve 版权所有