吕梁信息港   >   科技  >  历史学家的新技艺:遥读作为史料的电子邮件

历史学家的新技艺:遥读作为史料的电子邮件

,

如前传所述,R代表了Chauvin的书信空间中的另外一个群体——外国人。他们之间用英文或者德语交流,虽然总数不到1000封,但仍然值得我们用技术手段来解析它们。这里的潜台词是,对于电脑而言,不论是中文还是西文,在算法的眼中都是字符,量化统计的方法让电脑摇身一变成为“精通”数国文字的语言达人。算法既然如此神奇,那我们想从更多元化的角度来剖析电邮数据集的状态。比如,尽管主题分门别类,但在整个数据集中的权重都一样吗?每一个邮件同主题的对应关系如何?

这些问题都可以用升级版的主题模型算法得到实现。我们用西文的邮件作为分析对象。

首先,不同主题在整个电邮数据集的权重可以用主题云的形式呈现出来。

主题云

基本上,与Chauvin有电邮往复的外国友人,都分别被拟合到不同的主题之下,而R是当之无愧的最佳笔友;另一个比较重要的国际友人是哈佛大学历史系的教授。比较有趣的是,ahediting与armstronghiton的存在,主要是由于两家论文翻译公司的广告邮件,算法把他们放置在同一个主题下,也算臭味相投。当然,这张主题云只显示了最关键的5个单词,是为了可视化的效果牺牲了主题内容的完整性。但我们依然可以把更多的主题词调动出来,甚至用语义网络的思路来剖析一下邮件的细节。当笔者和R在交换电邮的时候,我们在谈论什么呢?

语义网呈现

前传中提到过R是一位德国友人,通信内容也围绕着如何在南京开启职业生涯。从语义网分析的结果,我们看到了各种约定,特别是有关“保险”(Krankenversicherung)的讨论似乎彰显了德国人的独有特质。

作为历史学者,我们同样关注时间。电子邮件实际上也是生活经历的记录方式,如果Chauvin与通信伙伴就某个问题进行了持续性的邮件交换,那么主题在时间轴层面的演进就非常重要,这个过程能否被直观地展示出来?我们仍然以与哈佛大学教授的电邮为例:

本文标题:历史学家的新技艺:遥读作为史料的电子邮件 - 科技
本文地址:www.llxxg.com.cn/keji/189.html

今日热点

小编精选

热门推荐

联系我们|www.llxxg.com.cn All Right Reserve 版权所有