吕梁信息港   >   科技  >  历史学家的新技艺:遥读作为史料的电子邮件

历史学家的新技艺:遥读作为史料的电子邮件

,

词频统计

我们确实能够读到细微的差别。左图高频词“回复”的存在,一眼就让人看出了电邮标题的特质;而右图中的“老师”,应该是邮件开头的称谓。标题的词频在一定程度上说明了大致的内容,比如跟会议通知、信用卡、网上购物等相关;内容词频所涉及的词汇反而过于宽泛,无法重建有效信息。当然,即便是左图的词频也不能透露邮件内容的更多细节。

由此观之,词频统计固然有其价值,但这种方法挖掘出来的信息极其有限。如果想了解电邮数据集讨论了哪些主题,主题有没有时间轴层面的变化等,还需要用其他的方式来解决。我们想到了主题模型的算法,它绝对是投机取巧、了解文献大略的“懒人”方法。

主题模型的基本原理还是基于词频统计,因为不论是说话还是写文章,我们为了说明某个主题,一定会频繁调用跟这个主题密切相关的词汇。主题模型的算法比初级统计高明的地方在于,它能够精准将相关词汇聚合起来,让导出的高频词看上去能够讲诉一个内涵故事。

这个工具的好处是不需要研究者深度参与。换句话说,笔者可以无脑地将电邮数据集丢给算法,它就能够兢兢业业地吐出一些词群出来。接下来只需要浏览数十个关键词,就能够大致推算整幅数据集的“大观”了。听上去是不是很美好?

当然,理想很丰满,现实太骨感。主题模型的算法虽然是无监督的学习,但它并不智能,尤其需要我们对数据集文本提前进行预处理:它只“读得懂”某种结构化的数据,而对一个历史学者而言,要把毫无章法的电邮数据集进行结构化整理,是令人吐血的工作。不过,数据清洗的各种准备,是懂数据分析的历史学者必然要经历的涅槃之路,因为只有这样,柳暗花明的豁然贯通之感才格外真切。

我们略去一把辛酸泪的数据清洗过程,直接跳到结局吧。十年的电邮数据集,在主题模型的眼中,可以简至只需用300字来表达。最初,300万字被精简成下面的样子(部分结果;为了保护隐私,将结果中出现的人名隐去):

本文标题:历史学家的新技艺:遥读作为史料的电子邮件 - 科技
本文地址:www.llxxg.com.cn/keji/189.html

今日热点

小编精选

热门推荐

联系我们|www.llxxg.com.cn All Right Reserve 版权所有