历史学家的新技艺：遥读作为史料的电子邮件

2018-03-25 22:07:50 澎湃新闻网

词频统计

我们确实能够读到细微的差别。左图高频词“回复”的存在，一眼就让人看出了电邮标题的特质；而右图中的“老师”，应该是邮件开头的称谓。标题的词频在一定程度上说明了大致的内容，比如跟会议通知、信用卡、网上购物等相关；内容词频所涉及的词汇反而过于宽泛，无法重建有效信息。当然，即便是左图的词频也不能透露邮件内容的更多细节。

由此观之，词频统计固然有其价值，但这种方法挖掘出来的信息极其有限。如果想了解电邮数据集讨论了哪些主题，主题有没有时间轴层面的变化等，还需要用其他的方式来解决。我们想到了主题模型的算法，它绝对是投机取巧、了解文献大略的“懒人”方法。

主题模型的基本原理还是基于词频统计，因为不论是说话还是写文章，我们为了说明某个主题，一定会频繁调用跟这个主题密切相关的词汇。主题模型的算法比初级统计高明的地方在于，它能够精准将相关词汇聚合起来，让导出的高频词看上去能够讲诉一个内涵故事。

这个工具的好处是不需要研究者深度参与。换句话说，笔者可以无脑地将电邮数据集丢给算法，它就能够兢兢业业地吐出一些词群出来。接下来只需要浏览数十个关键词，就能够大致推算整幅数据集的“大观”了。听上去是不是很美好？

当然，理想很丰满，现实太骨感。主题模型的算法虽然是无监督的学习，但它并不智能，尤其需要我们对数据集文本提前进行预处理：它只“读得懂”某种结构化的数据，而对一个历史学者而言，要把毫无章法的电邮数据集进行结构化整理，是令人吐血的工作。不过，数据清洗的各种准备，是懂数据分析的历史学者必然要经历的涅槃之路，因为只有这样，柳暗花明的豁然贯通之感才格外真切。

我们略去一把辛酸泪的数据清洗过程，直接跳到结局吧。十年的电邮数据集，在主题模型的眼中，可以简至只需用300字来表达。最初，300万字被精简成下面的样子（部分结果；为了保护隐私，将结果中出现的人名隐去）：

本文标题：历史学家的新技艺：遥读作为史料的电子邮件 - 科技
本文地址：www.llxxg.com.cn/keji/189.html

标签