《大数据时代》

2024-10-17

02 更杂不是精确性，而是混杂性

从某种意义上，谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且，它也没有详细的人工纠错后的注解。但是，谷歌语料库是布朗语料库的好几百万倍大，这样的优势完全压倒了缺点。

2024-10-17 08:19:42

大数据并没有小数据精确，但大数据的简单算法比小数据的复杂算法要好。

2008年的经济危机表明，这个滞后是致命的。政策决策者为了更好地应对变化，需要及时了解通货膨胀率，但如果以传统的依赖采样和追求精确的方式进行数据收集，政府就不可能及时获得数据了。麻省理工学院(MIT)的两位经济学家，阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案，那就是接受更混乱的数据。通过一个软件在互联网上收集信息，他们每天可以收集到50万种商品的价格。收集到的数据很混乱，也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合，这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势，然而那些依赖官方数据的人直到11月份才知道这个情况。

2024-10-17 08:21:41

大数据可以很及时。

当我们上传照片到Flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

2024-10-17 08:20:40

“标签搜索”正是大数据的应用。

《大数据时代》

02 更杂 不是精确性，而是混杂性

02 更杂不是精确性，而是混杂性