主题：【讨论】把数据变成知识

浏览0 回复3 电梯直达

蝴蝶飞飞

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2010/12/15 12:48:48 楼主管理分享倒序浏览只看楼主回复私聊

今天，数据像洪水一样泛滥。如何可视化、分析、摘录这浩如烟海的数据，成为许多学科都面临的问题，而且需要多学科的合作。
斯隆数字巡天(Sloan Digital Sky Survey)的数据迄今为止已经公布了6批，覆盖9583平方度的天区，包含127万多条光谱数据，2008年6月开始第二期巡天，科学产出相当可观。许多新天体都是第一次发现，经常需要根据SDSS名称查找原始观测照片。2.5米的巡天望远镜1998年开始使用，发表了2000多篇论文，但只用了10%的巡天图像数据。据说到2016年用上大型巡天望远镜（LSST）时，三个晚上就可以巡视整个天空，其数据量之大，可想而知。大型强子对撞机每天产生的数据量是SDSS的两倍。
这么多的数据，怎么能可视化，让科学家能进行分析和摘录，搜索和寻找？这是一个大问题。如果做不到这些，收集了再多的数据也没用。这当然首先要有高速度、高存储量的超级计算机，及相应的软件。但这还不够，现在有大课题专门搞海量数据处理。问题是我们应该研究通用的海量数据处理；还是应该由各学科研究专用的海量数据处理技术呢？范德比特大学Dan Masys教授说:理论上说,我们应该一起来研究海量数据处理。但是,实际情况是各专业的研究者已经取得了他们所需要的成果。因为各个专业有自己特定关心的问题。由底向上的分析可能达到某一个高度，而可以互相融合。生物医学家需要与计算生物学家合作。Masys说，范德比特的基础算法和橡树岭国家实验室的万亿次计算机的优化使几千人处理几百万基因数据从5天减少到3小时。可见交叉学科协作和前沿硬件的威力。
什么样的数据、什么样的数据存储和计算结构可以产生有益的科学结果呢？
CMU的Bryant教授认为，Google等公司在数据层面比任何大学和科研机构都做得更多。Google机群运行十亿字索引比BigIron大型机还要好。CMU的Tom Mitchell说：“大型数据集的使用可能带来意想不到的发现。我们可以建立一个计算模型，预言当你想某一个名词的时候，你脑子里的神经活动。”“它用一个由Google提供的万亿字文本集，去寻找该字出现的统计规律。例如，你输入“电话”，它会从动词表中去找，是否会常与“拥抱”，“吃”，等等动词连在一起。”
LSST项目计划接近实时地对专业天文学家、博物馆、高中学生及大学、民间科学家开放资源、开放数据。他们希望任何人只要有Web浏览器就可以有效地参与LSST太空探索。他们将与信息产业合作，提高从元数据到动态图像的可视化和查询LSST数据库的工具。
但是，即使是海量数据，也不一定能得到确定性的结果。在生物研究中最近发现即使是三十亿人类基因对的完全索引也没有在卫生保健方面有什么大的突破，因为还缺少关键性的医学数据。波士顿妇女医院用美国国家人类基因研究所收集的2005-2009年的研究，对19000女人的研究只发现心脏病最大的预言者是自报的家庭心脏病史。把这些私人信息和大范围遗传信息索引联系起来几乎是不可能的。因为美国80%大医院医生不用电子病历卡记录病人数据。在生物医学研究中的另一个问题是受过传统训练的科技人员不太愿意接受不带严格参数的数据集。例如流行病学家和制药公司提供的数据集就不包括严格的参数。
问题是：不管是一个什么样的数据集，你是否有一个科学问题和一个回答此问题的科学方法。计算科学需要抽取这些问题，并给更广大的受众提供数据。各行各业的人们已经注意到，社会越来越需要基于证据的决策。譬如说，大学公共政策学院的学生进入机器学习系，并且说：“我想在公共政策和机器学习方面做博士论文，因为我们觉得政策分析将越来越基于证据，而我们希望人们懂得如何分析和收集证据的算法，同时又懂得政策这一方面。所以，CMU打算招收这样的博士生。

恭喜您！提交成功

主题：【讨论】把数据变成知识