天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
阅读:957回复:7

[前沿论文]数据迷、实况迷的福利:Graphical Model(图模型)在气候研究中的应用

楼主#
更多 发布于:2016-05-05 16:54
相信不少实况迷和数据迷也和我一样,比较关注不同气象要素不同类型的各种组合形式,希望探讨其中规律性的模式或者不同气象要素间的关系结构。机器学习领域中的Graphical Model(图模型)其实是研究气象要素组合的一个很好的工具。下面介绍一篇有关这一方面研究的文献:Learning Spatial-Temporal Varying Graphs with Applications to
Climate Data Analysis

Learning_Spatial-Temporal_Varying_Graphs_With_Applications_To_Climate_Data_Analy
https://www.cs.cmu.edu/~jgc/publication/PublicationPDF/Learning_Spatial-Temporal_Varying_Graphs_With_Applications_To_Climate_Data_Analysis.pdf

这篇paper2010年发在AAAI(美国人工智能协会)的Conference on Artificial Intelligence的,不算什么前沿了,现在又过去了5年,Graphical Model这一领域又有很多新的进展。不过近年来这一方面比较好的研究并不多,这一篇也属于我所见过印象最深刻的文献之一了,尽管从现在来看里面所用的各种方法并没有什么新意,而且从后面的实验可以看出作者对气象方面似乎并不是很熟悉。
[天一色于2016-05-08 14:30编辑了帖子]
附件名称/大小 下载次数 最后更新
Learning_Spatial-Temporal_Varying_Graphs_With_Applications_To_Climate_Data_Analy (410KB)  5 2016-05-08 14:30
2条评分, 金钱 +10 威望 +10
  • fxhopexi
    威望 10
    高端
    2016-05-08 17:09
  • fxhopexi
    金钱 10
    高端
    2016-05-08 17:09
喜欢0 评分2
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
1楼#
发布于:2016-05-05 16:54
可能大多数气象迷对图模型并不太了解,这里可以先简单介绍一下。

图论中,G=(V,E),即Graph(图)由vertices(点)的集合和edges(边)的集合组成,每两点之间至多有一条边相连。如果每两个点之间都有边相连,这个图就是complete graph(完全图)。此外,一个图的subgraph(子图)对应的点集和边集都是原来的子集且满足图的条件。

图模型(Graphical Model又称Markov Random Fields)中,每个点代表一个随机变量:如果两点之间不相连,表示两个随机变量是条件独立的(给定其他所有随机变量);如果两点之间有边相连,这条边则被赋值(potential)来代表两个随机变量之间条件相关性的强弱。按照图模型中的edge是否有方向可以分为Undirected Graphical ModelDirected Graphical Model;按照图模型中随机变量被视为连续变量或者离散变量也可以分为两类。

本文中,每一个气象要素看作一个随机变量,即一个vertex。这样的气象要素既可以指气温、降水量、风速、700百帕纬向风等地面、高空的气象指标,也可以指PM2.5PM10、臭氧浓度等大气污染指标,也可以指PDOSIODPNA等气候指标。这里所用的是Undirected Graphical Model,且这些随机变量被视为连续的。
[天一色于2016-05-05 17:04编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
2楼#
发布于:2016-05-05 16:54
构建图模型的过程中,我们要解决的问题是:如何利用已知的数据样本(即N组数据,其中每组数据涉及p个气象要素),估计出p个气象要素之间(条件)相关性的结构,以及相关性的强弱,即“学习”到图中哪些点之间有边相连,以及每条边对应的potential

图模型中,如果假定所有随机变量都服从正态分布,那么就属于Gaussian Graphical Model,这属于目前研究比较成熟的一个领域。学过概率论的气象迷应该知道,正态分布有一个很好的性质:如果几个随机变量服从联合正态分布,其中两个随机变量之间互相独立当且仅当联合正态分布的covariance matrix(协方差矩阵)对应的项为零。同时,联合正态分布对应的所有条件分布也是正态分布,我们可以推导出两个随机变量之间互相条件独立(给定其他所有随机变量)当且仅当联合正态分布的precision matrix(协方差矩阵的逆)对应的项为零,且每条边对应的potential也可以用precision matrix里的一些项来建立。所以,“学习”图模型的核心是如何估计出precision matrix

有人可能会说用MLE(最大似然估计)不就行了吗?但问题是,用实际数据通过MLE估计出的图一般情况都是完全图,即给定其他变量,每两个随机变量之间都有联系(因为数据量有限,不能抵消随机因素的干扰,即便两个变量之间确实独立,直接估计出的或多或少也会不独立),这样的结果实际中应用价值有限。比如构建投资组合,得到的结果每天都要对市场上所有股票进行交易肯定不现实,这里气象要素那么多,我们一般只想考察其中哪一部分气象要素之间可能真正有相关性。也就是说,我们更希望得到一个简单的图,即edge较少,更具有代表性的图,或者说sparsity很重要。
[天一色于2016-05-05 17:05编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
3楼#
发布于:2016-05-05 16:55
其实研究Gaussian Graphical Model的文献大部分都是围绕着如何估计precision matrix得到sparse solution来的。经过这几年的发展,这一方面研究已经比较成熟,进一步提升空间不大(南加州大学范莹莹刚发的paper里得到的结果最好)。估计precision matrix最常见的方法之一是GLASSO(即Graphical Lasso),也是文中所用方法。

之前煮酒版块FX所发讨论气象数据可得性帖子新闻里提到过Lasso,它很重要的特点就是得到sparse solution。比如用OLS(最小二乘法)做线性回归,最小化的目标函数是MSE(均方误差),最终估计出代表因变量和所有自变量间关系的系数。如果用Lasso回归,最小化的目标函数是MSE再加上一个penalization(罚函数),最简单的版本是一个可调控的参数(tuning parameter)乘以所有自变量对应回归系数的一阶范数(绝对值的和)。这样tuning parameter设得越小,估计出的非零系数越多,越接近一般OLS结果;tuning parameter设得越大,估计出的非零系数越少。

Lasso所做的convex optimization(凸优化)问题,一般情况下得不到解析解,统计软件中的方法一般多基于coordinate descent通过迭代得到数值解。同时可以通过cross-validation来选择tuning parameter。这些和本文关系不大,不再讨论。

由于MLE是求似然函数的最大值,即负似然函数的最小值,所以将负似然函数加上类似的penalization即为GLASSO的目标函数。这里penalization的对象可以是precision matrix中所有元素绝对值的和(或者不含对角线元素的绝对值和)。比较复杂的是,这里面要估计的是矩阵,属于matrix completion的问题,因为作为precision matrix还需要其他限制条件,GLASSO也有专门的迭代方法,这里不再讨论。
[天一色于2016-05-05 17:06编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
4楼#
发布于:2016-05-05 16:55
然而,气象数据直接使用Gaussian Graphical Model是大有问题的。气象数据的一些特殊性貌似杯子还是无穷小以前在气象群讨论过。首先,气象数据很多并不服从正态分布,所以Gaussian Graphical Model里假设所有随机变量服从正态分布有问题。其次,气象要素的分布随着时间和地点变化,或者说,不同时间或不同地点的气象要素分布是不同的,但总体上说时间、地点越接近,分布的差异越小。

Gaussian Graphical Model里正态分布假设拿掉以后如何“学习”,这方面的研究相对不成熟。最近几年有很多有关Elliptical Graphical Model的研究,即假设随机变量服从一个更加general的分布来做,当然因为正态分布很多良好性质都没了,问题也就复杂得多。本文里采取的是nonparametric(非参数)方法,没有假设随机变量具体服从什么形式的分布。

本文的方法其实就是做了一个变换,非正态分布的数据经过变换后服从正态分布,同时大小排列次序不变,且均值、方差也不变。这一点也不再具体讨论,而且我处也并不觉得这是个什么好方法。里面的QQ plot可以用来检验一组数据是否服从某个分布,图中数据点的排列越接近对角线,就越接近目标的分布。
[天一色于2016-05-05 17:08编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
5楼#
发布于:2016-05-05 16:55
气象数据的特殊性还在于它属于时空数据(spatio-temporal data),而以Singular Value Decomposition(奇异值分解)为基础的spatio-temporal analysis是对这一类数据作统计分析的一种传统方法。不过本文并没有涉及这样的分析,而是使用了Kernel Weighted Covariance Matrix这种局部方法。

对于不同时间或地点的气象要素分布不同这一问题,我们假设同一地点在一段时间或一类时间点的气象要素服从相同的联合分布,而其他地点或其他时间的气象要素分布则与之不同。这样如果所有样本来自S个站点和T个时间段或时间点类别,那么就涉及到ST个不同的graph需要分别“学习”。

如果不使用kernel,每个graph只使用对应地点和时间的样本来“学习”即可。但这样没有考虑这些数据在时间和空间上的相关性,即相近的时间或地点其气象要素服从的分布也是相似的。换句话说,在“学习”一个graph时,其对应时间地点周围其他样本的“贡献”也应当考虑,虽然参考价值不及对应时间地点的样本。

那么,在学习一个graph时,所用的不仅包括对应时间、地点的数据,还包括周围其他时间、地点的数据,但会将它们给予不同的权重:距离对应时间、地点越近,权重越大,反之亦然,最后用加权的样本来估计参数。这样的权重可以用kernel function来构造,例如基于正态分布密度函数的RBF kernel和多项式形式的polynomial kernel等。文中使用了RBF kernel构造了和为1的权重,先用每个graph对应的时间地点数据估计出precision matrix,再将它们加权平均得到每个graph对应的precision matrix
[天一色于2016-05-05 17:09编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
6楼#
发布于:2016-05-05 16:56
论文最后使用美国125个站点19992002年逐月18种气象和空气指标的数据进行实验。

实际上,在此之前还进行了一次模拟检验:按照给定的precision matrix和其他分布指标随机生成时空数据,然后分别采取文中所建议的使用kernel、无正态分布假设的方法,以及不使用kernel、无正态分布假设,使用kernel、假设正态分布,不使用kernel、假设正态分布三种方法,根据估计出的precision matrix和给定真实precision matrix的差异来比较四种方法的优劣——最后结果使用kernel、无正态分布假设的方法最优。

在对真实气象数据进行实验时,作者把所有时间点按照4个季度分成了4类,假设同一站点同一季度的气象要素服从相同的分布,采取使用kernel、无正态分布假设的方法对气象要素间的关系结构进行估计。参数的选取方法也在文中说明,更多采用的是rule of thumb即经验法则。对下图最左上角graph可以解读为地点为北纬30.475度,西经114.75度,时间为第一季度时,给定其他气象要素,GLO(太阳总辐射)与DIR(直接太阳辐射)相关,DIRDTR(气温日较差)相关,DIRUV相关,CO2CH4相关,CO2H2相关,CH4H2相关,WET(雨日)与DTR相关,CLD(云量)与DTR相关,WETPRE(降水量)相关。


图片:1.png



上图每一行四个图相比较可以看出,四个季度之间时间上越相近(第四季度与第一季度相邻),估计出的关系网络越接近。三行的图代表三个地点,其中第一行和第二行对应的地点较近,而第三行对应的地点距离前两行很远,前两行估计出的关系网络较为接近,与第三行差异较大。下图反映了GLASSO里不同tuning parameter下,估计出的graph中,与CO2相联系的气象要素,可以看出随着系数的减小,与CO2相关的气象要素逐渐增加,其中先出现的CH4联系最为紧密,其次是H2,再次是DIR,这一点是与环境科学理论相符的。

图片:2.png

[天一色于2016-05-05 17:13编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
天一色
超强台风
超强台风
  • 注册日期2012-01-12
  • 最后登录2017-05-23
  • 粉丝178
  • 关注51
  • 发帖数14475
  • 来自
7楼#
发布于:2016-05-05 16:56
对这篇paper所涉及的问题就介绍到这里,文中所涉及的很多大家可能比较陌生的概念和方法都尽可能进行了解释和延伸,估计会被喷,欢迎大家参与讨论
[天一色于2016-05-05 17:11编辑了帖子]
梦想是开在悬崖上的花 //梦回1961-1990:洛阳9站平均春141.6,夏322.0,秋187.7,冬34.1,年685.4,偃师524.0~栾川851.2
回复(0) 喜欢(0)     评分
游客

返回顶部