感谢
北京大学公共卫生学院生物统计系系列学术讲座
大数据统计学习理论与分布式计算及其应用
演讲者:周勇 教授


在大数据的研究中,往往研究的数据量极大,我们并不需要使用其全部数据。但问题是我们应当使用哪些数据作为研究对象呢?

可以采用从数据中提取有用信息的子抽样方法(Subsampling Method),与随机森林思想相似。

当数据容量极大时,数据类型和来源的多样性必然导致数据异方差性的出现,因此需要考虑最优加权或杠杆子抽样方法,提取代表性的样本,通过子抽样方法从整体中抽出部分数据进行建模及计算。这种做法可以有效降低数据容量,从而降低数据分析的计算成本,提高分析的时效性和计算的有效性。

在风险度量和风险管理,分位数回归Expectile回归具有作为重要的应用。因此,将在此两模型下对大数据进行分析。我们提出了几类最优杠杆子抽样方法,给出最优权重,获得参数的估计并给出与全体数据获得的估计一样好的理论结果。同时,杠杆子抽样方法对异方差数据具有稳健性。