10月8日晚,上海交通大學數學科學學院副教授、碩士研究生導師林建忠應母校邀請在圖書館小報告廳作了主題為“大數據分析的原理與應用——稀疏線性模型的變量選擇與特征提取”的學術報告暨數統學院博力學術論壇第二場學術報告會。報告會由黨委副書記涂道勇主持,部分本科生及研究生,共135人參加。
報告會上,林建忠首先從生物醫學、經濟和金融等方面介紹了大數據的背景,用一些例子說明了大數據下自變量的多樣性,從而介紹了嶺回歸、Lasso和彈性網等方法來解決稀疏變量的選取問題,并依次介紹了這三種方法的理論思路及實踐應用:嶺回歸對線性模型的系數加了一個L2范式約束,通過偏置-方差的平衡方法來達到更好的預測性能;Lasso對系數加了一個L1范式的約束,使部分系數取0,能自動進行特征選擇;彈性網是結合了嶺回歸和Lasso的正則化方法,彈性網可以自動進行特征篩選,能夠約束模型系數,并且能同時選擇關聯的預測變量。
林建忠由表及里、由淺入深的講解,激起了同學們對大數據的興趣,擴展了大家對大數據處理方式的視野。最后,報告在熱烈的掌聲中結束。(文\周姬)