集成學(xué)習(xí)
ensemble learning
定義:通過(guò)結(jié)合多個(gè)學(xué)習(xí)器來(lái)解決問(wèn)題的一種機(jī)器學(xué)習(xí)范式。其常見(jiàn)形式是利用一個(gè)基學(xué)習(xí)算法從訓(xùn)練集產(chǎn)生多個(gè)基學(xué)習(xí)器,然后通過(guò)投票等機(jī)制將基學(xué)習(xí)器進(jìn)行結(jié)合。代表性方法包括Boosting、Bagging等。
學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_人工智能_機(jī)器學(xué)習(xí)
相關(guān)名詞:機(jī)器學(xué)習(xí) 決策樹(shù) 圖像識(shí)別
圖片來(lái)源:視覺(jué)中國(guó)
【延伸閱讀】
集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)將多個(gè)基本的學(xué)習(xí)模型(也被稱為基學(xué)習(xí)器)組合成一個(gè)強(qiáng)大的學(xué)習(xí)系統(tǒng)來(lái)提高模型的性能。集成學(xué)習(xí)的基本思想可以概括為“多樣性和投票”,即通過(guò)構(gòu)建多個(gè)基學(xué)習(xí)器,并讓它們對(duì)輸入數(shù)據(jù)進(jìn)行獨(dú)立的預(yù)測(cè),然后通過(guò)某種方式將各個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果結(jié)合起來(lái),產(chǎn)生一個(gè)最終的預(yù)測(cè)結(jié)果。這樣做的好處是,各個(gè)基學(xué)習(xí)器可以各自在不同的特征子集或者在不同的模型空間進(jìn)行學(xué)習(xí),從而降低模型的泛化誤差。
集成學(xué)習(xí)的概念可以追溯到20世紀(jì)90年代初期,但真正引起人們關(guān)注是在2000年以后。根據(jù)個(gè)體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩大類:一類是個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法,如Boosting(自適應(yīng)提升);另一類是個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法,如Bagging(自助投票)和隨機(jī)森林。其中,Boosting是一族可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法,主要是通過(guò)對(duì)樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓(xùn)練生成一系列的基分類器;Bagging是一種基于數(shù)據(jù)隨機(jī)重抽樣的集成學(xué)習(xí)方法,它通過(guò)從原始數(shù)據(jù)集中有放回地抽取樣本來(lái)訓(xùn)練多個(gè)基分類器,并對(duì)所有基分類器的預(yù)測(cè)結(jié)果進(jìn)行平均或投票來(lái)產(chǎn)生最終的預(yù)測(cè)結(jié)果;隨機(jī)森林是Bagging的一個(gè)擴(kuò)展變體,它在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。
集成學(xué)習(xí)的應(yīng)用非常廣泛,例如圖像識(shí)別、文本分類、金融風(fēng)險(xiǎn)評(píng)估、生物信息提取、醫(yī)療診斷等。在圖像識(shí)別方面,可以用于目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù);在文本分類方面,可以用于情感分析、垃圾郵件過(guò)濾等任務(wù);在金融風(fēng)險(xiǎn)評(píng)估方面,可以用于信用評(píng)分、欺詐檢測(cè)等任務(wù);在生物信息學(xué)中,可從海量基因組數(shù)據(jù)中提取有用信息;在醫(yī)療診斷方面,可用來(lái)提高疾病診斷的準(zhǔn)確度。
(延伸閱讀作者:西華師范大學(xué)數(shù)學(xué)與信息學(xué)院 李斌斌博士)
責(zé)任編輯:張鵬輝