四虎国产精品永久地址998_chinesexxx少妇露脸_日本丁香久久综合国产精品_一区二区久久久久_四虎av影视_久久久久国产一区二区三区不卡

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁(yè) > IT資訊 > 精選文章 > 處理小數(shù)據(jù)集的7種有效方法

處理小數(shù)據(jù)集的7種有效方法

2020-09-08 18:10:05 | 來(lái)源:中培企業(yè)IT培訓(xùn)網(wǎng)

大數(shù)據(jù)和數(shù)據(jù)科學(xué)是經(jīng)常一起聽(tīng)到的概念。人們相信,如今有大量數(shù)據(jù),并且數(shù)據(jù)科學(xué)可以從,所有這些TB的信息中獲得有價(jià)值的信息。但是,在實(shí)際情況下,解決問(wèn)題的數(shù)據(jù)通常很少。收集大數(shù)據(jù)集可能會(huì)非常昂貴或根本不可能。結(jié)果,通常別無(wú)選擇,只能使用一個(gè)小的數(shù)據(jù)集,試圖獲得盡可能準(zhǔn)確的預(yù)測(cè)。在本文中,我們將簡(jiǎn)要介紹使用小型數(shù)據(jù)集時(shí)出現(xiàn)的問(wèn)題。然后,我們將討論克服這些問(wèn)題的最有效技術(shù)。

  偏差權(quán)衡

簡(jiǎn)而言之,當(dāng)您尋找一個(gè)完美的模型來(lái)解釋您的數(shù)據(jù)時(shí),您正在平衡偏差和方差。

偏差是模型預(yù)測(cè)值與真實(shí)值之間的差。具有高偏差的模型過(guò)分簡(jiǎn)化了預(yù)測(cè)變量和目標(biāo)變量之間的關(guān)系,并在訓(xùn)練和測(cè)試數(shù)據(jù)上顯示出很高的誤差。

方差反映了模型預(yù)測(cè)的可變性。具有高方差的模型過(guò)于關(guān)注訓(xùn)練數(shù)據(jù),而不能很好地推廣到測(cè)試數(shù)據(jù)集。結(jié)果,這些模型在訓(xùn)練集上顯示出非常低的誤差,而在測(cè)試集上顯示出非常高的誤差。

具有低偏差和高方差的模型會(huì)擬合數(shù)據(jù),而具有高偏差和低方差的模型則擬合數(shù)據(jù)。

在小型數(shù)據(jù)集上訓(xùn)練的模型更有可能看到不存在的模式,這會(huì)導(dǎo)致測(cè)試集的高方差和極高的誤差。這些是過(guò)度擬合的常見(jiàn)跡象。因此,使用小型數(shù)據(jù)集時(shí),您的主要目標(biāo)是避免過(guò)度擬合。你怎么做到這一點(diǎn)?

  處理小數(shù)據(jù)集的7種有效方法

現(xiàn)在,我們將討論在使用小型數(shù)據(jù)集時(shí)避免過(guò)擬合的七種最有用的技術(shù)。

  1. 選擇簡(jiǎn)單的模型。具有許多參數(shù)的復(fù)雜模型更容易過(guò)度擬合:

· 如果您正在訓(xùn)練分類器,請(qǐng)考慮從邏輯回歸開(kāi)始。

· 如果要訓(xùn)練模型以預(yù)測(cè)某個(gè)值,請(qǐng)考慮權(quán)重?cái)?shù)量有限的簡(jiǎn)單線性模型。

· 對(duì)于基于樹(shù)的模型,請(qǐng)限制最大深度。

· 使用正則化技術(shù)可以使模型更加保守。

對(duì)于稀缺的數(shù)據(jù),您的目標(biāo)是限制模型查看不存在的模式和關(guān)系的能力。這意味著您要限制權(quán)重和參數(shù)的數(shù)量,并排除所有暗示非線性或特征相互作用的模型。還要注意,根據(jù)研究,某些分類器可能更適合處理小型數(shù)據(jù)集。

  2. 從數(shù)據(jù)中刪除異常值。當(dāng)使用小型數(shù)據(jù)集時(shí),離群值會(huì)對(duì)模型產(chǎn)生巨大影響。因此,在處理稀缺數(shù)據(jù)時(shí),您需要識(shí)別并刪除異常值。另一種方法是使用對(duì)異常值具有魯棒性的技術(shù)。消除異常值的影響對(duì)于使用小數(shù)據(jù)集獲得明智的模型至關(guān)重要。

  3. 選擇相關(guān)功能。通常,顯式特征選擇不是最佳方法,但是當(dāng)數(shù)據(jù)有限時(shí),這可能是必不可少的步驟。 很難避免因少量觀察值和大量預(yù)測(cè)變量而過(guò)度擬合。特征選擇有幾種方法,包括與目標(biāo)變量的相關(guān)性分析,重要性分析和遞歸消除。還值得注意的是,功能選擇將始終受益于領(lǐng)域?qū)I(yè)知識(shí)。因此,如果您不熟悉主題領(lǐng)域,請(qǐng)找一位領(lǐng)域?qū)<襾?lái)討論特征選擇的過(guò)程。

  4. 合并幾個(gè)模型。當(dāng)您組合來(lái)自多個(gè)模型的結(jié)果時(shí),您可能會(huì)獲得更準(zhǔn)確的預(yù)測(cè)。例如,與來(lái)自各個(gè)模型的預(yù)測(cè)相比,作為來(lái)自各個(gè)模型的預(yù)測(cè)的加權(quán)平均值計(jì)算的最終預(yù)測(cè)將具有更低的方差和更高的通用性。此外,您可以使用不同的超參數(shù)值組合來(lái)自不同模型或來(lái)自同一模型的預(yù)測(cè)。

  5. 依靠置信區(qū)間而不是點(diǎn)估計(jì)。除了預(yù)測(cè)本身之外,估計(jì)預(yù)測(cè)的置信區(qū)間通常也是個(gè)好主意。當(dāng)您使用小型數(shù)據(jù)集時(shí),這一點(diǎn)尤其重要。因此,在回歸分析中,請(qǐng)確保估計(jì)95%的置信區(qū)間。如果要解決分類問(wèn)題,請(qǐng)計(jì)算班級(jí)預(yù)測(cè)的概率。如果您更好地了解了模型對(duì)預(yù)測(cè)的“信心”,則根據(jù)模型的結(jié)果得出錯(cuò)誤結(jié)論的可能性就較小。

  6. 擴(kuò)展數(shù)據(jù)集。當(dāng)數(shù)據(jù)真正稀缺或數(shù)據(jù)集嚴(yán)重失衡時(shí),請(qǐng)尋找擴(kuò)展數(shù)據(jù)集的方法。例如,您可以:

· 使用合成樣品。這是解決數(shù)據(jù)集中某些類的代表性不足的常用方法。有幾種 方法,以增強(qiáng)與合成樣品的數(shù)據(jù)集。選擇最適合您的特定任務(wù)的一種。

· 合并來(lái)自其他可能來(lái)源的數(shù)據(jù)。例如,如果要在特定區(qū)域中對(duì)溫度建模,則也要使用其他區(qū)域的天氣信息,但要對(duì)感興趣區(qū)域的數(shù)據(jù)點(diǎn)分配更高的權(quán)重。

  7. 盡可能進(jìn)行轉(zhuǎn)移學(xué)習(xí)。這種方法也是數(shù)據(jù)擴(kuò)展的一種。轉(zhuǎn)移學(xué)習(xí)意味著在可用的大型數(shù)據(jù)集上訓(xùn)練通用模型,然后在小型數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。例如,如果您要處理圖像分類問(wèn)題,則可以使用在龐大的圖像數(shù)據(jù)集ImageNet上預(yù)先訓(xùn)練的模型,然后針對(duì)特定問(wèn)題對(duì)其進(jìn)行微調(diào)。與使用有限數(shù)據(jù)從頭開(kāi)始訓(xùn)練的模型相比,預(yù)訓(xùn)練的模型更有可能產(chǎn)生準(zhǔn)確的預(yù)測(cè)。遷移學(xué)習(xí)與靈活的深度學(xué)習(xí)技術(shù)特別有效。

  小數(shù)據(jù)只是您可以克服的另一個(gè)挑戰(zhàn)

許多研究人員和實(shí)踐者認(rèn)為,小數(shù)據(jù)是數(shù)據(jù)科學(xué)的未來(lái)。對(duì)于每種問(wèn)題都擁有龐大的數(shù)據(jù)集是不可行的。請(qǐng)遵循以下準(zhǔn)則來(lái)克服小型數(shù)據(jù)集的挑戰(zhàn):

· 了解統(tǒng)計(jì)信息的基礎(chǔ)知識(shí),以了解處理少量觀測(cè)值時(shí)可能遇到的問(wèn)題。

· 了解避免過(guò)度擬合的關(guān)鍵策略,并從小數(shù)據(jù)中獲得準(zhǔn)確的結(jié)果。

· 有效地執(zhí)行所有數(shù)據(jù)清理和數(shù)據(jù)分析步驟。

· 從模型預(yù)測(cè)中得出結(jié)論時(shí),請(qǐng)注意模型的局限性。

上述就是關(guān)于處理小數(shù)據(jù)集的7種有效方法的全部?jī)?nèi)容,想了解更多關(guān)于處理數(shù)據(jù)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。

主站蜘蛛池模板: 江安县| 丰镇市| 巴彦县| 黄陵县| 沅陵县| 凤阳县| 龙里县| 尼玛县| 买车| 四会市| 砚山县| 三门县| 海口市| 湖口县| 麻栗坡县| 安阳市| 若尔盖县| 康乐县| 准格尔旗| 休宁县| 临沂市| 集贤县| 新化县| 普定县| 阿鲁科尔沁旗| 富蕴县| 双峰县| 保亭| 广昌县| 钟山县| 斗六市| 丹凤县| 嘉定区| 廉江市| 渭源县| 沾益县| 林州市| 延长县| 岳池县| 宁武县| 衡南县|