四虎国产精品永久地址998_chinesexxx少妇露脸_日本丁香久久综合国产精品_一区二区久久久久_四虎av影视_久久久久国产一区二区三区不卡

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 軟件研發(fā) > 訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性

訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性

2018-08-16 09:51:03 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

需注意的是,訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過程引入額外的偏差而對最終結(jié)果產(chǎn)生影響,例如在分類任務(wù)中至少要保持樣本的類別比例相似.如果從采樣(sampling)的角度來看待數(shù)據(jù)集的劃分過程,則保留類別比例的采樣方式通常稱為“分層采樣”(stratifiedsampling).例如通過對D進(jìn)行分層采樣而獲得含70070樣本的訓(xùn)練集S和含30070樣本的測試集T,若D包含500個正例、500個反例,則分層采樣得到的S應(yīng)包含350個正例、350個反例,而T則包含150個正例和150個反例;若S、T中樣本類別比例差別很大,則誤差估計將由于訓(xùn)練/測試數(shù)據(jù)分布的差異而產(chǎn)生偏差,另一個需注意的問題是,即便在給定訓(xùn)練/測試集的樣本比例后,仍存在多種劃分方式對初始數(shù)據(jù)集D進(jìn)行分割.

標(biāo)簽: 測試集

相關(guān)閱讀

主站蜘蛛池模板: 拜泉县| 灵山县| 平果县| 图们市| 新昌县| 江都市| 简阳市| 霸州市| 吴忠市| 自治县| 武义县| 江华| 阿克苏市| 来凤县| 开化县| 孟津县| 理塘县| 大港区| 鄄城县| 铜梁县| 麟游县| 咸阳市| 耒阳市| 板桥市| 大宁县| 麻栗坡县| 拉萨市| 昌图县| 湘乡市| 定西市| 鄄城县| 瑞丽市| 乌兰浩特市| 夹江县| 顺义区| 镶黄旗| 乳源| 揭东县| 常德市| 农安县| 万山特区|