四虎国产精品永久地址998_chinesexxx少妇露脸_日本丁香久久综合国产精品_一区二区久久久久_四虎av影视_久久久久国产一区二区三区不卡

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁(yè) > IT資訊 > 國(guó)際認(rèn)證 > 談?wù)勱P(guān)于數(shù)據(jù)治理中大數(shù)據(jù)采集的常見(jiàn)問(wèn)題

談?wù)勱P(guān)于數(shù)據(jù)治理中大數(shù)據(jù)采集的常見(jiàn)問(wèn)題

2022-12-27 09:14:56 | 來(lái)源:企業(yè)IT培訓(xùn)

什么是數(shù)據(jù)采集:
數(shù)據(jù)采集是大數(shù)據(jù)的基石,不論是現(xiàn)在的互聯(lián)網(wǎng)公司,物聯(lián)網(wǎng)公司或者傳統(tǒng)的IT公司,每個(gè)業(yè)務(wù)流程環(huán)節(jié)都會(huì)產(chǎn)生大量的數(shù)據(jù),同時(shí)用戶(hù)操作的日志也會(huì)產(chǎn)生大量的數(shù)據(jù),為了將這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集,我們必須要有一套完整的數(shù)據(jù)采集方案流程,為后續(xù)的數(shù)據(jù)分析應(yīng)用提供數(shù)據(jù)基礎(chǔ)。
根據(jù)不同業(yè)務(wù)場(chǎng)景,對(duì)于數(shù)據(jù)采集的時(shí)效性要求也是不一樣的,一般分為離線數(shù)據(jù)采集和實(shí)時(shí)數(shù)據(jù)采集。
離線數(shù)據(jù)采集:
離線數(shù)據(jù)采集主要包括從數(shù)據(jù)庫(kù)中采集,如MySQL、Oracle、MongoDB等;從離線文件采集,如外部系統(tǒng)數(shù)據(jù)。每天凌晨會(huì)抽取前一天的數(shù)據(jù)(T+1),對(duì)于維度數(shù)據(jù)一般采用每次全量采集,對(duì)于業(yè)務(wù)數(shù)據(jù),為了提高采集效率,同時(shí)也為了保住業(yè)務(wù)數(shù)據(jù)庫(kù)的穩(wěn)定性,采用每天增量采集,然后將T+1的數(shù)據(jù)合并成新的全量數(shù)據(jù)。
對(duì)于關(guān)系型數(shù)據(jù)庫(kù),如MySQL,一般是有主從數(shù)據(jù)庫(kù)的,為了保住穩(wěn)定和不影響主庫(kù)的查詢(xún)性能,我們一般抽取從庫(kù)數(shù)據(jù)。對(duì)于文件數(shù)據(jù)抽取前需要先檢測(cè)文件是否存在,源系統(tǒng)提供文件的時(shí)候需要提供對(duì)應(yīng)的校驗(yàn)文件,校驗(yàn)文件里一般包含文件的記錄數(shù)、字段格式等信息。采集到文件后需要對(duì)文件進(jìn)行校驗(yàn),文件完整的情況下才能繼續(xù)后續(xù)數(shù)據(jù)處理程序。
實(shí)時(shí)數(shù)據(jù)采集:
實(shí)時(shí)數(shù)據(jù)采集主要是一些頁(yè)面日志的采集,也就是我們常說(shuō)的用戶(hù)行為分析數(shù)據(jù)。日志采集一般有以下幾個(gè)步驟:數(shù)據(jù)埋點(diǎn),數(shù)據(jù)上報(bào),數(shù)據(jù)存儲(chǔ)。
數(shù)據(jù)埋點(diǎn):網(wǎng)站上線后一般會(huì)植入一段JS腳本,用戶(hù)訪問(wèn)頁(yè)面時(shí),JS會(huì)收集當(dāng)前頁(yè)面的一些信息,用戶(hù)問(wèn)的上下文信息以及當(dāng)前訪問(wèn)的頁(yè)面業(yè)務(wù)相關(guān)數(shù)據(jù)。
數(shù)據(jù)上報(bào):JS執(zhí)行完畢后,會(huì)將所有收集到的信息拼裝到一個(gè)請(qǐng)求內(nèi),通過(guò)日志請(qǐng)求將數(shù)據(jù)發(fā)送到日志服務(wù)器,存儲(chǔ)為JSON文件;一般情況下,在 JS 執(zhí)行完成后就會(huì)立即向日志服務(wù)器發(fā)送消息隊(duì)列中。
數(shù)據(jù)存儲(chǔ):存儲(chǔ)在磁盤(pán)上的文件會(huì)部署數(shù)據(jù)采集組件比如Flume,將采集到的日志數(shù)據(jù)發(fā)送到HDFS進(jìn)行存儲(chǔ)或者轉(zhuǎn)存到HBase進(jìn)行存儲(chǔ)。消息隊(duì)列的數(shù)據(jù)則可以直接消費(fèi)落地到HDFS或者HBase進(jìn)行存儲(chǔ)。
想要了解更多政策信息可以咨詢(xún)中培課程顧問(wèn)李老師18911709446(同微信)

主站蜘蛛池模板: 进贤县| 花莲县| 宁河县| 刚察县| 颍上县| 中方县| 康马县| 苏州市| 永善县| 任丘市| 承德市| 桐乡市| 攀枝花市| 西乡县| 泊头市| 布尔津县| 兴宁市| 星子县| 进贤县| 福安市| 资源县| 务川| 临桂县| 女性| 伊金霍洛旗| 蚌埠市| 西盟| 阿拉善盟| 进贤县| 绍兴市| 辽源市| 鄱阳县| 常州市| 长沙县| 龙里县| 盐池县| 正镶白旗| 木兰县| 正安县| 沈阳市| 洞头县|