隨著大數據時代的來臨,人們對大數據的認識也越來越多,數據分析也越來越重要,數據采集就會變得尤其的突出。那么目前現在主要的數據采集系統內部的數據采集架構是怎樣的,大家恐怕都不了解。今天點邁的小編就給大家普及普及四大主流數據采集平臺架構。
1、Apache Flume
Flume 是Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數據采集系統。 Flume使用JRuby來構建,所以依賴Java運行環境。Flume最初是由Cloudera的工程師設計用于合并日志數據的系統,后來逐漸發展用于處理流數據事件。
Flume設計成一個分布式的管道架構,可以看作在數據源和目的地之間有一個Agent的網絡,支持數據路由。每一個agent都由Source,Channel和Sink組成。設備數據采集管理系統

Source:Source負責接收輸入數據,并將數據寫入管道。Flume的Source支持HTTP,JMS,RPC,NetCat,Exec,Spooling Directory。其中Spooling支持監視一個目錄或者文件,解析其中新生成的事件。
Channel:Channel 存儲,緩存從source到Sink的中間數據??墒褂貌煌呐渲脕碜鯟hannel,例如內存,文件,JDBC等。使用內存性能高但不持久,有可能丟數據。使用文件更可靠,但性能不如內存。
Sink:Sink負責從管道中讀出數據并發給下一個Agent或者最終的目的地。Sink支持的不同目的地種類包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Flume Agent。
2、Fluentd
Fluentd是另一個開源的數據收集框架。Fluentd使用C/Ruby開發,使用JSON文件來統一日志數據。它的可插拔架構,支持各種不同種類和格式的數據源和數據輸出。最后它也同時提供了高可靠和很好的擴展性。Treasure Data, Inc 對該產品提供支持和維護。Fluentd的Input/Buffer/Output非常類似于Flume的Source/Channel/Sink。

Input:Input負責接收數據或者主動抓取數據。支持syslog,http,file tail等。
Buffer:Buffer負責數據獲取的性能和可靠性,也有文件或內存等不同類型的Buffer可以配置。
Output:Output負責輸出數據到目的地例如文件,AWS S3或者其它的Fluentd。
FLuentd和其插件都是由Ruby開發,MessgaePack提供了JSON的序列化和異步的并行通信RPC機制。
3、Logstash
Logstash是著名的開源數據棧ELK (ElasticSearch, Logstash, Kibana)中的那個L。Logstash用JRuby開發,所有運行時依賴JVM。Logstash的部署架構如下圖,當然這只是一種部署的選項。設備數據采集管理系統的應用案例

幾乎在大部分的情況下ELK作為一個棧是被同時使用的。所有當你的數據系統使用ElasticSearch的情況下,logstash是首選。
4、Splunk Forwarder
以上的所有系統都是開源的。在商業化的大數據平臺產品中,Splunk提供完整的數據采金,數據存儲,數據分析和處理,以及數據展現的能力。Splunk是一個分布式的機器數據平臺,主要有三個角色:
Search Head負責數據的搜索和處理,提供搜索時的信息抽取。 Indexer負責數據的存儲和索引 Forwarder,負責數據的收集,清洗,變形,并發送給Indexer 。
Splunk內置了對Syslog,TCP/UDP,Spooling的支持,同時,用戶可以通過開發 Input和Modular Input的方式來獲取特定的數據。在Splunk提供的軟件倉庫里有很多成熟的數據采集應用,例如AWS,數據庫(DBConnect)等等,可以方便的從云或者是數據庫中獲取數據進入Splunk的數據平臺做分析。

這里要注意的是,Search Head和Indexer都支持Cluster的配置,也就是高可用,高擴展的,但是Splunk現在還沒有針對Farwarder的Cluster的功能。也就是說如果有一臺Farwarder的機器出了故障,數據收集也會隨之中斷,并不能把正在運行的數據采集任務Failover到其它的 Farwarder上。
小編在這里跟到敬愛講解集中流行的數據收集平臺,她們大多數都可以提供給可靠和高擴展的數據收集。大多平臺都是抽象的進行了數據的輸入和輸出。利用分布式網絡連接,一般都可以實現數據的采集和調用。小編目測,這篇文章只有專業人士才能看懂啊!


