四大主流數據采集平臺你知道嗎？

更新時間：2016-02-01 瀏覽：0 次

隨著大數據時代的來臨，人們對大數據的認識也越來越多，數據分析也越來越重要，數據采集就會變得尤其的突出。那么目前現在主要的數據采集系統內部的數據采集架構是怎樣的，大家恐怕都不了解。今天點邁的小編就給大家普及普及四大主流數據采集平臺架構。

1、Apache Flume

Flume 是Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數據采集系統。 Flume使用JRuby來構建，所以依賴Java運行環境。Flume最初是由Cloudera的工程師設計用于合并日志數據的系統，后來逐漸發展用于處理流數據事件。

Flume設計成一個分布式的管道架構，可以看作在數據源和目的地之間有一個Agent的網絡，支持數據路由。每一個agent都由Source，Channel和Sink組成。設備數據采集管理系統

Apache Flume

Source：Source負責接收輸入數據，并將數據寫入管道。Flume的Source支持HTTP，JMS，RPC，NetCat，Exec，Spooling Directory。其中Spooling支持監視一個目錄或者文件，解析其中新生成的事件。

Channel：Channel 存儲，緩存從source到Sink的中間數據?？墒褂貌煌呐渲脕碜鯟hannel，例如內存，文件，JDBC等。使用內存性能高但不持久，有可能丟數據。使用文件更可靠，但性能不如內存。

Sink：Sink負責從管道中讀出數據并發給下一個Agent或者最終的目的地。Sink支持的不同目的地種類包括：HDFS，HBASE，Solr，ElasticSearch，File，Logger或者其它的Flume Agent。

2、Fluentd

Fluentd是另一個開源的數據收集框架。Fluentd使用C/Ruby開發，使用JSON文件來統一日志數據。它的可插拔架構，支持各種不同種類和格式的數據源和數據輸出。最后它也同時提供了高可靠和很好的擴展性。Treasure Data, Inc 對該產品提供支持和維護。Fluentd的Input/Buffer/Output非常類似于Flume的Source/Channel/Sink。

Fluentd

Input：Input負責接收數據或者主動抓取數據。支持syslog，http，file tail等。

Buffer：Buffer負責數據獲取的性能和可靠性，也有文件或內存等不同類型的Buffer可以配置。

Output：Output負責輸出數據到目的地例如文件，AWS S3或者其它的Fluentd。

FLuentd和其插件都是由Ruby開發，MessgaePack提供了JSON的序列化和異步的并行通信RPC機制。

3、Logstash

Logstash是著名的開源數據棧ELK (ElasticSearch, Logstash, Kibana)中的那個L。Logstash用JRuby開發，所有運行時依賴JVM。Logstash的部署架構如下圖，當然這只是一種部署的選項。設備數據采集管理系統的應用案例

Logstash

幾乎在大部分的情況下ELK作為一個棧是被同時使用的。所有當你的數據系統使用ElasticSearch的情況下，logstash是首選。

4、Splunk Forwarder

以上的所有系統都是開源的。在商業化的大數據平臺產品中，Splunk提供完整的數據采金，數據存儲，數據分析和處理，以及數據展現的能力。Splunk是一個分布式的機器數據平臺，主要有三個角色：

Search Head負責數據的搜索和處理，提供搜索時的信息抽取。 Indexer負責數據的存儲和索引 Forwarder，負責數據的收集，清洗，變形，并發送給Indexer 。

Splunk內置了對Syslog，TCP/UDP，Spooling的支持，同時，用戶可以通過開發 Input和Modular Input的方式來獲取特定的數據。在Splunk提供的軟件倉庫里有很多成熟的數據采集應用，例如AWS，數據庫(DBConnect)等等，可以方便的從云或者是數據庫中獲取數據進入Splunk的數據平臺做分析。

Splunk Forwarder

這里要注意的是，Search Head和Indexer都支持Cluster的配置，也就是高可用，高擴展的，但是Splunk現在還沒有針對Farwarder的Cluster的功能。也就是說如果有一臺Farwarder的機器出了故障，數據收集也會隨之中斷，并不能把正在運行的數據采集任務Failover到其它的 Farwarder上。

小編在這里跟到敬愛講解集中流行的數據收集平臺，她們大多數都可以提供給可靠和高擴展的數據收集。大多平臺都是抽象的進行了數據的輸入和輸出。利用分布式網絡連接，一般都可以實現數據的采集和調用。小編目測，這篇文章只有專業人士才能看懂啊！

上一篇：工業精益化管理分析下一篇：春節放假工廠車間如何管理？

百科

征集制造業企業用戶 . . . . .﹥免費試用，了解詳情

1. 有生產安全防護的實際需求
2. 生產車間正在數字化轉型中
3. 有使用APP進行現場管理的意愿

99久久精品一区二区三区四区,国产欧美日韩激情视频一区,日本一区二区不卡日日骚,第一福利国产成人高清

四大主流數據采集平臺 你知道嗎？

1、Apache Flume

2、Fluentd

3、Logstash

4、Splunk Forwarder

百科

四大主流數據采集平臺你知道嗎？

1、Apache Flume

2、Fluentd

3、Logstash

4、Splunk Forwarder