双脚踝浮肿是什么原因| 花椰菜是什么菜| 出马仙是什么意思| 星期六打喷嚏代表什么| 发蜡和发泥有什么区别| 小酌怡情下一句是什么| 肌肉疼痛挂什么科| 血脂高是什么原因引起| 枫叶是什么颜色的| 分母是什么意思| epa是什么营养物质| pls是什么意思| 子鼠是什么意思| 力所能及什么意思| 腿毛长得快是什么原因| pr是什么意思医学| 玉髓是什么玉| 牙龈老是出血是什么原因引起的| 吃糖醋蒜有什么好处和坏处| 更年期看什么科| 冰糖里面为什么有白线| 伪骨科什么意思| 礼部尚书是什么官| 牙龈肿大是什么原因| 太阳筋疼是什么原因| 梦见捡到钱是什么意思| 挑染是什么意思| 什么身什么骨| dp是什么意思| 悲观是什么意思| 宝宝发烧是什么原因引起的| 喉咙干燥是什么原因| 6月23号是什么星座| 反文旁和什么有关| 青年节是什么生肖| 梦见杀人是什么预兆| 乌龟用什么呼吸| 失眠吃什么中成药效果最好| 血脂厚有什么症状| 血糖高适合吃什么水果| 甲状腺在什么位置图片| 靥是什么意思| 十二生肖各代表什么花| 尿素氮偏高是什么原因| 梅核气吃什么药最好| 小腿疼是什么原因| 阴茎进入阴道什么感觉| 摩羯男和什么星座最配| 枸杞有什么作用和功效| 肌肉一跳一跳什么原因| 心电图窦性心动过速是什么意思| 什么叫耳石症| 甲肝抗体阳性代表什么| 肺部真菌感染用什么药最好| knife是什么意思| 吃洋葱有什么好处和坏处| 孕妇为什么不能吃韭菜| 什么罩杯最大| 吃什么降糖快| 什么东西清肺止咳| 皮肤过敏擦什么药膏好得快| 妃子笑是什么茶| 什么是心律不齐| 子宫内膜病变有什么症状| 甲亢有些什么症状| 人中发红是什么原因| 甲状腺回声不均匀什么意思| 黄帝内经讲的什么| 促黄体生成素是什么意思| 砥砺前行什么意思| 慎用是什么意思| 空腹打嗝是什么原因引起的| vip是什么意思| 爱新觉罗是什么民族| 你掀起波澜抛弃了我是什么歌| 幽门螺旋杆菌做什么检查| 什么叫伪娘| 牙龈发炎用什么药| 犯月是什么意思| 来月经是黑色的是什么原因| 肾结石吃什么食物好| 梦到装修房子是什么征兆| 沙示汽水有什么功效| 馥字五行属什么| 日加华念什么| 什么药对伤口愈合快| 藿香正气水有什么用| 更是什么结构的字| 嘴唇发黑什么原因| 净身出户需要什么条件| 褪黑素不能和什么一起吃| 前列腺吃什么食物调理| 6424什么意思| 钾离子高有什么危害| 2009年是什么生肖| 八月十五是什么日子| 尿正常是什么颜色| 祈禳是什么意思| 包饺子剩下的面团能做什么| 柱镜是什么| 4月8号什么星座| 和胃降逆是什么意思| 儿童受凉咳嗽吃什么药| 裸婚是什么意思| 净身出户需要什么条件| 黎明是什么时候| 60岁生日送什么礼物| 林子大了什么鸟都有| 人活一辈子到底为了什么| 独角仙长什么样| 用进废退什么意思| 皮肤瘙痒是什么原因| 结婚十周年是什么婚| 脸上痣多是什么原因| 咳嗽喝什么茶| 胯疼是什么原因| 第一次什么感觉| 8848是什么意思| 梵行是什么意思| 一个黑一个俊的右边念什么| wm是什么牌子| 腰间盘突出挂什么科室| 牙发黑是什么原因怎么办| 马齿苋别名叫什么| 痔疮是什么样的| 一直呕吐是什么原因| 乙肝15阳性什么意思| 什么是结扎| 什么可以补肾壮阳| 7月11号什么星座| 西米是什么字| 为什么吃芒果会过敏| 什么是潜规则| 姨妈期可以吃什么水果| 益五行属什么| 国字脸适合什么发型男| 科学是什么| 员级职称是什么意思| 红沙日是什么意思| 肩周炎不能吃什么食物| 什么样的梦想| 血压高挂什么科| 草字头占读什么| 女人蜕变是什么意思| cupid什么意思| 什么可以吃| 蓝色和红色混合是什么颜色| 鹿土念什么| 马中赤兔人中吕布什么意思| 什么天什么什么| 肝郁气滞吃什么中成药| 低蛋白血症吃什么最快| 囊性无回声是什么意思| 扁桃体长什么样| 曲水流觞是什么意思| 西皮是什么皮| 上面一个山下面一个今读什么| 败火是什么意思| 喝酒喝多了有什么危害| 胃窦糜烂是什么意思| 七月14号是什么星座| 无精是什么原因造成的| 赘疣是什么意思| b端和c端是什么意思| z世代是什么意思| 早上9点多是什么时辰| 外阴瘙痒用什么药膏好| 梨子和什么一起榨汁好喝| bpd是胎儿的什么意思| 摧残是什么意思| 婆媳关系为什么难相处| 鸡肉炒什么好吃| 望尘莫及是什么意思| 八七年属什么的| 来姨妈吃什么好| ck是什么品牌| 知了的学名叫什么| 射手座和什么座最配对| 后背发麻是什么原因| 刺猬的刺有什么作用| 西梅什么时候上市| 兰桂齐芳是什么意思| 慢阻肺吃什么药最有效最好| 夏天木瓜煲什么汤最好| 羊蛋是什么部位| 值机是什么| 窦性心动过缓是什么病| 中暑喝什么| 连襟是什么关系| 什么叫咳嗽变异性哮喘| 水里有什么| 口苦口干吃什么药好| 钾高是什么原因引起的| 属鸡今年要注意什么| 性是什么意思| 痔疮吃什么| 做什么来钱快| r0lex是什么牌子手表| 什么作用| 78岁属什么生肖| 狗鼻子为什么是湿的| 欧米茄算什么档次| 碳酸钙是什么东西| 种植牙是什么意思| 野生蜂蜜有什么好处和作用| 柠檬泡水喝有什么作用| copd什么意思| 自信过头叫什么| 多事之秋是什么意思| 验血挂什么科| 难舍难分是什么意思| 烫伤起水泡涂什么药膏| 甜叶菊有什么功效| 毛肚是什么动物身上的| 睡眠障碍应该挂什么科室| 血压高有什么危害| 右手无名指戴戒指是什么意思| 清明节的习俗有什么| 肺癌晚期有什么症状| 蜂蜡是什么东西| 舌头溃疡吃什么药最好| 2024是什么年生肖| 鳊鱼吃什么食物| 68年属什么生肖多少岁| calcium是什么意思| 开眼镜店需要什么条件| 安陵容什么时候变坏的| 爱生闷气的人容易得什么病| tablet是什么意思| 什么的珍珠| 胆固醇高不能吃什么水果| 泄愤是什么意思| 颈椎病引起的头晕吃什么药| 什么是白色家电| 什么是腱鞘炎| 小狗不能吃什么| 腿膝盖后面的窝窝疼是什么原因| 血糖血脂挂什么科| 白头发有什么方法变黑| mrd是什么意思| 南红五行属什么| 五年存活率是什么意思| 双鱼座的上升星座是什么| 甲状腺球蛋白低是什么意思| 尿液分析是检查什么| 儿童牙龈肿痛吃什么药| 齿痕舌吃什么药| 用什么泡水喝对肝脏好| 保险公司最怕什么投诉| 0中间有一横是什么字体| 口水臭什么原因| 南瓜不能和什么同吃| 喝茶失眠是什么原因| 干咳吃什么药止咳效果好| 9月24号什么星座| 藏红花有什么作用| 嘴唇干是什么原因引起的| 吃柠檬是什么意思| 满足是什么意思| 肠炎吃什么药最好| 下嘴唇发紫是什么原因| 庆五行属什么| 哔哩哔哩会员有什么用| 梨形心见于什么病| 百度Vai al contenuto

厦门元宵古俗:持“油枝”走街串巷 韵味十足

Da Wikipedia, l'enciclopedia libera.
Apache Hadoop
software
Logo
Logo
GenereCalcolo distribuito
SviluppatoreApache Software Foundation
Data prima versione1o aprile 2006
Ultima versione3.4.1 (18 ottobre 2024)
Sistema operativoMultipiattaforma
LinguaggioJava
LicenzaApache License 2.0
(licenza libera)
Sito webhadoop.apache.org
百度   避险资产搭避风港  就在权益类资产大幅波动之际,国债、黄金等避险资产却风景这边独好。

Apache Hadoop è un framework sotto una licenza libera che supporta applicazioni distribuite con elevato accesso ai dati, permettendo alle applicazioni di lavorare con migliaia di nodi e petabyte di dati[1]. Ispirato dalla MapReduce di Google[2] e dal Google File System[3], è un progetto della fondazione Apache di alto livello costruito e usato da una comunità globale di contributori, che usano i linguaggi di programmazione Java e Scala.

Usato anche da AOL[4], Ebay[5], Facebook[6], IBM[7], Linkedin[8], Spotify[9], The New York Times[10] e Twitter[11], il più grande contributore a questo progetto è stato Yahoo![12], e ne fa fortemente uso[13]. Offre una grande quantità di librerie di semplice utilizzo ed ha per il momento tre versioni, la prima versione di Hadoop contiene Map Reduce e Hadoop Distributed File System (HDFS); dalla prima versione di Hadoop sono cambiate le necessità di prestazione, per questo motivo la seconda versione è stata quindi integrata con YARN[14].

Il nome del progetto è stato scelto dal suo creatore Doug Cutting, il quale ha scelto Hadoop, il nome dell'elefante di pezza di suo figlio[15]. In origine fu sviluppato per supportare la distribuzione per il progetto del motore di ricerca Nutch[16].

Architettura Apache Haadoop Framework

Hadoop, inteso in senso stretto, è composto da HDFS, MapReduce e YARN. Per ecosistema Hadoop si intendono tutti gli strumenti realizzati appositamente per integrarsi con questi, quali ad esempio Sqoop, Hive, Flume.

L'Hadoop Distributed File System (in sigla HDFS) è un file system distribuito, portabile e scalabile scritto in Java per il framework Hadoop. Un cluster in Hadoop tipicamente possiede uno o più name node (su cui risiedono i metadati dei file) e un insieme di data node (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS). I formati più usati per i file su HDFS sono Comma-separated values, Apache Avro, Apache ORC e Apache Parquet.

HDFS viene utilizzato per l'archiviazione dei dati e MapReduce viene utilizzato per l'elaborazione dei dati. HDFS ha cinque servizi.

I primi tre sono servizi master/demoni/nodi e gli ultimi due sono servizi slave. I servizi Master possono comunicare tra loro e allo stesso modo i servizi Slave possono comunicare tra loro. Name Node è un nodo master e Data node è il corrispondente nodo Slave e può comunicare tra loro.

Name Node: HDFS è costituito da un solo Name Node chiamato Master Node. Il nodo master può tenere traccia dei file, gestire il file system e ha i metadati di tutti i dati memorizzati al suo interno. In particolare, il nodo nome contiene i dettagli del numero di blocchi, le posizioni del nodo dati in cui sono archiviati i dati, dove sono archiviate le repliche e altri dettagli. Il nodo del nome ha un contatto diretto con il client.

Nodo dati: un nodo dati memorizza i dati in esso come blocchi. Questo è anche noto come nodo slave e memorizza i dati effettivi in HDFS che è responsabile della lettura e della scrittura da parte del client. Questi sono demoni schiavi. Ogni nodo Dati invia un messaggio Heartbeat al nodo Nome ogni 3 secondi e comunica che è vivo. In questo modo, quando Name Node non riceve un heartbeat da un nodo di dati per 2 minuti, considera quel nodo di dati come morto e avvia il processo di replica dei blocchi su un altro nodo di dati.

Nodo nome secondario: serve solo per prendersi cura dei punti di controllo dei metadati del file system che si trova nel nodo nome. Questo è anche noto come checkpoint Node. è il nodo di supporto per il nodo dei nomi. Il nodo del nome secondario indica al nodo del nome di creare e inviare il file fsimage e editlog, su cui il file fsimage compresso viene creato dal nodo del nome secondario.[17][18]

Job Tracker: Job Tracker riceve le richieste di esecuzione di Map Reduce dal client. Job tracker comunica con il Name Node per conoscere la posizione dei dati che verranno utilizzati nell'elaborazione. Il Nodo Nome risponde con i metadati dei dati di elaborazione richiesti.

Task Tracker: è il nodo slave per il Job Tracker e prenderà l'attività dal Job Tracker. Riceve anche il codice dal Job Tracker. Task Tracker prenderà il codice e lo applicherà al file. Il processo di applicazione di quel codice sul file è noto come Mapper.[19]

Hadoop supporta anche:

Hadoop può lavorare direttamente con qualsiasi file system distribuito che possa essere montato da un sistema operativo sottostante semplicemente usando un URL del tipo 'file://'.

Un componente che permette di integrare Hadoop con un grande quantitativo di filesystem, distribuiti e non, è Alluxio.

Applicazioni e librerie usate nei cluster Hadoop

[modifica | modifica wikitesto]
Elaborazione dati in modalità batch

Quando nacque Hadoop, l'unico modo di realizzare applicativi di elaborazione dati era MapReduce, che richiede di scrivere molto codice Java anche per le attività più semplici. Col passare degli anni, vennero inventate librerie come Cascading e Apache Crunch per rendere più agevole la realizzazione di questi programmi. A questi si è affiancato Pig, uno strumento che permetteva di usare un linguaggio ispirato ad SQL.

Un cambiamento consistente è avvenuto con l'introduzione di Apache Spark che usa in modo aggressivo la memoria RAM dei nodi del cluster per eseguire le elaborazioni con una velocità nettamente superiore a quella di MapReduce. Col tempo, Apache Spark si è evoluto, aggiungendo il supporto ad un linguaggio simile ad SQL e la possibilità di eseguire elaborazioni streaming di tipo microbatch.

Elaborazione dati in modalità Streaming

Per l'elaborazione di dati in modalità streaming con bassa latenza è possibile usare:

Una libreria degna di nota è Akka. Questa permette di elaborare dati con delle prestazioni molto elevate sfruttando l'Actor Model. Le prime versioni di Apache Spark, precedenti alla 1.6, erano costruite proprio su Akka.

Sono stati creati anche degli strumenti che permettono di definire i flussi di elaborazione dati attraverso dei diagrammi. Tra questi troviamo Apache NiFi e StreamSets Data Collector.

Strumenti per la gestione dei dati
  • Apache Hive, che viene usato per interrogare il contenuto di HDFS usando un linguaggio molto simile all'SQL che si chiama Hive Query Language;
  • Apache Impala, simile a Hive, ma avente una latenza inferiore a fronte di un throughput inferiore. A questo software mancano le funzionalità più avanzate di Hive, ad esempio la gestione degli indici e dei dati di dato più complessi. Usa Impala Query Language;
  • Apache Drill, uno strumento simile ad Hive ed Impala;
  • Presto uno strumento per interrogare dati su HDFS simile ad Hive ed Impala, sviluppato da Facebook;
  • Apache Kafka che viene usato per trasmettere dei messaggi e per custodire nel tempo i messaggi che sono stati trasmessi;
  • Sqoop, strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa;
  • Apache Flume, un servizio distribuito affidabile e disponibile per la raccolta, l'aggregazione e il trasporto un grande quantitativo di dati di log in maniera efficiente.
Console web
  • Apache Ambari, che aiuta ad amministrare un cluster Hadoop con maggiore semplicità;
  • Hue, una interfaccia grafica che permette di avere un punto di ingresso unico a tutti gli strumenti web per Hadoop;
Basi dati non relazionali
Altri strumenti

Architetture dei sistemi basati su Hadoop

[modifica | modifica wikitesto]

Usando Hadoop è possibile realizzare architetture di tipo Lambda, descritte da Nathan Marz e James Warren. Questo tipo di architettura prevede dei flussi batch e dei flussi streaming in parallelo. Il limite di questo approccio è che bisogna scrivere il doppio del codice. Per provare a superare questo limite, è stata proposta l'architettura Kappa, nella quale viene fatto tutto in streaming.

Distribuzioni di Hadoop

[modifica | modifica wikitesto]

Sebbene sia possibile scaricare ed installare autonomamente tutti i software necessari per far funzionare un cluster Hadoop, in molti casi è preferibile usare una distribuzione nella quale sono già presenti ed installati tutti questi software.

Tra le distribuzioni più note troviamo:

Distribuzioni cloud

è possibile usufruire di cluster Hadoop già installati e configurati in cloud, tra le principali opzioni ci sono:

Differenza tra Hadoop 1 e Hadoop 2

[modifica | modifica wikitesto]

La più grande differenza tra Hadoop 1 e Hadoop 2 è l'aggiunta di YARN (Yet Another Resource Negotiator), che ha sostituito il motore MapReduce nella prima versione di Hadoop. YARN si sforza di allocare le risorse a varie applicazioni in modo efficace. Esegue due demoni, che si occupano di due diverse attività: il gestore delle risorse, che esegue il monitoraggio dei lavori e l'allocazione delle risorse alle applicazioni, il master dell'applicazione, che monitora l'avanzamento dell'esecuzione.[23]

Differenza tra Hadoop 2 e Hadoop 3

[modifica | modifica wikitesto]

Ci sono importanti funzionalità fornite da Hadoop 3. Ad esempio, mentre c'è un singolo namenode in Hadoop 2, Hadoop 3 consente di avere più name node, che risolve il problema del singolo punto di errore.

In Hadoop 3, ci sono contenitori che funzionano in linea di principio di Docker, il che riduce il tempo speso per lo sviluppo delle applicazioni. Uno dei maggiori cambiamenti è che Hadoop 3 riduce il sovraccarico di archiviazione con la codifica di cancellazione.

Inoltre, Hadoop 3 consente l'utilizzo dell'hardware GPU all'interno del cluster, il che rappresenta un vantaggio sostanziale per l'esecuzione di algoritmi di deep learning su un cluster Hadoop.[24]

Voci correlate

[modifica | modifica wikitesto]

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
Controllo di autoritàGND (DE1022420135
  Portale Software libero: accedi alle voci di Wikipedia che trattano di software libero
伤口吃什么消炎药 看乳腺挂什么科 振水音阳性提示什么 有个性是什么意思 发改委是干什么的
手指甲软薄是缺什么 什么是音调 新西兰现在是什么季节 药店为什么不让卖高锰酸钾 掉头发吃什么药最有效
韩束适合什么年龄段的人用 强心剂是什么意思 汉高祖叫什么名字 红豆和什么搭配最好 泪河高度说明什么
梅花象征着什么 全身痒是什么病 五液是指什么 高胆固醇吃什么药 元老是什么意思
什么是面瘫hcv9jop2ns0r.cn 休克是什么520myf.com 吃炒黑豆有什么好处和坏处hcv9jop2ns4r.cn 空谷幽兰下一句是什么hcv9jop5ns8r.cn 笑靥什么意思hcv8jop7ns5r.cn
脑供血不足吃什么药好得快hcv7jop4ns8r.cn 胆的作用及功能是什么tiangongnft.com 方脸适合什么刘海96micro.com 口蜜腹剑是什么意思hcv8jop9ns0r.cn 实时更新是什么意思hcv7jop9ns4r.cn
阿斯伯格综合征是什么hcv9jop4ns8r.cn 狗怕什么动物helloaicloud.com 指甲盖凹凸不平是什么原因hcv9jop2ns5r.cn 平光眼镜是什么意思hcv8jop2ns9r.cn 脑ct挂什么科hcv9jop4ns9r.cn
反流性食管炎吃什么中成药最好hcv9jop5ns5r.cn 真菌感染是什么引起的bysq.com 山竹什么人不能吃hcv9jop0ns2r.cn 医保乙类是什么意思hcv9jop6ns2r.cn 人到中年为什么会发胖xinmaowt.com
百度