Veliki podaci zahtevaju velike alatke otvorenog koda
Veliki podaci zahtevaju velike alatke otvorenog koda
LinuxInsider, Richard Adhikari, 25.02.2011.
"Skladišta podataka narastaju do veličina koje primoravaju kompanije da proširuju svoju infrastrukturu, i vlasničke licence tada prate cene tog širenja, ravno u vis", kaže Mike Minelli iz [firme] Revolution Analytics. "Ako tada koristite open source, posao obavljate brže, preciznije i za samo delić [vlasničke] cene".
Poslovni svet posrće pod teretom kada se količina podataka koja mora da se obradi vine put neba, gomilajući potrebe za skladištenjem izražene u terabajtima (terabyte) i petabajtima (petabyte).
Tako velike potrebe za skladištenjem među infromatičarima se nazivaju "veliki podaci".
Relacione baze podataka i statistike koje se pokreću na desktopima, ili paketi programa za vizualizaciju, ne mogu da obrađuju te velike podatke; umesto njih, koristi se udruženi softver za paralelna izračunavanja (massively parallel software), koji se pokreće i na hiljadama servera kako bi dovršio posao.
Mnoge firme biraju alatke otvorenog koda, kakva je Apačov Hadop (Apache's Hadoop) kada obrađuju velike podatke. Na primer, Twitter šalje logove Hadopu i piše direktno po HDFS-u, Hadopovom distribuiranom sistemu datoteka.
Hadop podržava aplikacije koje intezivno obrađuju podatke, do veličina poput hiljada tačaka i više petabajta, rekao je za Linux Insider David Hill, voditelj za Mesabi Group. Tako je i postao [Hadop] opšte prihvaćen.
Međutim, termin "veliki podaci" je generalizacija koja se koristi za mnoge, različite aplikacije, i Hadop nije primeren za svaku od takvih upotreba, upozorava Hill.
Beleženje, skladištenje i analiza velikih podataka zavisi od prirode pojedine aplikacije, tvrdi Hill. Na primer, velike mreže pripojivih skladišta (network attached storage) kakve su EMC-a (NYSE: EMC) Isilon-a ili IBM-ov (NYSE: IBM) SONAS (Scale Out Network Attached Storage), mogle bi biti prikladnije za upotrebu s nestruktuiranim podacima kakvi su fotografije ili video-zapisi, [što je] bolje od Hadopa, kaže on.
Vrste rada s velikim podacima
Rad s velikim podacima može biti podeljen u tri kategorije, rekao je za Linux Insider Mike Minelli, izvršni podpredsednik firme Revolution Analytics.
Prva je menadžment infromacija (information management, IM), druga obaveštenost o poslovanjima (business intelligence, BI) i treća napredna analitika (advanced analytics, AA), kaže Minelli.
u menadžmentu informacija prikupljaju i skladište informacije, obaveštenost o poslovanjima analizira podatke kako bi razumela šta se deševalo u prošlosti, dok napredna analitika predviđa, uočavajući šta je to podaci sugerišu kao moguće dešavanje u budućnosti, kaže Minelli.
Revolution analytics donosi jezik otvorenog koda R, i Revolution R Enterprise. Oni omogućavaju naprednu analitiku za setove podataka reda nekoliko terabajta. Revolution analytics razvija i konektore (connectors) za Hadop, te mogućnosti za R, kako bi oni mogli pokretati zadatke unutar Map/Reduce okvira za Google (Nasdaq: GOOG).
Alati za rad s velikim podacima
Alatke sposobne za obradu velikih podataka vlasničke su tehnologije i prodaju ih AsterData, Netezza, koje sad poseduje IBM, Datameer, koji je nadgradnja Apačovog Hadopa, ali je vlasnička tehnologija, i Paraccel, kaže Minelli.
Deo IBM-ove Netezza tehnologije usko vezan za InfoSphere, Oracle-ov (Nasdaq: ORCL) Exadata, i EMC-ov Greenplum, i još neki, nude vlasničke alatke za obradu velikih podataka, takođe.
EMC je predstavio slobodno izdanje baze Greenplum namenjeno upotrebi u zajednici. Ovo izdanje za zajednicu je isključivo softverski-bazirana alatka, kako navode u Mesabi Group Hill.
Greenplum Community Edition nije takmac za trku s Hadopom; naprotiv, to je "projekat čiji je cilj da uvrsti najbolje od tehnologija na raspolaganju, kako bi obezbedio najbolji mogući izbor platforme", kaže za LinuxInsider Luke Lonergan, podpredsednik i šef tehnologija u odeljenju EMC-a za proizvode za obradu podataka (EMC Data Computing Products Division).
Inicijalno izdanje Greenplum Community Editiona podrazumeva tri modela saradnje - Greenplum DB, MADlib i Alpine Miner, kaže Lonergan.
Alati otvorenog koda za ove namene su Hadop, Map/Reduce i Jaspersoft obaveštajni poslovni alati.
Jaspersoft nudi obaveštajne poslovne alate koji omogućavaju izveštavanje, analitiku i ETL (izvlačenje, transformaciju i učitavanje, eng: extract, transform and load) za baze za udruženu paralelnu analitiku (massively parallel analytic databases), uklojučujući EMC Greenplum, i HP-ovu (NYSE: HPQ) Verticu. U pripremi je i verzija za rad s IBM-ovom Netezzom, kaže za LinuxInsider Andrew Lampitt, direktor obaveštajnog poslovanja u Jaspersoftu.
Jaspersoft takođe obezbeđuje i najprilagođenije sisteme za izveštavanja (native reporting) kroz konektore otovrenog koda za Hadop i razne vrste NoSQL baza, uključujući MongoDB, Riak, CouchDB i Infinispan.
Otvoreni kod protiv vlasničkih alatki
Alatke otvorenog koda omogućavaju uvid u kod, pa tako programeri (developers) mogu saznati šta se nalazi "unutra" kada integrišu softver, kaže Jaspersoftov Lampitt.
"Kada je u pitanju gotovo sve i jedna instanca, analitika rađena pomoću otvorenog koda biće efektivnija u smislu troškova, i fleksibilnija od tradicionalnih vlasničkih sistema", kaže Minelli iz Revolution Analyticsa.
"Skladištenja podataka rastu do razmera pri kojima su kompanije primorane da uvećavaju svoju infrastrukturu, a troškovi vlasničke licence tada se vinu ravno u nebo. S tehnologijama otvorenog koda, posao radite brže i preciznije, za samo delić cene", dodaje on.
Twitter je "živi dokaz", upotrebljavajući Hadop, jer bi svaka druga tehnologija bila prosto preskupa.
Nadalje, alatke otvorenog koda omogućavaju poslovnom svetu da kreira nove tehnike u analitici, kako bi bolje obradio nestruktuirane podatke, kakvi su slike i fotografije, rekao je Minelli.
"Alatke otvorenog koda za analitiku omogućavaju vam da kreirate inovativne analize, koje možete uskladiti s vašim poslovanjem. U današnjoj krajnje takmičarskoj globalnoj ekonomiji, prosto ne možete čekati da neki proizvođač, u tradicinonalnom smislu tog izraza, razvije neku novu tehniku analitike", dodaje još Minelli.
Kao i u drugim sferama informatike, verovatno ćemo viđati mešavinu otvorenog koda i vlasničkih tehnologija, upotrebljene ta obradu velikih podataka.
"Na 'kratke staze', analitika bazirana na alatkama otvorenog koda postajaće sve više i više upotrebljavana, i njena će upotreba da se širi poput virusa", misli Minelli. "Na 'duže staze', počećemo viđati mešavine i prelaze između tehnolgija, na tržištima koja postavljaju visoke zahteve. Moja pretpostavka je da će obe [vrste tehnologija] ostati dostupne i potrebne."
Document Actions