Log in


Forgot your password?
prijatelji LUGoNSa
gnu.gif
linuxzasve.jpg
hulk.jpg
 
You are here: Home / Vesti / Veliki podaci zahtevaju velike alatke otvorenog koda

Veliki podaci zahtevaju velike alatke otvorenog koda

by Vladimir Atanackovic last modified Feb 28, 2011 09:35 PM
"Skladišta podataka narastaju do veličina koje primoravaju kompanije da proširuju svoju infrastrukturu, i vlasničke licence tada prate cene tog širenja, ravno u vis", kaže Mike Minelli iz [firme] Revolution Analytics. "Ako tada koristite open source, posao obavljate brže, preciznije i za samo delić cene". Linux Insider, Richard Adhikari, 25.02.2011.

Veliki podaci zahtevaju velike alatke otvorenog koda
LinuxInsider, Richard Adhikari, 25.02.2011.

"Skladišta podataka narastaju do veličina koje primoravaju kompanije da proširuju svoju infrastrukturu, i vlasničke licence tada prate cene tog širenja, ravno u vis", kaže Mike Minelli iz [firme] Revolution Analytics. "Ako tada koristite open source, posao obavljate brže, preciznije i za samo delić [vlasničke] cene".

Poslovni svet posrće pod teretom kada se količina podataka koja mora da se obradi vine put neba, gomilajući potrebe za skladištenjem izražene u terabajtima (terabyte) i petabajtima (petabyte).

Tako velike potrebe za skladištenjem među infromatičarima se nazivaju "veliki podaci".

Relacione baze podataka i statistike koje se pokreću na desktopima, ili paketi programa za vizualizaciju, ne mogu da obrađuju te velike podatke; umesto njih, koristi se udruženi softver za paralelna izračunavanja (massively parallel software), koji se pokreće i na hiljadama servera kako bi dovršio posao.

Mnoge firme biraju alatke otvorenog koda, kakva je Apačov Hadop (Apache's Hadoop) kada obrađuju velike podatke. Na primer, Twitter šalje logove Hadopu i piše direktno po HDFS-u, Hadopovom distribuiranom sistemu datoteka.

Hadop podržava aplikacije koje intezivno obrađuju podatke, do veličina poput hiljada tačaka i više petabajta, rekao je za Linux Insider David Hill, voditelj za Mesabi Group. Tako je i postao [Hadop] opšte prihvaćen.

Međutim, termin "veliki podaci" je generalizacija koja se koristi za mnoge, različite aplikacije, i Hadop nije primeren za svaku od takvih upotreba, upozorava Hill.

Beleženje, skladištenje i analiza velikih podataka zavisi od prirode pojedine aplikacije, tvrdi Hill. Na primer, velike mreže pripojivih skladišta (network attached storage) kakve su EMC-a (NYSE: EMC) Isilon-a ili IBM-ov (NYSE: IBM) SONAS (Scale Out Network Attached Storage), mogle bi biti prikladnije za upotrebu s nestruktuiranim podacima kakvi su fotografije ili video-zapisi, [što je] bolje od Hadopa, kaže on.

Vrste rada s velikim podacima

Rad s velikim podacima može biti podeljen u tri kategorije, rekao je za Linux Insider Mike Minelli, izvršni podpredsednik firme Revolution Analytics.

Prva je menadžment infromacija (information management, IM), druga obaveštenost o poslovanjima (business intelligence, BI) i treća napredna analitika (advanced analytics, AA), kaže Minelli.

u menadžmentu informacija prikupljaju i skladište informacije, obaveštenost o poslovanjima analizira podatke kako bi razumela šta se deševalo u prošlosti, dok napredna analitika predviđa, uočavajući šta je to podaci sugerišu kao moguće dešavanje u budućnosti, kaže Minelli.

Revolution analytics donosi jezik otvorenog koda R, i Revolution R Enterprise. Oni omogućavaju naprednu analitiku za setove podataka reda nekoliko terabajta. Revolution analytics razvija i konektore (connectors) za Hadop, te mogućnosti za R, kako bi oni mogli pokretati zadatke unutar Map/Reduce okvira za Google (Nasdaq: GOOG).

Alati za rad s velikim podacima

Alatke sposobne za obradu velikih podataka vlasničke su tehnologije i prodaju ih AsterData, Netezza, koje sad poseduje IBM, Datameer, koji je nadgradnja Apačovog Hadopa, ali je vlasnička tehnologija, i Paraccel, kaže Minelli.

Deo IBM-ove Netezza tehnologije usko vezan za InfoSphere, Oracle-ov (Nasdaq: ORCL) Exadata, i EMC-ov Greenplum, i još neki, nude vlasničke alatke za obradu velikih podataka, takođe.

EMC je predstavio slobodno izdanje baze Greenplum namenjeno upotrebi u zajednici. Ovo izdanje za zajednicu je isključivo softverski-bazirana alatka, kako navode u Mesabi Group Hill.

Greenplum Community Edition nije takmac za trku s Hadopom; naprotiv, to je "projekat čiji je cilj da uvrsti najbolje od tehnologija na raspolaganju, kako bi obezbedio najbolji mogući izbor platforme", kaže za LinuxInsider Luke Lonergan, podpredsednik i šef tehnologija u odeljenju EMC-a za proizvode za obradu podataka (EMC Data Computing Products Division).

Inicijalno izdanje Greenplum Community Editiona podrazumeva tri modela saradnje - Greenplum DB, MADlib i Alpine Miner, kaže Lonergan.

Alati otvorenog koda za ove namene su Hadop, Map/Reduce i Jaspersoft obaveštajni poslovni alati.

Jaspersoft nudi obaveštajne poslovne alate koji omogućavaju izveštavanje, analitiku i ETL (izvlačenje, transformaciju i učitavanje, eng: extract, transform and load) za baze za udruženu paralelnu analitiku (massively parallel analytic databases), uklojučujući EMC Greenplum,  i HP-ovu (NYSE: HPQ) Verticu. U pripremi je i verzija za rad s IBM-ovom Netezzom, kaže za LinuxInsider Andrew Lampitt, direktor obaveštajnog poslovanja u Jaspersoftu.

Jaspersoft takođe obezbeđuje i najprilagođenije sisteme za izveštavanja (native reporting) kroz konektore otovrenog koda za Hadop i razne vrste NoSQL baza, uključujući MongoDB, Riak, CouchDB i Infinispan.

Otvoreni kod protiv vlasničkih alatki

Alatke otvorenog koda omogućavaju uvid u kod, pa tako programeri (developers) mogu saznati šta se nalazi "unutra" kada integrišu softver, kaže Jaspersoftov Lampitt.

"Kada je u pitanju gotovo sve i jedna instanca, analitika rađena pomoću otvorenog koda biće efektivnija u smislu troškova, i fleksibilnija od tradicionalnih vlasničkih sistema", kaže Minelli iz Revolution Analyticsa.

"Skladištenja podataka rastu do razmera pri kojima su kompanije primorane da uvećavaju svoju infrastrukturu, a troškovi vlasničke licence tada se vinu ravno u nebo. S tehnologijama otvorenog koda, posao radite brže i preciznije, za samo delić cene", dodaje on.

Twitter je "živi dokaz", upotrebljavajući Hadop, jer bi svaka druga tehnologija bila prosto preskupa.

Nadalje, alatke otvorenog koda omogućavaju poslovnom svetu da kreira nove tehnike u analitici, kako bi bolje obradio nestruktuirane podatke, kakvi su slike i fotografije, rekao je Minelli.

"Alatke otvorenog koda za analitiku omogućavaju vam da kreirate inovativne analize, koje možete uskladiti s vašim poslovanjem. U današnjoj krajnje takmičarskoj globalnoj ekonomiji, prosto ne možete čekati da neki proizvođač, u tradicinonalnom smislu tog izraza, razvije neku novu tehniku analitike", dodaje još Minelli.

Kao i u drugim sferama informatike, verovatno ćemo viđati mešavinu otvorenog koda i vlasničkih tehnologija, upotrebljene ta obradu velikih podataka.

"Na 'kratke staze', analitika bazirana na alatkama otvorenog koda postajaće sve više i više upotrebljavana, i njena će upotreba da se širi poput virusa", misli Minelli. "Na 'duže staze', počećemo viđati mešavine i prelaze između tehnolgija, na tržištima koja postavljaju visoke zahteve. Moja pretpostavka je da će obe [vrste tehnologija] ostati dostupne i potrebne."

Document Actions