Úvod > Články > Strach o unikátní a drahá data

Strach o unikátní a drahá data

Důležitá data, jejichž získání zabralo roky a stálo v přepočtu miliardy korun, jsou v ohrožení. Část údajů se ztratila, část nejde přečíst, protože neexistuje potřebný software, popř. dnešní výpočetní platformy si s tím už neporadí. Řeč je přitom jen o jednom vědeckém projektu.

Kolega Honza Lipšanský tady na DSL.cz nedávno napsal článek na téma problematiky s čtením „starých“ dat, resp. médií, na kterých jsou taková data uložena. Samozřejmě, že článek byl napsán s notnou dávkou nadsázky (doufejme, vždyť jde i o rubriku O IT nevážně :-)), nicméně někteří čtenáři se chytli a problematiku „co s daty za X let“ dovedli do takových rozměrů, že došli k závěru, že Věstonická Venuše z mladšího paleolitu může být záznamovým médiem dávných dat, jež neumíme přečíst... ;-)

Ale teď trochu vážněji.

Co s dnešními daty? Nesdílím zas tak šílenou skepsi, že všechna data se jednou ztratí nebo nepůjdou přečíst. To bychom museli začít opravdu zase od stromů, musela by se nějak ztratit kompletní lidská znalost světa. Každopádně je pravda, že optická média mají reálnou životnost kratší a jsou náchylná na poškození. Na druhou stranu právě magnetické pásky patří k tomu nejspolehlivějšímu, co v IT známe.

Dnešní data jsou často ukládána ve formátech splňujících určité standardy. Je poté jedno, kam a jak je uložíme, měly by se vždy zachovat. Horší je to u nestandardních formátů a speciálních typů dat, které umí přečíst (a nakládat s nimi) jen určitá skupina lidí (neřkuli jednotlivci). Průšvih je to tehdy, když taková data jsou opravdu cenná a jejich ztráta může znamenat to, že se v poznání dané oblasti posuneme zase o kus zpátky.

To je případ zejména vědeckých poznatků, resp. experimentálních dat. Ty se často rodí těžce a několik let. Dojde-li nakonec k tomu, že data z nákladných projektů zmizí nebo se poničí, je to průšvih. Jednak pro ověření studií, jednak také pro další výzkum. Spousta syrových dat se totiž zpracovává léta, a pokud se nedejbože ztratí, je to pro danou disciplínu problém. Nákladné projekty za stejných podmínek totiž obvykle již nejde zopakovat.

Největší leptonový urychlovač částic a data

Tohle je přesně případ částicového urychlovače LEP, Large Electron-Positron Collider. Fyzika vysokých energií právě patří mezi ty přírodní vědy, kde při mezinárodních experimentech dochází k produkci závratného množství dat.

Po rocích experimentů teď hrozí, že fyzici o svá data přijdou. O některá dokonce přišli. Současné platformy totiž mají s takovými daty a i programy velký problém.

Urychlovač LEP byl jedním z nejúžasnějších fyzikálních přístrojů, jež fyzici vytvořili. Spuštěn byl v roce 1989 poblíž Ženevy ve středisku CERN (Evropské organizaci pro jaderný výzkum) a v podzemí uloženém v prstenci (tunelu) o obvodu 27 kilometrů srážel svazky elektronů a jejich antičástic, svazky pozitronů. V roce 2000 ho vědci vypnuli a rozebrali. Už nějakou dobu se totiž připravovali na jeho nástupce, urychlovač LHC, největší fyzikální aparaturu pro výzkum hmoty na světě. Monstrózní LHC ale už sráží protonové svazky – v tomto ohledu tedy LEP zůstane největším leptonovým urychlovačem, který kdy byl sestrojen (leptony jsou skupina částic, do níž patří zmíněné elektrony a pozitrony).

Během let v urychlovači došlo k mnoha experimentům (používaly se čtyři detektory: ALEPH, DELPHI, OPAL a L3), sesbíralo se na tehdejší dobu velké množství dat. Zakrátko po spuštění v něm fyzici srážkami elektronů a pozitronů při energii zhruba 90 GeV (a při rychlosti skoro rovné rychlosti světla) připravili částice Z a poté i W (tzv. Z a W bosony; částice přenášející tzv. slabou jadernou interakci, jednu ze čtyř fundamentálních sil vesmíru). Ty byly sice už experimentálně objeveny v roce 1983 a teoreticky předpovězeny koncem 60. let, ale LEP fyzikům umožnil ověřit řadu věcí ze standardního částicového modelu.

Fyzici rovněž doufali (jak už dlouho doufají), že se jim podaří najít tzv. Higgsovy částice (Higgsovy bosony) – bohužel ani modernizace urychlovače, která umožnila v roce 2000 provést srážky s energií 209 GeV, nepomohla. Higgsovy částice zůstaly opět skryté v bezpečí sukně Matky Přírody.

Higgsovy částice bude hledat i dnešní urychlovač LHC – pro srovnání, LHC dosáhne srážek při celkové energie 14 TeV, což je tedy 70x více, než co fyzici dostali z LEPu. To by v tom musel být čert, aby se ani teď neukázaly.

Záchrana dat

Leckoho to možná překvapí, ale ještě dnes (více než devět let po odstavení urychlovače) fyzici pracují na pěkné řádce vědeckých článků, ke kterým data z LEPu potřebují. A protože experimenty už nebude možné zopakovat, jejich záchrana je pro výzkum dost důležitá. Data jsou prostě unikátní.

Z dnešního hlediska jich přitom není moc: zhruba 100 TB (náruživí stahovači si určitě už musí brousit zuby, poskytovatel je pochválí), ale přesto jsou v tom určité překážky. (Mimochodem těch dat je vlastně hodně: jen si vzpomeňme, jaké kapacitní možnosti byly v 90. letech.)

V současnosti jsou tato data (syrová, statisticky upravená i zrekonstruovaná) uložena v CERNu v systému CASTOR, zálohovém systému založeném na magnetických páscích. Jakýmsi pravidlem v CERNu je, že když se objeví nové médium, pásky se znova kopírují. Bohužel už se zjistilo, že některá data se ztratila: jednak zmizelo pár kazet, jednak mají být některé části kazet nečitelné, proto určitá data nebude možné obnovit.

Mnohem složitější než kopírovat a uchovávat data je jim porozumět. Tedy nejen uchovat data jako taková, ale rovněž veškerý software, který je s to je přečíst a kterým lze znovu odvodit a ověřit to, co dříve fyzici zjistili. Údaje bez programů schopných jejich analýzy jsou poněkud bezcenná.

Svízel je ta, že množství původního softwaru není možné spustit na dnešních výpočetních platformách.

Všechny experimenty (příslušné jednotlivým detektorům vyjmenovaným výše) používaly pro simulační a rekonstrukční kódy z velké části Fortran (ještě FORTRAN 77!) a také systém zvaný ZEBRA.

„Zatímco kompilátory FORTRANu tady s námi pravděpodobně ještě nějakou dobu pobudou, centrální podpora pro CERNLIB (čehož je ZEBRA součástí) neočekávaně skončila. Aktuální přechod na systém Scientific Linux CERN 5, migrace a ověřování CERNLIB na nové platformě bude předmětem experimentů,“ zní z CERNu. Vědci rovněž vyslovují znepokojení, že přepsání kódů s sebou může nést vážné riziko vedlejších účinků neznámých rozměrů. Některý software už kvůli komerčním knihovnám přestal fungovat úplně.

Další průšvih je, že ne všechen software je uložen v centrální databázi a ne ke všemu existuje potřebná dokumentace, která by pomohla v dalším přepisování kódů a analýzám. Navíc část programů byla vytvořena čistě jednotlivými vědci u jejich počítačů – nejenže neexistuje dokumentace k takovému softwaru, ale navíc ani samotné programy. Ty byly z počítačů vymazány, jakmile jedinec odešel z CERNu pryč.

Jak bylo řečeno, data (a s nimi související software) jsou potřeba pro stále probíhající výzkum a také pro ten budoucí. CERN upozorňuje, že data z LEPu budou hrát důležitou roli, jakmile se při fyzikálních experimentech objeví něco, co půjde nad rámec současného standardního částicového modelu. V takovém případě data z LEPu můžou posloužit jako kontrola výsledků, načež případný objev, nový model, může být potvrzen nebo vyvrácen.

V důsledku posunu v používání jazyka C++ namísto Fortranu chřadne podpora knihoven nezbytných k přístupu a analýze dat z LEPu. CERNu nezbývá nic jiného, než se v následujících letech snažit pracovat na přepisování softwaru tak, aby ze všech těch těžce nabytých údajů nezbyla jen kupa něčeho nepoužitelného. Týmy z experimentů ALEPH a OPAL proto v současnosti umožňují přístup k datům i lidem zpoza bran CERNu – tedy těm, kdo chtějí v jejich záchraně pomoci.

Z toho se CERN musí poučit: objem dat, který produkuje urychlovač LHC, je totiž nesrovnatelně větší. Nesrovnatelně: z detektorů v LHC tečou data rychlostí 300 GB/s, po filtraci pak důležité události mají datový tok asi 300 MB/s. Každý den LHC vychrlí 27 TB syrových dat.

Článek o problémech s daty a softwarem z LEPu zájemci najdou v ArXivu Cornellovy univerzity (anglicky): arxiv.org/abs/0912.1803: Data Preservation at LEP.

22. 1. 2010

Autor: Oldřich Klimánek

Sdílejte

Přečtěte si také

 

Mafra posiluje své postavení na realitním trhu

Vydavatelství Mafra rozšířilo své portfolio o společnost AdInternet. Česká firma se specializuje na prodej realit...

 

Elop končí v Microsoftu, co s ním bude teď?

Dvaapadesátiletý Stephen Elop opustil pozici výkonného viceprezidenta Devices & Services ve společnosti Microsoft...

 

Hlídejte si své účty před kyberútoky

Kyberloupeže a útoky na účty klientů bank v České republice během posledního roku rapidně stouply. Banky posilují...

Nejčtenější články

Víme, kde v říjnu došlo ke zrychlení DSL připojení!

 

CETIN v posledních měsících intenzivně zrychluje DSL připojení. Přinášíme vám seznam 30 obcí, kde se v říjnu...

Proč se na pořádný fotbal nepodíváte ani na ČT?

 

Britskou Premier League, Sky Bet Championship a španělskou ligu mohou čeští diváci sledovat pouze na Nové Digi TV a...

Naměřené rychlosti internetu na DSL.cz v říjnu 2016

 

Rychlost mobilního LTE internetu byla v říjnu nejvyšší u operátora O2. V síti 3G je nejrychlejší T-Mobile. Co se...