quinta-feira, 12 de agosto de 2010

Recorde mundial: programa ordena um terabyte de dados em 60 segundos

Cientistas da computação da Universidade da Califórnia, em San Diego, quebraram a "barreira do terabyte", batendo um recorde mundial ao ordenar mais de um terabyte de dados (1.000 gigabytes ou 1.000.000 megabytes) em apenas 60 segundos.

Para se ter uma ideia, 100 terabytes de dados equivalem a cerca de 4.000 discos Blu-Ray, 21 mil DVDs ou 142.248 CDs.

A Internet criou muitos cenários onde a classificação de dados é crucial. Anúncios do Google relacionados ao assunto que você está pesquisando ou recomendações personalizadas de produtos em sites de compras, todos resultam de operações de ordenação de registros nas bases de dados que podem alcançar volumes na casa dos petabytes - um petabyte equivale a mil terabytes.

Isto sem contar a gestão das bases de dados internas das empresas, a mineração de dados ou as pesquisas de mercado.

Velocidade na classificação

Durante o 2010 Sort Benchmark, uma espécie de Copa do Mundo da classificação de dados, o grupo estabeleceu também um outro recorde mundial, este de velocidade, ao ordenar um trilhão de registros em 172 minutos.

A otimização apresentada nos algoritmos foi tamanha que o recorde de velocidade na classificação de dados foi batido usando apenas um quarto dos recursos computacionais usados pelo detentor do recorde anterior.

No Indy Minute Sort, os pesquisadores ordenaram 1,014 terabyte de dados em um minuto, quebrando a barreira do minuto para um terabyte pela primeira vez.

A equipe também cravou o recorde mundial no Gray Indy Sort, que mede a taxa de classificação por minuto para 100 terabytes de dados.

A categoria Indy é um tipo de competição no qual os sistemas são projetados em torno de parâmetros específicos determinados pelos organizadores.

Com os bons resultados alcançados, a equipe anunciou que o próximo passo será generalizar seus algoritmos, levando-os para a categoria Daytona - embora os resultados não sejam tão impressionantes, nesta categoria os sistemas estão preparados para uso no mundo real.

Computação extrema

Os resultados não são importantes apenas para a classificação de dados.

"Geralmente, a classificação é uma ótima maneira de medir o quão rápido você consegue ler um monte de dados de um conjunto de discos, fazer algum processamento básico sobre ele, fazê-lo circular por uma rede e gravá-lo em outro conjunto de discos," explicou Alex Rasmussen, coordenador da equipe duplamente recordista. "A classificação de dados impõe um bocado de estresse sobre o subsistema de entrada e saída, dos discos rígidos e do hardware de rede até o sistema operacional e os aplicativos."

Isso ocorre porque ordenar dados nesses volumes é bem mais complicado do que ordenar uma planilha eletrônica - dados na casa dos terabytes ou dos petabytes estão muito além da capacidade de memória dos computadores. O Indy Minute Sort, por exemplo, foi batido usando um sistema composto por 52 nós de rede, cada um com dois processadores quad-core de 24 gigabytes (GB) de memória e 16 discos de 500 GB.

Os dois novos recordes mundiais estão entre os 2.010 resultados divulgados recentemente no site gerido pelos cientistas voluntários da indústria e da academia que coordenam as competições. O endereço é http://sortbenchmark.org

Nenhum comentário: