На конференции Supercomputing 2010 корпорация IBM сообщила подробности о новой архитектурной модели хранения данных, разработанной учеными ее исследовательского подразделения. Новая архитектура позволит преобразовывать терабайты «чистой» информации в применимые на практике знания в два раза быстрее, чем это было возможно ранее, и прекрасно подойдет для приложений облачных вычислений и рабочих нагрузок с интенсивной обработкой данных: цифровым медиа, финансовой аналитике и извлечению из данных ценной информации.

Новая архитектура, созданная в исследовательском центре IBM Research–Almaden и получившая название General Parallel File System-Shared Nothing Cluster (GPFS-SNC), призвана обеспечить повышенный уровень готовности посредством технологий кластеризации и управления динамической файловой системой, а также новаторским методикам репликации данных. Она основана на принципе shared nothing («никаких общих ресурсов») – узлы в составе кластера не имеют одновременного доступа к одним и тем же данным, а каждый из них работает со своим отдельным разделом базы данных. Это позволяет достичь новых уровней готовности, производительности и масштабируемости. GPFS-SNC представляет собой распределенную вычислительную архитектуру, в которой каждый узел является самостоятельным объектом; рабочие задачи распределяются между этими независимыми объектами-компьютерами, и ни один из них в процессе работы (и обращения к данным) не тратит время на ожидание другого.

Предложение IBM на базе GPFS является ключевой технологией для таких решений, как IBM High Performance Computing Systems, IBM Information Archive, IBM Scale-Out NAS (SONAS) и IBM Smart Business Compute Cloud. Инновации, разработанные в исследовательском центре, способствуют дальнейшему распространению этих решений и должны помочь справиться с серьезными проблемами больших объемов данных. К примеру, крупные финансовые институты, которые используют сложнейшие алгоритмы для анализа информации, вынуждены обрабатывать петабайты данных. Во всем мире через разнообразные вычислительные платформы проходят, а затем сохраняются, многие миллиарды файлов. Кроме того, эти ответственные вычисления из-за своей сложности требуют очень значительных ресурсов и затрат. Благодаря применению архитектуры GPFS-SNC выполнение сложных аналитических рабочих нагрузок может стать более эффективным, поскольку эта архитектурная модель предоставляет единую файловую систему и пространство имен (namespace) для всех разнородных вычислительных платформ, оптимизируя процесс и экономя дисковую память.