[포커스온] 성공적인 AI 프로젝트를 위한 데이터 관리 솔루션의 선택
상태바
[포커스온] 성공적인 AI 프로젝트를 위한 데이터 관리 솔루션의 선택
  • CCTV뉴스 편집부
  • 승인 2024.02.27 15:54
  • 댓글 0
이 기사를 공유합니다

[글=김서환 프로 | 효성인포메이션시스템 데이터사업팀]
his-ksh@hyosung.com

 

기업들이 생성형 AI, 챗GPT, LLM(거대언어모델) 등에 관심을 집중하면서 AI 비즈니스는 산업 분야를 가리지 않고 앞다퉈 도입해야 하는 필수 항목으로 자리 잡고 있다. AI의 발전으로 데이터는 폭증하고 분석해야 할 데이터 양 역시 폭발적으로 증가하고 있다.

그러나 정작 AI 인프라를 도입하고도 스토리지 병목 현상 등 예기치 못한 문제로 고군분투 중인 기업들이 적지 않다. 따라서 다양한 종류의 데이터를 비용 효율적으로 저장하고 활용할 수 있는 데이터 운영의 혁신이 요구된다.

[출처: 게티이미지뱅크]

 

AI 솔루션이 갖춰야 할 조건

AI 시스템에 정확하게 고속으로 데이터를 공급하고 분석하려면 서버는 물론 스토리지와 네트워크도 고성능을 갖춰야 한다. 특히 스토리지는 고속 처리를 위해 하드디스크보다 NVMe 플래시 그리고 방대한 양의 데이터를 고성능으로 저장하기 위한 병렬 분산 파일 시스템이 권장된다.

많은 기업이 AI 분석에 적합한 성능 확보를 위해 GPU 클러스터 관련 기술을 우선 검토한다. 그러나 스토리지 레벨에서 요구되는 고성능 기술도 반드시 고려해야 한다. 기본적으로 확인할 사항은 GPU 다이렉트 스토리지(GDS) 지원 여부다. GPU와 스토리지 간 직접 연결을 위한 GDS 방식은 응답 성능을 최적화하고 GPU가 데이터를 읽고 쓰는 과정에서 불필요한 CPU 제약 사항이 제거된다.

DPDK(Data Plane Development Kit) 기술도 검토해야 한다. 서버의 로컬 디스크와 달리 외부 스토리지를 연결하려면 클러스터 서버에서 운영체제(OS) 커널을 통해 스토리지와 연동돼야 하며, 이 OS 커널의 병목을 줄여주는 기술이 필요하다. 커널을 통하지 않고 NIC(Network Interface Controller: 네트워크 정보 센터)의 네트워크를 포괄적으로 사용하는 기술이 DPDK다.

다양한 유형의 데이터가 하나의 시스템에서 서비스되는 멀티 프로토콜 지원 여부도 중요한 사항이다. AI가 학습해야 하는 데이터 유형은 정형, 반정형, 비정형 등 종류가 매우 다양하고 다양한 플랫폼에서 생성된다. AI 분석용 스토리지에서 멀티 프로토콜을 지원하지 않으면 플랫폼 별로 지원하는 프로토콜에 맞춰 스토리지 인프라를 구성할 수밖에 없으므로 비용과 관리 포인트가 증가한다.

또한, 데이터가 증가하면 비용도 그만큼 증가하기 때문에 AI 분석 업무를 진행할 때 데이터를 핫티어(Hot tier)와 콜드티어(Cold tier)로 구분해 효율적으로 관리할 필요가 있다. 핫티어에는 빠른 데이터 액세스가 필요한 활발히 사용되는 데이터를 주로 저장하고 분석이 끝난 데이터는 상대적으로 저렴한 콜드티어로 정책에 기반해 옮겨져 저장하는 것이 좋다. 필요 시에는 데이터를 다시 핫티어로 빠르게 이동해서 사용되는 자동 티어링 구조를 갖춰야 한다.

 

효율적 데이터 관리 위한 고성능 스토리지

효성인포메이션시스템은 성공적인 AI 프로젝트를 위한 고성능 스토리지로 HCSF를 공급하고 있다. HCSF(Hitachi Content Software for File)는 고성능 병렬 파일시스템과 오브젝트 스토리지가 통합되어 불필요한 병목 현상이 없으며 GDS, DPDK와 같은 고성능 처리 기술도 지원한다.

멀티 프로토콜을 지원하기 때문에 POSIX, NFS, SMB, S3, CSI 등 다양한 환경에서 어떤 종류의 애플리케이션과도 연동해 사용할 수 있다. 오브젝트 스토리지를 활용한 자동 티어링도 가능해 비용 효율적으로 데이터를 보관 및 처리할 수 있다.

AI/ML 분석 워크로드에 적합한 고성능 스토리지 ‘HCSF’[출처: 효성인포메이션시스템]

HCSF의 가장 큰 장점은 메타데이터 처리다. 데이터가 잘게 쪼개져 데이터 노드에 분산 저장되면 쪼개진 데이터 부분이 어느 노드에 있는지 잘 찾아내야 한다. 하지만 처리된 데이터가 워낙 방대해 메타데이터만 찾기에도 엄청난 시간이 소요될 수 있다.

일부 제품은 메타데이터 서버를 별도 구축해야 한다. 이럴 경우 스토리지 용량이 증가할 때마다 메타데이터 서버 역시 계속 증가하므로 불필요한 관리 포인트가 많아지고 비용이 발생한다. HCSF는 모든 노드가 메타데이터 서버 역할을 수행해 별도 서버 증설에 따른 병목 현상이 발생하지 않고, 관리 및 비용 측면에서도 매우 효율적이다.

효성인포메이션시스템 HCSF의 특장점[출처: 효성인포메이션시스템]

 

HCSF 도입으로 비즈니스 환경 업그레이드

HCSF를 도입해 비즈니스 환경을 성공적으로 업그레이드한 사례는 많다. AI 서비스 기업 업스테이지는 AI 교육 및 자사 AI 학습 모델 테스트 환경을 위한 프라이빗 클라우드 기반 HPC(고성능컴퓨팅) 인프라 구축에 HCSF를 도입했다.

고성능 스토리지 구축 및 GDS로 응답 성능 최적화를 실현하고 다수의 개발자∙분석가∙교육생 공동 운영을 위한 GPU 전용 스토리지 인프라를 확보했다. 향후 갑작스러운 데이터 및 사용자 증가에도 유연한 대응이 가능하고 GPU 서버 인프라를 고려한 스토리지 최적화를 통해 최상의 HPC 운영 환경을 구현했다.

두 번째는 AI 인프라가 요구하는 고성능 요건을 만족시킨 사례다. 대형 제조기업 A사는 데이터 웨어하우스 및 하둡 데이터 분석 시스템을 이용했으나 확장성과 성능 저하가 큰 문제였다. 이를 해결하기 위해 전사 통합 저장소를 구축하고 차세대 전사 데이터 분석 체계로 전환했다.

현장 데이터에 대해 고성능 데이터 분석을 기반으로 대용량 쿼리가 가능토록 하는 한편, 향후 AI/ML을 위한 전사 분석 체계도 마련했다. 현재는 고성능 데이터 분석 기반과 각기 다른 데이터 인터페이스 클라이언트 환경을 지원하는 통합 스토리지인 오브젝트 스토리지가 NVMe 티어링과 비정형 데이터 서비스 용도 두 가지로 나뉘어 동시 운영되고 있다.

마지막은 생성형 AI와 LLM 구축 사례다. 많은 기업이 그룹 내 중요 데이터를 외부에 유출하지 않고 자체적으로 생성형 AI 또는 LLM 분석을 위해 온프레미스 환경을 구축하고 싶어한다. B사는 GPU 클러스터, 고성능 스토리지 등 AI 프로젝트를 위한 최적의 인프라를 통합 구축 및 관리할 벤더를 찾았다.

효성인포메이션시스템은 GPU 기반 슈퍼마이크로 서버와 고성능 병렬 파일 시스템 HCSF를 사전 설계해 성공적으로 B사의 AI 인프라를 구축했다. 또한 향후 유지보수까지 모두 지원하는 체계도 제공했다.

 

로드맵 수립부터 원스톱 지원까지, 전문가의 중요성

AI 비즈니스를 준비 중인 기업 가운데 LLM 및 AI 모델을 한 가지 관점에서만 고민하는 경우가 많다. 하지만 이 모델들은 끊임없이 진화하고 있어 지속적으로 운영하기가 쉽지 않다.

탄탄한 인프라를 위한 컴퓨팅 파워, 네트워크 속도, 스토리지 구성 등을 초기부터 종합적으로 살펴보고 기업 환경에 맞는 전략을 수립해야 향후 투자 비용을 최소화할 수 있다. 전문 기업의 컨설팅을 통해 자사 환경에 맞는 로드맵 수립 후 최적의 인프라를 체계적으로 도입하는 것이 무엇보다 중요하다.

효성인포메이션시스템은 컴퓨팅부터 네트워크, 스토리지까지 HPC 구현에 필요한 모든 기술과 컨설팅을 종합 제공한다. 수년간 다양한 산업 분야에서 쌓은 노하우와 전문화된 인력, 성공 사례를 바탕으로 안정적인 원스톱 지원이 가능하다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.