제약사, 바이오 스타트업, 연구원 등 생명공학 리더들과 협력 사진제공 = NVIDIA
제약사, 바이오 스타트업, 연구원 등 생명공학 리더들과 협력 사진제공 = NVIDIA

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 엔비디아 GTC에서 DNA와 단백질 등 생명의 구성 요소에 대한 새로운 인사이트의 모색을 가속할 엔비디아 바이오네모(NVIDIA BioNeMo) 프레임워크를 발표했다.

엔비디아 바이오네모는 슈퍼컴퓨팅 규모를 가진 대형 생체분자 언어 모델의 훈련과 배포를 위한 프레임워크로, 질병의 이해와 치료의 개선에 기여한다. 대형 언어 모델(LLM) 프레임워크는 화학과 단백질, DNA와 RNA의 데이터 형식을 지원할 예정이다.

오늘날 생물학 데이터용 자연어 처리 모델을 사용하는 과학자들이 주로 훈련하는 신경망은 상대적으로 규모가 작고 맞춤형 전처리를 요한다. 바이오네모를 도입하면 수십억 개의 파라미터를 가진 LLM으로 모델을 확장해 분자 구조와 단백질 용해성 등에 대한 정보를 얻을 수 있다.

바이오네모는 대규모 자가지도(self-supervised) 언어 모델의 GPU 가속 훈련을 위한 엔비디아 네모 메가트론(NVIDIA NeMo Megatron) 프레임워크의 확장 기능이다. 도메인별로 특화돼 만들어지며, 화학적 구조를 표기하는 SMILES 기법이나 아미노산과 핵산의 시퀀스 문자열인 FASTA로 표현된 분자 데이터를 지원하도록 설계된다.

오픈폴드 컨소시엄(OpenFold Consortium)의 창립 멤버이자 컬럼비아대학교 시스템생물학과 조교수인 모하메드 알쿠라이시(Mohammed AlQuraishi)는 “바이오네모 프레임워크 덕분에 헬스케어와 생명과학 산업의 연구자들이 빠르게 증가하는 생물학과 화학 데이터세트를 제대로 활용할 수 있다. 이를 통해 특정 질병의 분자적 특징을 정확히 겨냥한 치료법을 보다 쉽게 발견하고 고안할 수 있다”고 설명했다.

저작권자 © 티뉴스 무단전재 및 재배포 금지