UK Biobank 데이터가 알리바바 쇼핑몰에 올라왔다: 유전체 오픈사이언스의 딜레마

50만 명의 의료 데이터가 알리바바 전자상거래 플랫폼에 매물로 올라왔다는 소식을 처음 접했을 때, 나는 2008년 금융위기 당시 신용부도스와프(CDS) 시장이 붕괴하던 순간을 떠올렸다. 당시에도 "분산된 리스크는 관리된 리스크"라는 논리 아래 수조 달러짜리 폭탄이 조용히 쌓여가고 있었다. UK Biobank의 데이터 유출 사건은 규모는 다르지만 구조적으로 동일한 질문을 던진다: 공유의 효익을 극대화하면서 리스크를 어떻게 내재화할 것인가?

UK Biobank 사건이 드러낸 구조적 균열

올해 4월, 50만 명의 UK Biobank 참가자에 대한 '비식별화된' 바이오메디컬 데이터가 항저우에 본사를 둔 알리바바 산하 전자상거래 플랫폼에 매물로 등장했다. 영국 바이오뱅크와 알리바바, 그리고 양국 정부가 즉각 협력해 실제 판매가 이루어지기 전에 게시물을 삭제했지만, 데이터가 이미 어떤 경로로든 유출·복사되었을 가능성은 배제할 수 없다.

"UK Biobank는 연구 플랫폼 접근을 일시 중단하고, 데이터 반출 모니터링을 강화하며, 원래 데이터를 제공받은 학술 기관에 대한 접근 금지 조치를 시행했다." — Nature, 2026년 5월

미국에서도 유사한 사건이 발생했다. 한 연구자 집단이 미국 국립보건원(NIH)이 자금을 지원한 '청소년 뇌 인지 발달 연구(ABCD Study)'에 참여한 2만여 명 아동의 비식별 데이터를 제한 규정을 우회해 취득했고, 이를 백인 우월주의 관점을 선전하는 데 활용했다. NIH는 이후 접근 요건을 강화하고, 책임 있는 데이터 사용에 관한 의무 교육과 준수 여부 점검을 추가했다.

두 사건의 공통점은 명확하다. 비식별화라는 기술적 장치가 완전한 보호막이 아니라는 것, 그리고 데이터가 한 번 배포되면 그 이후 경로를 추적·통제하기가 구조적으로 어렵다는 것이다.

"비식별화"는 왜 충분하지 않은가

경제학에서 우리는 종종 "정보의 비대칭성"을 시장 실패의 원인으로 지목한다. 유전체 데이터 분야에서는 이 비대칭성이 역설적으로 역전된다. 데이터를 보유한 연구자나 악의적 행위자는 재식별화(re-identification)에 필요한 도구와 동기를 모두 갖추고 있는 반면, 데이터를 제공한 참가자는 그 데이터가 어디서 어떻게 쓰이는지 알 방법이 없다.

유전체 데이터는 금융 데이터보다 훨씬 더 영구적이다. 신용카드 번호는 바꿀 수 있지만, 유전자 서열은 바꿀 수 없다. 더욱이 유전체 정보는 개인에 그치지 않고 가족 전체의 생물학적 정보를 함축한다. 2013년 하버드 의대 연구팀이 단 몇 가지 메타데이터(나이, 성별, 우편번호)만으로 비식별 유전체 데이터를 재식별하는 데 성공했다는 사실은 이미 10년 전에 확인된 현실이다.

이런 맥락에서 보면, UK Biobank 사건은 단순한 보안 사고가 아니라 오픈사이언스 모델 자체의 내재적 취약점을 드러낸 사건이다.

글로벌 금융 시스템과의 유사성: 공유의 경제학

이 딜레마는 글로벌 금융 시스템의 구조와 놀랍도록 닮아 있다. 국제 자본 시장은 자본의 자유로운 이동을 통해 효율성을 극대화하지만, 바로 그 개방성이 전염 효과(contagion effect)를 낳는다. 2008년 미국 서브프라임 모기지 위기가 아이슬란드 은행 시스템을 무너뜨린 것처럼, 유전체 데이터의 개방적 공유 구조는 한 기관의 보안 허점이 전 세계 연구 생태계를 위협하는 경로가 된다.

Nature 기사가 지적하듯,

"이러한 침해는 전체 연구 커뮤니티에 영향을 미친다. 사람들이 연구 참여를 꺼리게 만들 수 있고, 기관들은 데이터베이스 접근을 제한하고 국제 데이터셋 의존도를 줄일 수 있다."

이는 경제학적으로 매우 심각한 부정적 외부효과(negative externality)다. 소수의 악의적 행위자가 일으킨 사건이 전체 유전체 연구 생태계의 신뢰 자본을 훼손하고, 장기적으로는 암 치료제 개발이나 희귀 질환 연구의 속도를 늦추는 비용을 사회 전체에 전가하는 구조다.

AI 화학이 여는 신약 발견의 새 악장에서 내가 분석했듯이, 유전체 데이터와 AI 기반 신약 개발은 점점 더 긴밀하게 연결되고 있다. UK Biobank 같은 대규모 코호트 데이터가 없다면, AI가 아무리 정교한 분자 설계 알고리즘을 갖추고 있어도 훈련 재료 자체가 고갈된다. 데이터 접근 제한은 단순히 연구 속도의 문제가 아니라 AI 기반 신약 개발 전체의 파이프라인을 위협하는 공급망 리스크다.

기사가 말하지 않는 맥락: 지정학적 차원

Nature 기사는 데이터 보안과 오픈사이언스 사이의 균형이라는 기술적 딜레마에 집중하지만, 이 사건에는 간과하기 어려운 지정학적 층위가 있다.

UK Biobank 데이터가 중국 기업 알리바바 플랫폼에서 유통되었다는 사실은, 현재 미중 기술 패권 경쟁의 맥락에서 단순한 데이터 보안 사고 이상의 의미를 갖는다. 유전체 데이터는 단순한 의료 정보가 아니라 전략적 자산으로 분류되기 시작했다. 미국은 이미 2024년 '생물보안법(BIOSECURE Act)' 논의를 통해 중국 기업의 미국 유전체 데이터 접근을 제한하는 방향으로 움직였고, 영국도 이와 유사한 방향의 규제 검토를 가속화하고 있을 가능성이 있다.

이 지점에서 나는 약간의 자기 비판적 시각을 더해야 한다. 나는 기본적으로 자유시장 솔루션에 우호적인 편이지만, 유전체 데이터만큼은 순수한 시장 논리로 접근하기 어렵다고 본다. 데이터의 원천인 참가자들은 자신의 데이터가 어떤 가치를 갖는지, 어디서 어떻게 유통되는지를 알기 어렵고, 이는 전형적인 시장 실패 조건이다. 이 영역에서는 규제 개입이 단순한 효율성 저해가 아니라 신뢰 인프라의 구축이라는 점을 인정해야 한다.

인간 판게놈 프로젝트와 데이터 다양성의 경제학

기사가 언급하는 또 다른 중요한 흐름은 인간 판게놈 참조 컨소시엄(Human Pangenome Reference Consortium)과 중국 판게놈 컨소시엄의 등장이다. 유전체 연구는 이제 소수의 개인에서 도출된 단일 참조 게놈을 넘어 인구 규모의 다양성을 반영하는 모델로 전환되고 있다.

이 전환은 경제적으로도 중요한 함의를 갖는다. 유럽계 중심의 기존 유전체 데이터베이스는 아프리카, 아시아, 라틴아메리카 인구에 대한 의료적 적용 가능성이 제한적이다. 다양성이 부족한 데이터는 편향된 알고리즘을 낳고, 이는 의료 불평등을 기술적으로 고착화하는 결과를 초래한다. 이는 단순한 과학적 문제가 아니라 수십억 명의 의료 접근성과 직결된 분배적 정의의 문제다.

그런데 아이러니하게도, 데이터 보안 사건들이 국제 데이터 공유를 위축시킨다면, 가장 큰 피해를 보는 것은 바로 이 다양성 확보의 노력이다. 보안 강화가 필연적으로 접근 장벽을 높이고, 접근 장벽은 데이터 다양성을 저해하는 경제적 도미노 효과를 낳는다.

a bar chart showing the top u states by population in 1950

Photo by Abdul Hakim on Unsplash

해법의 방향: 신뢰 아키텍처의 재설계

그렇다면 이 딜레마를 어떻게 풀 수 있을까. 기사는 "안전한 공유, 플랫폼 간 표준화, 전 지구적 규모의 데이터셋 통합"을 해법으로 제시하지만, 이는 방향은 맞되 구체성이 부족하다.

내가 보기에 실질적인 해법은 세 가지 층위에서 동시에 작동해야 한다.

첫째, 기술적 층위: 연합 학습(Federated Learning)과 차등 프라이버시(Differential Privacy) 기술의 적극적 도입이다. 이 기술들은 데이터를 한 곳에 집중시키지 않고 각 기관의 서버에 분산 저장한 채로 모델을 훈련시키거나, 통계적 노이즈를 추가해 개인 식별 가능성을 수학적으로 제한한다. 이미 구글 헬스와 일부 유럽 의료 컨소시엄이 이 방향으로 움직이고 있다.

둘째, 거버넌스 층위: 현재의 "데이터 접근 허가 후 사후 감시" 모델에서 "지속적 실시간 감사(Continuous Audit)" 모델로의 전환이 필요하다. 금융 시장에서 거래 모니터링 시스템이 이상 거래를 실시간으로 탐지하듯, 유전체 데이터 플랫폼도 비정상적 데이터 반출 패턴을 자동으로 탐지하는 인프라를 구축해야 한다. UK Biobank 사건은 이 감시 체계의 공백이 어떤 결과를 낳는지를 명확히 보여준다.

셋째, 경제적 인센티브 층위: 데이터 기여자, 즉 연구 참가자에게 어떤 형태로든 가치 환원 메커니즘을 설계하는 것이다. 참가자들이 자신의 데이터가 어떻게 활용되는지 알고, 그 성과의 일부를 돌려받는 구조가 형성된다면, 연구 참여 의향은 오히려 높아질 수 있다. 이는 공상적 아이디어가 아니라 이미 일부 바이오뱅크가 탐색 중인 모델이다.

독자에게: 이 사건을 어떻게 읽어야 하는가

이 사건을 단순히 "중국의 데이터 절도"나 "연구자 윤리 위반"으로 읽는 것은 지나치게 단순화된 시각이다. 이는 글로벌 오픈사이언스 모델이 설계 단계에서 충분히 고려하지 못한 신뢰 인프라의 결함이 가시화된 사건이다.

체스판의 비유를 빌리자면, 유전체 데이터 공유의 글로벌 체스판에서 우리는 지금 킹을 보호하는 룩과 비숍의 배치를 재검토해야 하는 국면에 있다. 공격적 개방성과 수비적 보안 사이에서 최적의 포지션을 찾는 것, 그것이 지금 이 분야가 직면한 가장 중요한 전략적 과제다.

AI 클라우드 자동 스케일링이 재무팀에게 예상치 못한 비용 충격을 안겨주듯이, 데이터 거버넌스의 허점도 사후에야 그 비용이 드러난다. 문제는 유전체 데이터의 경우 그 비용이 단순한 재무적 손실을 넘어 인간의 존엄성과 의료 신뢰라는 영역으로 확장된다는 점이다.

유전체 연구가 인류 건강의 교향곡에서 가장 중요한 악장을 연주하고 있다면, 지금 우리에게 필요한 것은 연주를 멈추는 것이 아니라 악보를 더 안전하게 보관하는 방법을 찾는 것이다. 그 방법을 찾지 못한다면, 가장 큰 대가를 치르는 것은 데이터를 기증한 50만 명의 참가자도, 연구자도 아니라, 그 연구의 성과를 기다리는 수억 명의 환자들일 것이다.

이 글은 Nature의 원문 기사를 바탕으로 작성되었습니다.

이코노 | 2026년 5월 12일

그래서, 투자자와 정책 입안자는 무엇을 해야 하는가

글을 마무리하기 전에, 나는 독자들이 가장 실용적으로 묻고 싶어 할 질문을 직접 다루고 싶다. "이 모든 분석이 나의 포트폴리오, 혹은 내가 속한 기관의 의사결정과 어떤 관련이 있는가?"

답은 생각보다 직접적이다.

바이오테크·제약 투자자라면, 지금 당장 보유 종목 혹은 관심 종목의 데이터 거버넌스 구조를 들여다봐야 한다. 기업이 사용하는 유전체 데이터의 출처가 어디인지, 해당 데이터의 수집·관리 과정에서 연방수사국(FBI)이나 규제 당국의 조사를 받을 소지가 있는지를 점검하는 것은 이제 ESG 체크리스트의 한 항목이 아니라, 리스크 관리의 핵심 변수다. 2008년 금융위기 당시 서브프라임 모기지의 기초 자산 품질을 묻지 않았던 투자자들이 어떤 결말을 맞았는지를 우리는 이미 알고 있다. 유전체 데이터의 출처와 적법성은 바이오테크 시대의 "기초 자산 품질"에 해당한다.

정책 입안자라면, 이번 UK Biobank 사건이 단순한 보안 사고가 아니라 글로벌 과학 협력 체계의 제도적 설계 실패임을 인식해야 한다. 특히 한국의 경우, 바이오헬스를 국가 전략 산업으로 육성하는 과정에서 자국 유전체 데이터의 국외 유출 가능성에 대한 법제적 방어막이 충분히 갖춰져 있는지 재검토할 필요가 있다. 생명윤리법과 개인정보보호법의 교차 지점에서 발생하는 규제 공백은 생각보다 넓다. 내가 지난해 분석에서 지적했듯이, 규제의 공백은 시장이 채우기 전에 반드시 위험이 먼저 채운다.

일반 시민이자 잠재적 연구 참가자라면, 이번 사건은 당신의 데이터 기증 결정이 단순한 선의의 행위를 넘어 정치경제학적 함의를 지닌 선택임을 상기시켜 준다. 당신의 유전체 정보는 단순한 건강 데이터가 아니다. 그것은 국가 안보, 보험 산업의 리스크 모델링, 제약사의 신약 개발 파이프라인, 그리고 AI 모델 훈련의 원재료가 될 수 있는 자산이다. 이 사실을 인지한 채로 참여 여부를 결정하는 것과 모르는 채로 결정하는 것 사이에는 질적인 차이가 있다.

결론: 신뢰는 인프라다

경제학에서 신뢰(Trust)는 오랫동안 "소프트한 변수"로 취급받아 왔다. 계량화하기 어렵고, 모델에 직접 삽입하기 불편하며, 단기 수익률과의 상관관계도 모호하다. 그러나 내가 20여 년의 경력을 통해 배운 한 가지 불변의 교훈이 있다면, 신뢰가 무너질 때 그 비용은 항상 우리가 예상한 것보다 크다는 사실이다.

2008년 금융위기는 결국 복잡한 파생상품의 문제가 아니었다. 그것은 "이 기관은 내가 맡긴 돈을 제대로 관리하고 있는가"라는 가장 원초적인 신뢰의 붕괴가 빚어낸 경제적 도미노 효과였다. UK Biobank 사건이 우리에게 경고하는 것도 본질적으로 같은 메시지다. "이 기관은 내가 기증한 데이터를 제대로 관리하고 있는가"라는 신뢰가 흔들리는 순간, 글로벌 오픈사이언스 생태계 전체가 참가자 이탈, 규제 강화, 국제 협력 위축이라는 연쇄 반응에 노출된다.

글로벌 금융의 거대한 체스판에서 가장 강력한 말은 종종 눈에 보이지 않는 곳에 있다. 유전체 데이터 거버넌스라는 말은 지금 당장은 화려한 공격 말처럼 보이지 않을 수 있다. 그러나 이 말이 제자리를 잡지 못하면, 인류 건강이라는 킹은 생각보다 훨씬 빨리 체크메이트에 몰릴 수 있다.

교향곡의 가장 아름다운 악장은 언제나 긴장과 해소의 반복 속에서 완성된다. 지금 우리는 긴장의 국면에 있다. 해소의 악장을 쓰는 것은 연구자도, 기업도, 정부도 혼자서는 할 수 없다. 그것은 데이터를 기증한 50만 명의 참가자들에 대한 약속을 지키기 위해, 이 생태계에 참여하는 모든 주체가 함께 작곡해야 하는 악보다.

그 악보가 완성될 때까지, 우리는 계속해서 질문해야 한다. 당신의 데이터는 지금 어디에 있는가?

이 글은 Nature의 원문 기사를 바탕으로 작성되었습니다. 이코노는 특정 기업이나 투자 상품에 대한 직접적 투자 권유를 하지 않습니다.

NOCODE TECH STACKER