데이터 프라이버시에 있어 인공지능은 무엇을 의미하나요?

기술 과대광고는 변덕스러운 자원입니다. 몇 년 전만 해도 블록체인과 암호화폐는 벤처 투자가들이 수표장을 찾는 마법의 유행어였습니다. 이제 이 부문의 가치는 전성기의 40%에 달하고 주요 플레이어가 소송 수렁에 휩싸이게 되면서 매력을 끄는 힘은 약해졌고 인공 지능이 이달의 인기를 확고히 대체했습니다.

VC는 단순히 AI 개발자에게 돈을 넘겨주기 위해 필사적입니다. 3명의 프랑스 AI 엔지니어로 구성된 Mistral AI는 통합 후 단 한 달 만에 유럽 최대 규모의 시드 라운드에서 2억 4천만 유로의 가치로 1억 5백만 유로를 받았습니다. 정치인들도 마찬가지로 기술에 대한 혁신적인 생산성 향상에 대한 희망을 걸고 자신의 관할권이 AI 회사의 호스트가 될 수 있도록 최선을 다하고 있습니다.

과대광고는 정당할 수도 있다. 최신 AI 도구의 성능은 경외감을 불러일으키며, 그 확산과 발전이 막대한 경제적 결과를 가져올 것은 불가피해 보입니다.

그러나 암호화폐 산업이 규제 문제에 직면하고 있는 것처럼 AI도 여러 측면에서 자체적인 법적 싸움에 직면하기 시작했습니다. 암호화폐 산업이 증권법과 자금세탁 방지 제한으로 어려움을 겪고 있는 반면, AI 제공업체는 개인정보 보호 규제 기관과 활동가들의 분노에 직면해 있습니다. AI 부문에서 가장 문제가 되는 제도 중 하나는 유럽연합과 영국의 모든 거주자의 개인정보를 보호하는 법적 제도인 일반 데이터 보호 규정(GDPR)입니다.

공개적으로 이용 가능한 데이터의 함정

ChatGPT와 같은 대규모 언어 모델을 개발하려면 웹 스크래핑이라는 프로세스를 통해 방대한 텍스트 본문을 수집해야 합니다. 이러한 데이터 세트는 소셜 미디어 프로필과 같은 공개 온라인 소스에서 스크랩한 세부 정보를 수집합니다. 정보는 공개된 정보이므로 수집해도 문제가 되지 않겠죠? 잘못된. 개인 정보 보호 변호사들은 웹 스크래핑 및 분석에 관여하는 AI 개발자가 여전히 어려움에 처해 있다는 점을 지적하기 위해 애쓰고 있습니다.

Chris Elwell-Sutton은 영국 법률 회사 TLT의 데이터, 개인 정보 보호 및 사이버 보안 팀의 파트너입니다. '공개적으로 이용 가능한 소스에서 데이터를 가져오면 해당 데이터는 GDPR 및 유사한 개인 정보 보호 체제의 범위를 벗어난다는 일반적인 믿음이 있습니다. 이는 실수입니다. 잠재적으로 비용이 매우 많이 드는 실수입니다.'라고 그는 설명합니다. '귀하의 개인 데이터가 파일링 시스템에 저장되면 원본 출처에 관계없이 GDPR의 보호를 받게 됩니다.'

GDPR은 개인 데이터를 저장, 전송 또는 분석하는 모든 조직에 다양한 엄격한 의무를 부과합니다. GDPR로 인해 LLM 배포자가 직면하게 될 가장 근본적인 골칫거리는 수백만 명의 개인 데이터를 자신도 모르게 또는 동의 없이 대량으로 긁어 모으기 위한 법적 근거를 식별하는 것입니다. 이 문제는 유럽 전역에서 엄격한 규제 및 사법 조사를 받았으며 간단한 해결책이 보이지 않습니다.

GDPR이 생성 AI에 어떻게 적용될지에 대한 세부 사항은 아직 알려지지 않았지만, 길고 값비싼 전투가 확실하게 시작된 첫 번째 발사가 이루어졌습니다. ChatGPT는 부정확한 결과, 합법적인 처리 근거 부족, 어린이 데이터의 잘못된 취급으로 인해 이탈리아 데이터 보호 당국에 의해 일시적으로 금지되었습니다. Google은 유사한 개인 정보 보호 문제로 인해 경쟁사인 Bard의 EU 출시를 연기해야 했습니다. 비록 거대 기술 기업이 영국에서 서비스를 출시하는 것이 적합하다고 판단했지만, 이는 아마도 영국이 약속한 개인 정보 보호 시행에 대한 비즈니스에 긍정적인 접근 방식에 고개를 끄덕이는 것이었습니다. 브렉시트 이후 보수정부.

OpenAI는 연령 확인 기능을 제공하고 사용자가 훈련 모드에 사용되는 데이터를 선택 해제할 수 있도록 하며 '훈련 데이터 세트에서 개인 식별 정보를 제거하는 조치'를 취하는 등 개인 정보 보호 위치를 개선했습니다. 그러나 규제 당국이 만족할 만큼 이러한 주장을 입증하는 것은 어려울 것 같습니다.

OpenAI가 데이터 세트에서 개인 데이터를 제거하기 위해 사용한 정확한 기술은 아직 자세히 공개되지 않았지만 '데이터 필터링 및 익명화'에 대해 언급했습니다.