AI를 기반으로 한 문서 검토 지원 기술입니다. 사용자가 문서를 검토한 결과를 토대로 AI가 관련도 유/무를 판별하는 기준을 학습하고, 관련도가 높을 것으로 예상되는 문서들을 먼저 검토할 수 있게 하는 서비스 입니다.
방대한 양의 문서 중 관련있는 일부
문서를 검토하며 찾고자 하는 문서를
구분합니다.
전문가의 Insight를 기반으로 AI는
나머지 데이터에 대한 분석 및 분리를
진행합니다.
AI는 실시간 학습을 통해 사용자가
원하는 자료를 분석하여 관련도가
높은 문서를 우선적으로 검토하게
합니다.
Active Learning은 머신러닝의 특별한 기법으로 AI가 학습을 시켜주는 사용자(Human Reviewer)와 소통하여 보다 능동적인 방식으로 의사결정 기준점을 찾아가는 기법입니다. 결과의 불확실성을 최소화시키며 관련도 선별 정확도를 높여, 정확한 결과값을 빠르게 도출하는 효과가 있습니다.
Active Learning 기법을 통해 문서를 실시간으로 분석할 수 있으며, 사용자로 하여금 관련도 높은 문서들을 우선적으로 리뷰할 수 있도록 지원합니다.
주어진 데이터가 어느 범주에 속하는지 판단하는 Binary Classification 모델로서 머신러닝 종류 중 하나입니다. 트레이닝 데이터 간의 패턴 인식 후 두 그룹의 가장자리(Support Vector)의 경계를 토대로 의사 결정을 실행하며, 해당 경계가 모호할 때 시스템이 능동적으로 기준을 찾는 방식입니다.
문서의 내용에 포함된 의미, 텍스트, 메타데이터 등을 분석하여 중요도 높은 내용을 찾아내거나 문서간 유사점과 차이점을 식별하는 분석 기술입니다.
Conceptual Analytics는 문서 내용의 의미를 고려하는 분석 기법으로 단순 키워드 검색이 아닌 문서 전체의 내용을 분석하여 중요 문서를 찾아낼 수 있습니다.
비슷한 범주의 그룹으로 문서를 분류하여 많은 양의 문서를 검토할 때 효과적인 기능입니다.
키워드 검색에서 더 나아가 잘못된 키워드를 수정해 주고 새로운 키워드를 추천하여 검색합니다.
“Phillipines 검색 시, Philippines” 검색
“Student” 검색 시, “Pupil” 검색
“Coke” 검색 시, “Cola” or ‘Soda” 검색
“Jive” 검색 시, “Jibe” 검색
Structured Analytics는 텍스트 및 메타데이터를 분석하여 같은 세트 안에 들어 있는 문서 간의 유사점과 차이점을 식별합니다.
완벽하게 동일한(Identical) 문서를 식별하기도 하며, 버전 관리와 같이 동일하지는 않지만 유사한 문서들 또한 식별하여 구분할 수 있습니다.
전체답장, 답장, 전달된 모든 이메일을 하나로 모아 대화의 맥락을 빠르게 살피고, 송수신인들의 관계를 쉽게 파악할 수 있습니다.
문서 작성에 사용된 언어를 감지하고, 해당 언어별로 문서를 구분할 수 있으며, 여러 개의 언어를 사용한 경우 각 언어의 사용량을 표시해 줍니다.
데이터 분석 기술부터 eDiscovery 최신 동향까지 Intellectual Data의 분석 전문가들이 전하는
다양한 칼럼을 통해 가장 최신의 인사이트를 확인해보세요.
2024년 한해도 마무리되어 가고 있습니다. 여러가지로 다사다난했던 한해였는데요. 보안사고 역시 어마어마했습니다. 2024년 상반기는 데이터 해킹 사고가 다수 발생한 시기로 기록되었습니다. 2024년 상위 5개 데이터 침해 사건을 위험 노출 점수에 따라 순위를 매겨보았습니다. 위험 노출 점수란 노출된 기록의 양, 노출된 기록의 재정적 영향, 랜섬웨어(Ransomware), 데이터 민감성, 데이터 침해의 심각성, 규제 노출 등을 척도화한 점수입니다. 공동 TOP 1 : 1억 건의 민감한 의료 데이터, 다크웹으로 유출되다1위는 Change HealthCare입니다. 이 회사는 미국 의료 시스템에서 상당히 중요한 역할을 하는 보험 청구 처리 허브입니다. 국민건강보험과 건강보험심사평가원이 있고, 각종 신분 확인시스템이 철저히 관리되는 한국에서는 이해가 가지 않을 수도 있겠지만, 이 사건은 미국에서 꽤나 큰 피해를 발생시켰습니다. 미국은 거의 모든 보험사 및 의료기관의 정보가 전산화되어 있다 보니, Change HealthCare를 거치는 가운데, 랜섬웨어 공격을 받아 약 1억건의 개인 및 의료 정보가 침해되었습니다. 추정 총 피해액수는 무려 179억 달러입니다.이 사건에는 개인별 건강, 의료 기록이 포함되어 있어서 매우 민감한 사건으로 취급되었는데요. 보통 이런 데이터는 다크웹에서 가장 가치 있는 데이터로 취급받습니다. 건강/의료 데이터는 신원 도용에 쓰일 수 있고, 훔친 정보를 사용하여 무단 의료 서비스를 받을 수도 있기 때문입니다. 미 법무부는 이 사건 이후 부랴부랴 Change HealthCare가 독점 금지법에 위배되는 것이 아닌지를 조사했지만, 사실상 (한국의 카카오톡처럼) 공공에 준하는 인프라로 공공연히 기생하고 있었다는 점에서 비난을 피할 수 없게 되었습니다. 공동 TOP 1 : 백그라운드 체크 기업인 NPD의 치명적 실수, 다크웹에서 거래된 개인정보공동 1위는 National Public Data(NPD)입니다. 지난 4월에 있었던 이 사건은 단일 해킹피해로는 최악의 사건이었는데요. 무려 29억개의 기록이 유출되었습니다. 이 회사는 범죄 기록, 주소, 고용 이력을 포함한 각종 공개, 비공개 데이터를 수집하고 판매하는 소위 '백그라운드 체크' 업체였는데요. 도난당한 데이터에는 미국, 영국, 캐나다 등에 거주하는 사람들의 이름, 주소 및 주소 변경 기록, 사회보장번호, 생년월일, 전화번호 등이 전부 노출된 것이 확인되었습니다. 이 데이터는 다크웹에서 350만 달러에 거래되면서 사건이 알려졌습니다. 문제는 이 해킹의 계기가 NPD의 한 브로커가 실수로 모든 정보에 접근할 수 있는 백엔드(backend) 데이터베이스의 암호를 실수로 홈페이지에 게시하면서 벌어졌다는 것입니다. NPD는 소송으로 인해 파산선언을 했지만, 천문학적인 유출 건수로 인해 피해가 어디까지 확산되었을 지는 아무도 알 수 없는 상황입니다. TOP 3: 해커와 협상을 하게 된 AT&T의 비트코인 40만 달러 지불 사례3위는 AT&T입니다. 통화, 메시지 기록을 포함하여 1억 1천만명에 달하는 가입자 대부분의 데이터가 유출되었습니다. 지난 3월에 한 번, 그리고 7월에 또 한 번 일어났는데요. 유출된 데이터 중에는 고객통신기록, 즉 이동통신 및 유선고객들의 전화 통화와 문자 기록까지 포함된 것으로 알려졌습니다. 통화와 문자의 전체내용과 개인정보는 포함되지 않았다고 AT&T 측은 해명했으나 연락한 번호와 서로 연락한 횟수 등은 포함돼 있어, 몇몇 정보가 결합되면 특정 전화번호를 가진 개인 정보를 손쉽게 식별할 수 있게 되는 점에서 의미가 없다고 볼 수 있습니다.AT&T는 해커들에게 도난당한 정보 삭제를 위해 비트코인으로 40만 달러(약 5억 5천만원)를 지급했습니다. 해커는 돈을 받은 대가로 데이터를 지우는 화면이 담긴 7분 길이 영상 등을 넘겨줬다고 하는데요. 이는 유사한 규모의 개인정보 유출/피해사례와 비교해 상대적으로 크지 않은 액수입니다. 금융이나 의료정보와 같이 즉시 악용 가능한 민감한 자료가 아니기 때문에 그런 걸 수도 있겠네요. TOP 4: 런던 병원들을 마비시킨 랜섬웨어 공격, NHS의 보안 허점4위는 영국의 의료 시스템인 NHS입니다. 이번에도 랜섬웨어(Ransomware) 공격을 받았으며, 해당 공격은 NHS의 서드파티 벤더 중 하나인 시노비스(Synnovis)였습니다. 해당 업체는 NHS와 연계하여 혈액 검사와 같은 실험을 대행하는 병리학 전문 연구실입니다. 해당 데이터를 병원들과 연계하여 주고받는데, IT 시스템이 마비되면서 NHS와 연결된 런던의 병원들이 마비되었습니다. 여러 건의 수술이 지연되기도 하고 각종 환자들이 다른 병원으로 이송되는 등 수많은 사람들이 영향을 받았고, 사실상 영국 의료계가 큰 혼란에 빠졌습니다.만약 공격자들이 환자들의 개인정보와 혈액형 정보를 가져갔을 경우 환자들은 후속 사이버 공격에 노출될 수 있기에 더 위험해집니다. 신원 인증을 주로 휴대전화나 인증서로 하는 한국과 달리 영미권에서는 환자의 의료정보를 통해 인증하기 때문에 특히나 더 위험입니다. 의료정보와 개인정보, PII(Personally Identifiable Information , 개인 식별 정보)가 결합하게 되면 사실상 개인 정보를 전부 확보한 것과 같기 때문이죠. TOP 5: 테일러 스위프트 투어 티켓 44만 장 갈취, 해커들의 협박전5위는 티켓마스터(TicketMaster)입니다. 이 회사는 콘서트, 극장, 스포츠 행사 티켓을 판매하는 업체인데요. 해킹범으로 주장하는 샤이니헌터즈(ShinyHunters)는 "테일러 스위프트의 투어 티켓 44만 장을 훔쳤다"고 주장하면서 티켓마스터의 모회사인 라이브네이션(Live Nation)에 800만 달러의 합의금을 요구했습니다. 해당 유출은 총 2억여 건에 달합니다. 유출된 정보 중 직접적으로 도용 가능한 티켓 정보만 해도 200억 달러가 넘는 것으로 알려졌는데요. 샤이니헌터즈는 라이브네이션 측에 100만 달러를 요구했는데, 자신들이 가진 데이터의 가치를 파악하고서는 800만 달러로 금액을 올렸습니다.이번 티켓마스터 사건으로 유출된 데이터는, 자동화 기술로 단순 스크래핑하여 수집한 정보가 아니라 정제된 데이터이기에 더욱 문제가 됩니다. 스크래핑하지 않은 개인 식별 정보가 이 정도 규모로 유출된 건 사상 최초입니다. 일단 데이터가 도난당하면 피해자가 데이터 보호를 위해 할 수 있는 일은 아무것도 없는데요. 최소한의 조치로 암호화만 시행했더라도 이 데이터를 쓸 수 없었을 것이라는 안타까움이 있습니다.흥미로운 것은, 이런 대규모 업체들의 해킹에는 관리자의 실수도 있지만 연결된 시스템이 있는 서드파티나 벤더, 혹은 스타트업이 있다는 것입니다. 실제 한국에서도 과거 전자책 플랫폼인 '밀리의 서재'나 명품 쇼핑 플랫폼 '발란'과 같은 스타트업 플랫폼에서 개인정보 유출 사고가 발생하기도 했는데요. 스타트업들은 핵심 서비스에 우선 투자를 하다 보니, 정보보호에 상대적으로 신경을 쓰지 못하는 경우가 많았습니다. '설마 우리 회사가 해킹을 당하겠어?'라는 안일한 인식도 있죠. 단기간에 성장을 이루다 보니 규모가 커진 후에 회사 상황에 맞는 보안체계를 구축하지 못하는 경우도 많습니다. 뒤늦게 보안을 강화하려고 하면 직원들이 번거로운 일로 여기기도 하죠. 기업내 정보보호 책임자의 부재 : 조직 문화로 정착해야 할 보안의식실제 소위 빅테크로 분류되는 일부 기업을 제외하곤 대부분이 정보보호 책임자가 없는 경우가 많습니다. 일부에서는 개인정보 데이터를 관리하는 관리자를 고용하려 해도 문제가 생겼을 때, 책임소재를 짊어질 수 있기 때문에 꺼린다는 말도 있었습니다. 실제로 국내 다수 스타트업의 경우 아직은 직접 정보보호 인력을 제대로 갖추거나 초기비용부담이 큰 보안 솔루션을 직접 도입하기보단, 자체적으로 기본적인 보안이 된 업체를 활용해 그 안에서 자신의 서비스를 하려는 경우가 더 많기도 합니다. 물론 현행법을 다 지키면서 경영을 이어가기에 업무량 부분에서 현실적으로 이행하기 힘들다는 지적도 있습니다. 규제를 다 맞추고 인증을 획득하기 위한 서류 작업하는 데만 시간이 상당히 소요되기 때문이죠.그래도 점차 정보보호에 대한 관심이 조금씩 커지면서 관련 솔루션을 도입하거나 관련 인력을 채용하려는 움직임은 커지고 있습니다. CPO, CISO를 채용하거나 ISMS, ISO27001을 획득하는 등의 보안 강화를 여러 업체에서 하고 있기 때문이죠. 또한 보안 솔루션 패키지나 어플라이언스를 도입하는 등의 활동도 늘어나고 있습니다. 하지만 무엇보다 가장 중요한 것은 보안에 있어서 가장 취약한 부분에 해커들은 무조건 공격을 한다는 것을 인지하고 거기에 대해 계속 관심을 가지고 보호하려는 조직 차원에서의 문화가 정착되는 것이어야 할 것입니다.
eDiscovery 관점에서 본 미국 소송과 기업 데이터 관리의 필요성디지털화로 데이터의 양이 급격히 증가하면서 데이터를 체계적으로 관리하는 능력은 법적, 규제적 성공을 좌우하는 중요한 요소가 되고 있습니다. 특히 eDiscovery제도는 데이터를 활용한 법적 절차와 비즈니스 협상에서 핵심적인 역할을 하고 있습니다. 많은 기업이 eDiscovery를 준비하는 과정에서 데이터 관리 부족으로 과도한 시간과 비용을 소비하고, 소송 과정에서 불리한 상황에 직면하는 사례가 증가하고 있습니다. 오늘은 데이터 관리가 왜 eDiscovery의 성공에 필수적이며, 나아가 미국 및 해외 소송에서 경쟁력을 확보하는 중요한 요소인지 알아보겠습니다.미국 소송과 eDiscovery: 왜 데이터 관리가 필수적인가?미국 소송에서 eDiscovery제도는 모든 민사소송에서 필수적으로 진행되는 과정으로, 양측 당사자가 소송 관련 증거를 투명하게 공개해야 합니다. eDiscovery는 이메일, 서버 로그, 클라우드 데이터 등 방대한 디지털 증거를 처리하여 법원에 제출하는 절차를 포함합니다. 이 과정에서 기업이 체계적인 데이터 관리를 하지 못한다면, 다음과 같은 문제가 발생할 수 있습니다. 시간 및 비용 소모: 필요한 데이터를 찾는 데 과도한 자원이 투입됩니다.법적 리스크 증가: 증거 누락, 조작 의심, 데이터 훼손 등으로 제재를 받을 가능성이 커집니다.평판 손상: 데이터 관리 미비로 신뢰를 잃거나 불리한 소송 결과를 초래할 수 있습니다.미국 소송은 대규모 데이터 처리를 요구하며, 소송의 성패가 데이터 관리 능력에 크게 좌우됩니다. 따라서 데이터 관리를 체계적으로 준비하는 것은 단순한 비용 절감을 넘어, 법적 신뢰성을 확보하고 소송의 결과를 유리하게 만드는 핵심 전략입니다. 체계적인 데이터 관리를 위한 첫 단계: 데이터 카탈로그(원본 출처:오라클 데이터 카탈로그 설명)효율적인 데이터 관리를 위해 가장 먼저 해야 할 일은 데이터 카탈로그를 작성하는 것입니다. 데이터 카탈로그는 기업이 보유한 모든 데이터를 체계적으로 정리해 신속한 검색과 활용을 지원하는 데이터 지도와 같은 역할을 합니다. 데이터 카탈로그는 메타데이터 기반으로 데이터를 정리합니다. 이를 통해 데이터의 생성일, 수정 이력, 소유자 등을 파악할 수 있으며, 데이터를 신뢰하고 활용할 수 있는 체계를 마련합니다.데이터 분류 체계: 방대한 데이터를 효율적으로 활용하다데이터 관리의 두 번째 단계는 데이터를 목적과 중요도에 따라 체계적으로 분류하는 것입니다. 데이터 분류 체계는 이메일, 계약서, 프레젠테이션 자료 등 데이터의 유형별로 분류하며, 민감 정보와 비민감 정보를 구분해 보안 수준을 설정합니다.데이터 보안과 접근 관리: 법적 신뢰성을 높이다데이터 관리 정책에서 보안과 접근 관리는 eDiscovery의 신뢰성을 높이는 핵심 요소입니다. 민감한 데이터의 유출을 방지하기 위해 강력한 보안 조치가 필요합니다. 첫째, 데이터 암호화를 통해 전송 중 데이터가 가로채지지 않도록 보호해야 합니다. 둘째, 다중 인증(MFA)과 최소 권한 원칙을 적용해 접근 절차를 강화하고 무단 접근을 방지해야 합니다. 셋째, 실시간 모니터링 시스템을 활용해 데이터 사용 내역을 추적하고 이상 행동을 즉시 탐지하는 것이 중요합니다. 이러한 조치들은 eDiscovery 과정에서 데이터를 신뢰할 수 있는 상태로 유지하고, 잠재적인 법적리스크를 최소화하는 데 기여합니다.성공적인 데이터 관리 정책: 경쟁력을 높이다해외소송에서 데이터 관리는 선택이 아닌 필수입니다. 효율적인 데이터 관리 정책은 단순한 비용 절감이나 법적 대비를 넘어 기업 경쟁력을 강화하는 중요한 전략적 자산입니다. 데이터 카탈로그 작성, 분류 체계 구축, 보안 강화를 통해 기업은 소송 대비뿐만 아니라 효율적이고 강력한 보안 조치를 통해 기업은 효율적인 eDiscovery 환경을 구축하고, 소송에서 경쟁력을 확보할 수 있습니다.증거개시제도는 국내 소송에서는 사용하지 않는 낯선 제도이지만 해외시장 진출을 희망하는 기업이라면 반드시 이해하고 있어야 할 제도이기도 합니다. 국내에서 찾기 힘든 증거개시제도 및 전자증거개시 관련 정보와 전문가 컨설팅이 필요하시다면 국내 대표 eDiscovery 전문 기업, 인텔렉추얼데이터 홈페이지에서 확인하실 수 있습니다!