[도서리뷰] 데이터 익명화를 위한 파이프라인

안녕하세요 괴짜 개발자 namedboy 입니다.

데이터의 중요성은 시간이 지나갈수록 점점 더 중요해지고 있죠. 결국엔 모든 분야에서 데이터 자체가 중요해지게 될 것 같습니다.

데이터가중요해지게 되는 만큼 중요해지는 것이 또 하나 있습니다. 바로 데이터와 연결된 개인의 보안에 대한 이슈입니다. 최근의 광고산업이나 개인정보를 활용한 산업을 보면 사람들은 자신의 개인정보를 팔아서 제품의 특정 기능을 이용하거나 개인정보 제 3자 활용 동의를 통해 마케팅 활용 동의를 하고 추가 기능을 이용하거나 혜택을 받기도 합니다.

한편으론 페이스북이나 구글 같은 대형 IT 업체의 경우 핸드폰에 있는 물리적 정보 접근을 통해 사용자의 IP나 지리적 정보를 파악하기도 합니다. 이렇게 수집된 데이터들은 기본적으로는 식별이 가능한 유니크한 id 값을 가지고 있습니다. 그렇기 때문에 수집된 데이터들을 조합하면 내가 어떤 취향을 가진 사람인지 나 자신보다 더 잘 알게 됩니다. 그리고 이런 정보를 통해 AI서비스를 활용한 서비스나 내가 좋아할 만한 것들을 추천해주죠.

빛과 그림자는 항상 함께 다니듯이 이런 편리함을 누리게 되면서 화두로 떠오른 문제가 바로 개인 정보의 유출을 통해 악의적인 방법으로 활요되는 문제일 겁니다. 앞서 말씀 드린 내용과 같이 내가 가지고 있는 거의 모든 부분의 개인정보가 수집되기 때문에 개인정보가 악의적인 용도로 활용되면 다른 범죄의 피해로 이어질 수 있게 됩니다.

이런 부분들을 조금이라도 해소하기 위해 필요한 기술이 데이터 익명화입니다. 데이터 익명화는 데이터가 가지는 개인정보의 연결성을 끊고 익명화 하여 사용자의 개인정보를 보호하는데 목적이 있다.

이 책에서는 익명화를 할 수 있는 방안과 익명화를 하여도 데이터를 활용하여 할 수 있는 다양한 방법론적 해결책을 제시한다. 데이터를 익명화하는 것이 초기 스타트업이나 여유가 많지 않은 회사의 경우에는 쉬운 일은 아니겠지만 사용자의 개인정보를 문제 없이 활용하기 위해서는 꼭 필요한 부분이니 미리 알아두어서 나쁠 것은 없다는 생각이다.

데이터 익명화를 위한 전략 또는 방법론에 대해 궁금하다면 거의 유일무이한 이 책을 활용해봐도 괜찮을 듯 하다.

이 리뷰 내용은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
책의 내용이 궁금하다면 이곳을 통해 확인할 수 있습니다.