티스토리 뷰

목차



    "테크씬 - 핵심 요약 후 시작합니다."

    • ETL이란 '추출(Extract)', '변환(Transform)', '적재(Load)'의 약어로, 원시 데이터를 우리가 필요로 하는 형태로 가공하고 저장하는 과정입니다.
    • ETL 과정은 우리 일상에 큰 영향을 미칩니다. 예를 들어, 넷플릭스의 추천 시스템은 사용자의 시청 기록을 '추출'하여, 알고리즘이 이해할 수 있는 형태로 '변환'한 후, 이를 서버에 '적재'하여 다음 추천 목록을 결정하게 됩니다.
    • 이러한 ETL 과정은 4차 산업 혁명의 시대와 디지털 시대에서 중요한 역할을 합니다. 맞춤화된 정보 제공을 가능케 하는 다양한 앱과 서비스들이 ETL을 통해 우리의 삶을 풍요롭게 만듭니다.

    ETL 작업을 수행 중인 데이터 엔지니어
    ETL 작업을 수행 중인 데이터 엔지니어 근사하죠?!

     


    안녕하세요, 테크씬입니다. 우리 일상을 채워주는 유튜브의 동영상 추천 서비스, 날씨 예보를 통해 오늘의 옷차림을 결정하는 등의 의사결정은 이미 익숙하시죠? 이 모든 것들이 가능한 것은 바로 'Data' 덕분이죠! 오늘은 이렇게 우리의 삶을 풍요롭게 만드는 데이터가 어떻게 준비되고 처리되는지, 그 과정을 'ETL'이라는 이름으로 함께 알아보려 합니다.

     

     

    ETL이란 무엇인가?

    ETL이란 '추출(Extract)', '변환(Transform)', '적재(Load)'의 첫 글자를 따서 만든 약어입니다.

    • 추출(Extract): 다양한 출처에서 원시 데이터를 가져오는 과정
    • 변환(Transform): 원시 데이터를 우리가 필요로 하는 형태로 가공하는 과정
    • 적재(Load): 가공한 데이터를 최종적으로 저장하는 과정

    예를 들어, 넷플릭스에서는 수많은 사용자의 시청 기록을 '추출'하여, 알고리즘이 이해할 수 있는 형태로 '변환'한 후, 이를 다시 서버에 '적재'해서 다음 추천 목록을 결정하게 됩니다.

     

     

     

    ETL의 각 단계 설명

    1. 추출(Extract)

    데이터는 수많은 곳에서 생성됩니다. 이들 중 우리가 필요로 하는 데이터를 식별하고 가져오는 것이 '추출' 과정입니다. 예를 들어, 아마존은 고객들의 상품 검색 기록, 구매 기록, 상품 리뷰 등을 추출합니다. 하지만 이 과정은 그렇게 단순하지 않습니다. 때로는 데이터가 불완전하거나, 서로 다른 형식으로 저장되어 있을 수 있기 때문입니다.

    2. 변환(Transform)

    '변환'은 이렇게 추출한 데이터를 가공하는 과정입니다. 구글은 검색 엔진을 운영하며 얻은 수많은 웹페이지 데이터를 자체 알고리즘이 이해할 수 있는 형태로 변환합니다. 이 과정은 '데이터 정제', '데이터 통합' 등 다양한 작업을 포함하고 있습니다.

     

    3. 적재(Load)

    마지막으로, '적재' 과정은 이렇게 가공된 데이터를 최종적으로 저장하는 단계입니다. 이는 데이터베이스나 데이터 웨어하우스와 같은 저장 공간에 이루어집니다. 이 과정에서 데이터의 효율적인 저장과 조회를 위한 여러 가지 전략이 사용됩니다. 예를 들어, 페이스북은 사용자들의 게시물, 댓글, 좋아요 정보 등을 실시간으로 처리하고 저장하기 위한 특화된 시스템을 사용합니다.

     

    위에 간단히 설명한 ETL 과정은 실제로 우리 일상생활에 많은 영향을 미칩니다.

     

    앞서 언급한 넷플릭스의 추천 시스템은 이러한 ETL 과정을 거쳐 만들어집니다. 사용자의 시청 기록을 추출해 알고리즘이 이해할 수 있는 형태로 변환한 후, 이를 서버에 저장해 다음 시청 추천을 만들어냅니다. 또한, 우리가 사용하는 다양한 앱이나 서비스 또한 이러한 과정을 통해 우리에게 맞춤화된 정보를 제공하게 됩니다.

    데이터가 어떻게 추출(Extract)되고, 변환(Trasform)되어 저장(Load)되는지 알아보았습니다. ETL은 오늘날 4차 산업 혁명의 시대와 디지털 시대에서 매우 중요한 역할을 합니다. 특히, 우리의 일상생활에 큰 영향을 미치는 다양한 서비스와 제품들이 ETL 과정을 거쳐 만들어지기 때문입니다.

     

    이제 여러분은 ETL이 무엇인지 알게 되었습니다. 이런 이해를 바탕으로, 우리 주변의 다양한 서비스와 제품이 어떻게 작동하는지 이해하는 데 도움이 될 것입니다. 다음 포스팅에서는 ETL을 이루는 Extract, Transform, Load 과정 각각과 그 성공 사례에 대해서 좀 더 자세히 살펴볼 예정입니다. 그때 또 뵙겠습니다, 테크씬이었습니다!

     


     

    [관련 포스팅]

    2023.02.06 - [개발] - 데이터 직군 안내서: DA, TA, DE, DS, ML엔지니어, BI 분석가

     

    데이터 직군 안내서: DA, TA, DE, DS, ML엔지니어, BI 분석가

    "테크씬의 5줄 요약" • 데이터 분야의 주요 역할에는 DA, TA, DE, ML엔지니어, BI분석가, DS가 포함됨 • 각 역할에는 고유한 책임, 기술 및 자격이 존재함 • 데이터 분석/시각화, 머신러닝 알고리즘

    techscene.tistory.com

     

    2023.01.29 - [AI] - 데이터 사이언티스트 vs 데이터 엔지니어: 주요 차이점과 이해

     

    데이터 사이언티스트 vs 데이터 엔지니어: 주요 차이점과 이해

    1. 디지털화의 가속화 (DX), 새로운 직업들 지난 10년간, 특히 지난 5년간 세상은 급격히 변화하면서 삶과 일의 중심부가 디지털화되고 축이 변화하는 DX(Digital Transformation, 디지털 전환)를 경험하고

    techscene.tistory.com

     
     
    반응형