본문 바로가기
자기개발코너

1. 데이터 라벨링이란? (기초 용어 및 종류)

by 모리사서 2024. 6. 18.
반응형

- 데이터 라벨러로 성장하기 위해서 우리가 반드시 알아야할 데이터 라벨링의 기초 정보를 알려드립니다. 오늘은 데이터 라벨링과 용어, 종류에 대해서 상세하게 알아보겠습니다.

 

데이터 라벨링 독학 시작!

 

 

1. 데이터 라벨링이란?

데이터 라벨링은 머신 러닝 모델이 학습할 수 있도록 데이터를 정리하고 분류하는 작업입니다.

예를 들어, 사진에서 개와 고양이를 구분해야 하는 모델이 있다면, 데이터 라벨러는 각 사진에 "개" 또는 "고양이" 라는 라벨을 붙입니다.

이렇게 라벨이 달린 데이터를 사용하면 모델이 학습하여 새로운 사진에서도 개와 고양이를 구분할 수 있게 됩니다. 

 

🚩첫 번째 단계: 기본 용어 이해하기

  1. 데이터(Data): 분석이나 처리를 위해 수집된 정보.
  2. 라벨(Label): 데이터에 부여된 태그 또는 클래스.
  3. 라벨링(Labeling): 데이터에 라벨을 부여하는 과정.
  4. 애노테이션(Annotation): 데이터에 설명이나 주석을 추가하는 것. 라벨링과 유사한 의미로 사용됨.
  5. 데이터셋(Dataset): 라벨이 붙은 데이터의 집합

🚩두 번째 단계: 데이터 라벨링의 종류

데이터 라벨링에는 여러 가지 종류가 있으며, 데이터의 유형에 따라 라벨링 방법이 다릅니다. 주요 라벨링 종류는 다음과 같습니다.

1. 이미지 라벨링(Image Labeling)

1.1 분류(Classification)

  • 단일 라벨 분류(Single-label Classification): 한 이미지에 하나의 라벨을 할당.
    • 예: 개, 고양이, 자동차 등.
  • 다중 라벨 분류(Multi-label Classification): 한 이미지에 여러 개의 라벨을 할당.
    • 예: 한 이미지에 '사람', '자동차', '거리' 라벨을 동시에 할당.

1.2 객체 검출(Object Detection)

  • 바운딩 박스(Bounding Box): 사각형 상자로 이미지 내 객체의 위치를 표시.
    • 예: 이미지에서 개의 위치를 사각형으로 표시.
  • 객체 중심(Object Center): 객체의 중심을 점으로 표시.
    • 예: 이미지에서 사람의 중심을 점으로 표시.

1.3 분할(Segmentation)

  • 이미지 분할(Image Segmentation): 이미지의 각 픽셀에 라벨을 할당.
    • 전경-배경 분할(Foreground-Background Segmentation): 이미지의 전경과 배경을 구분.
      • 예: 인물 사진에서 사람과 배경을 구분.
    • 객체 분할(Object Segmentation): 이미지 내 개별 객체를 구분.
      • 예: 여러 동물이 있는 이미지에서 각 동물을 구분.
  • 인스턴스 분할(Instance Segmentation): 동일한 클래스 내에서도 개별 객체를 구분.
    • 예: 여러 사람이 있는 이미지에서 각 사람을 개별적으로 구분.

1.4 랜드마크 검출(Landmark Detection)

  • 키포인트(Keypoint): 객체의 주요 지점을 표시.
    • 예: 얼굴의 눈, 코, 입 위치를 점으로 표시.
  • 관절 포인트(Joint Points): 객체의 관절 위치를 표시.
    • 예: 사람의 팔, 다리의 관절 위치를 점으로 표시.

1.5 주석(Annotation)

  • 폴리곤 주석(Polygon Annotation): 복잡한 모양의 객체를 다각형으로 표시.
    • 예: 건물의 경계를 다각형으로 표시.
  • 라인 주석(Line Annotation): 선을 사용해 길이나 경로를 표시.
    • 예: 도로를 선으로 표시.
  • 포인트 주석(Point Annotation): 특정 지점을 점으로 표시.
    • 예: 이미지에서 특정 위치를 점으로 표시.

2. 텍스트 라벨링(Text Labeling)

2.1 감정 분석(Sentiment Analysis)

  • 긍정/부정/중립 라벨링(Positive/Negative/Neutral Labeling): 텍스트의 감정을 라벨링.
    • 예: "이 제품 정말 좋아요!" -> 긍정.

2.2 개체명 인식(Named Entity Recognition, NER)

  • 개체 유형 라벨링(Entity Type Labeling): 사람, 장소, 조직 등의 개체를 라벨링.
    • 예: "Apple은 미국에 본사를 둔 회사입니다." -> Apple: 조직, 미국: 장소.

2.3 주제 분류(Topic Classification)

  • 카테고리 라벨링(Category Labeling): 텍스트의 주제를 카테고리로 분류.
    • 예: 뉴스 기사 -> 정치, 경제, 스포츠 등.

2.4 부분 문장 라벨링(Part-of-Speech Tagging)

  • 품사 태깅(Part-of-Speech Tagging): 텍스트 내 각 단어의 품사를 라벨링.
    • 예: "The cat sat on the mat." -> The: 관사, cat: 명사, sat: 동사, on: 전치사, the: 관사, mat: 명사.

3. 오디오 라벨링(Audio Labeling)

3.1 음성 인식(Speech Recognition)

  • 텍스트 변환(Transcription): 음성을 텍스트로 변환.
    • 예: "안녕하세요" -> "Hello".

3.2 화자 인식(Speaker Recognition)

  • 화자 분류(Speaker Classification): 특정 화자를 인식하고 분류.
    • 예: 여러 사람이 대화 중일 때 각 화자를 구분.

3.3 감정 분석(Emotion Recognition)

  • 감정 라벨링(Emotion Labeling): 음성 데이터의 감정을 라벨링.
    • 예: 기쁨, 슬픔, 분노 등.

3.4 이벤트 인식(Event Detection)

  • 이벤트 라벨링(Event Labeling): 특정 소리를 인식하고 라벨링.
    • 예: 박수 소리, 개 짖는 소리, 자동차 경적 소리 등.

이렇게 이미지, 텍스트, 오디오 라벨링은 다양한 유형으로 세분화되며, 각각의 유형은 특정한 목적과 요구에 맞게 사용됩니다.

    • 오디오 라벨링은 음성 데이터에 주석을 다는 과정입니다. 주요 유형은 다음과 같습니다:
    • 텍스트 라벨링은 텍스트 데이터에 의미 있는 주석을 다는 과정입니다. 주요 유형은 다음과 같습니다:
    • 이미지 라벨링은 시각 데이터를 이해하고 분석하기 위해 이미지에 주석을 다는 과정입니다. 주요 유형은 다음과 같습니다:
반응형