머신러닝은 데이터에서 패턴을 찾아내는 데 도움을 줍니다. 패턴을 사용하여 새 데이터 포인트에 대한 예측을 수행합니다. 이러한 예측을 올바르게 수행하려면 데이터 세트를 구성하고 데이터를 올바르게 변환해야 합니다.
이 과정에서는 두 가지 주요 단계를 다룹니다. 또한 학습/서빙 고려사항이 이러한 단계에 어떻게 적용되는지 살펴보겠습니다.
특성 추출은 모델이 동일한 방식으로 데이터 세트를 이해하는 데 도움이 된다고 생각할 수 있습니다. 학습자는 모델 빌드에 중점을 둔 머신러닝 과정에 참여하지만 결국 데이터 개발에 더 많은 시간을 할애하게 됩니다.
다음 질문의 경우 원하는 화살표를 클릭하여 답을 확인하세요.
머신러닝 프로젝트에서 아래 영역 중 하나를 개선해야 할 경우에 가장 큰 영향을 미치는 것은 무엇인가요?
데이터 품질 및 크기
모든 데이터가 우선합니다. 학습 알고리즘 또는 모델 아키텍처를 업데이트하면 다양한 유형의 패턴을 학습할 수 있지만 데이터가 잘못된 경우 잘못된 대상에 맞는 함수가 빌드됩니다. 데이터 세트의 품질과 크기는 사용하는 반짝이는 알고리즘보다 훨씬 중요합니다.
최신 최적화 알고리즘 사용
옵티마이저를 푸시하는 데는 확실히 도움이 되지만 이 목록의 다른 항목만큼 모델에 미치는 영향은 크지 않습니다.
더 깊은 네트워크
심층적인 네트워크가 모델을 개선할 수는 있지만 이 목록의 다른 항목만큼 영향이 크지 않습니다.
더 영리한 손실 함수
아깝네요. 손실 함수가 개선되면 큰 성공으로 이어질 수도 있지만 이 목록의 다른 항목보다 여전히 두 번째입니다.
좋은 데이터 세트 수집이 중요한 이유
Google 번역으로 번역하기
인공신경망 기계 번역이 사용할 학습 데이터의 최상의 하위 집합을 찾아내기 시작한 이후로 가장 큰 진전을 이루었습니다.
- Google 엔지니어 소프트웨어 엔지니어
Google 번역팀에서 사용할 수 있는 것보다 많은 학습 데이터가 있습니다.
팀은 모델을 조정하는 대신 데이터에서 최고의 기능을 사용하여 더 큰 결과를 얻었습니다.
흥미진진한 오류를 수동으로 디버깅하려고 할 때가 되면 대부분의 경우 학습 데이터의 문제로 추적될 수 있습니다."
- Google 엔지니어 소프트웨어 엔지니어
'재미있어 보이는' 오류는 일반적으로 데이터로 인해 발생합니다. 잘못된 데이터로 인해 시도 중인 모델링 기법에 관계없이 모델이 잘못된 패턴을 학습할 수 있습니다.
뇌성 당뇨망막병증 프로젝트
Google 브레인의 당뇨망막병증 프로젝트에서는 이미지를 분류함으로써 질병을 감지하기 위해
Inception이라는 신경망 아키텍처를 이용했습니다. 팀에서 모델을 조정하지 않았습니다.
대신 안과 전문의가 라벨을 지정한 120,000개의
예로 구성된 데이터 세트를 만들었습니다. 자세한 내용은 https://research.google.com/pubs/pub43022.html을 참조하세요.