확장메뉴
주요메뉴


소득공제
미리보기 공유하기
AI, 빅데이터 활용이 쉬워지는

142가지 데이터셋

리뷰 총점9.6 리뷰 4건 | 판매지수 1,698
베스트
OS/데이터베이스 top100 14주
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
명화를 담은 커피, 가을을 닮은 책 - 명화 드립백/명화 캡슐 커피/명화 내열 유리컵+드립백 세트/매거진 랙
[IT 기획전] IT, 모두의 교양
9월의 얼리리더 주목신간 : 웰컴 투 북월드 배지 증정
[대학생X취준생] 꼭 공부를 해야 할 상황이라면? 2학기, 공부할 결심!
박해선 저자의 머신러닝/딥러닝 패스
[단독]『혼자 공부하는 파이썬』 개정판 출간
내일은 개발자! 코딩테스트 대비 도서전
[단독] 에듀윌 IT 자격증 기획전 - 가장 빠른 합격출구 EXIT
『HTML+CSS+자바스크립트』 특별 이벤트
소장가치 100% YES24 단독 판매 상품
9월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2022년 02월 22일
쪽수, 무게, 크기 284쪽 | 496g | 172*230*12mm
ISBN13 9788970505350
ISBN10 8970505350

책소개 책소개 보이기/감추기

AI와 빅데이터 관련 연구·개발에 꼭 필요한 데이터셋을 총정리한 책!

AI와 빅데이터 관련 연구나 개발 업무를 위해서는 먼저 데이터셋을 만들거나 검증된 데이터셋을 찾아야 합니다. 이 책은 여러 분야별로 검증된 데이터셋만을 소개하고 저작권과 관련 논문까지 안내하고 있습니다. 이것은 AI와 빅데이터 시대에 꼭 필요한 책입니다. 데이터셋들의 백업본을 별도로 제공하고 있으므로 이 책을 한 번 구매하면, 원본 출처 사이트에 문제가 생기더라도 데이터셋을 구할 수 있습니다.

도서 홈페이지 : https://needleworm.github.io/dataset

목차 목차 보이기/감추기

CHAPTER 0 데이터셋 사용 안내
SECTION 01 이 책을 활용하는 방법
SECTION 02 데이터셋의 사용과 저작권법

Part 1 빅 데이터 포털

Chapter 1 데이터 포털
001. 텐서플로 데이터셋
002. AI Hub
003. 공공데이터포털
004. 야후(Yahoo!) 데이터셋

Part 2 영상 데이터

Chapter 2 이미지 분류(Image Classification)
005. FGVC - 항공기 사진
006. MNIST - 숫자 손 글씨
007. Fashion MNIST - 패션의류
008. Omniglot - 알파벳 손 글씨
009. Quick, Draw! - 손그림
010. CIFAR-10 - 실물 오브젝트
011. CIFAR-100 - 실물 오브젝트
012. CUB-200 - 조류 사진
013. SVHN - 현실 숫자
014. Conflict Stimuli - CNN 일반화
015. iNaturalist - 자연 사진
016. So2Sat - 인공위성 사진
017. SI-SCORE - CNN 일반화
018. CO3D - 객체 다각도 촬영

Chapter 3 탐지 및 표지(Detection and Segmentation)
019. COCO - 대규모 종합 영상 데이터
020. Open Image V6 - 대규모 종합 영상 데이터
021. Sculuptures 6K - 조각상 찾기
022. Oxford-IIIT Pet - 동물 사진
023. Penguin - 펭귄 찾기
024. DAVIS - 비디오 세그멘테이션

Chapter 4 의미론적 연관성(Semantic Correspondence)
025. Animal Parts - 동물 신체부위
026. PF-PASCAL - Semantic Flow
027. SPair-71k - Semantic Correspondence
028. TTS - Semantic Correspondence

Chapter 5 안면인식(Human Face Recognition)
029. FairFace - 다인종 얼굴
030. CelebA - 유명인 얼굴
031. CelebA Mask-HQ - 얼굴 조작
032. AFLW- 얼굴 3차원 정보
033. LS3D-W - 얼굴 3차원 정보
034. VGG-Face2 - 얼굴 인식
035. Celebrity Together - 얼굴 인식
036. Celebrity in Place - 인물과 장소 동시 인식

Chapter 6 자세인식(Human Pose Estimation)
037. Hand Dataset - 사람 손
038. Buffy Pose - 특정 포즈 인식
039. Buffy Stickman - 자세인식
040. VGG HPE - 자세인식
041. Sign Language Pose - 수화인식
042. LSP - 스포츠 포즈
043. MPI-INF-3DHP - 자세 추론
044. Human 3.6M - 대규모 인체 데이터
045. 3DPW - 3D 자세 추론

Chapter 7 자율주행(Autonomous Driving)
046. BDD100K - 대규모 자율주행 데이터
047. KITTI - 대규모 자율주행 데이터
048. Cityscape - 길거리 세그멘테이션
049. Cityscape 3D - 탈것 인식
050. CULane - 도로만 인식

Chapter 8 비디오(Video)
051. Vox Converse - 발화자 찾기
052. VGG-Sound - Audio-Visual
053. MoCA - 은신 중인 동물 찾기
054. Condensed Movie - 영화 클립
055. Sherlock TV Series - 안면 인식
056. LAEO - Human Interaction
057. TV Human Interaction - Human Interaction
058. SCV - 스타크래프트2 플레이 영상
059. Fake AVCeleb - 딥페이크 감지

Chapter 9 농업 영상(Agricultural Images)
060.Citrus - 시트러스
061. Deep Weeds - 잡초
062. Plant Leaves - 잎사귀
063. Plant Village - 잎사귀
064. PlantaeK - 잎사귀
065. iBean - 콩잎

Chapter 10 의료 영상(Medical Images)
066. MimickNet - 영상 재건
067. CBIS-DDSM - 유방암 조영
068. CCH - 현미경 사진
069. BCCD - 혈구
070. Malaria - 말라리아 감염 혈액
071. MSD - Medical Image Segmentation
072. VFP290K - 실신 환자 찾기

Chapter 11 그 외 영상 데이터(Other Visual Data)
073. SynthText - OCR
074. MJSynth - OCR
075. Oxford Buildings- 객체 인식
076. S3O4D - 다각도 랜더링
077. 3D Shapes - 다각도 렌더링
078. NYU Depth - 깊이 추론
079. DMLab - 깊이 추론

Part 3 자연어 처리 데이터

Chapter 12 영어 자연어 처리(NLP(EN))
080. WikiBio - 위키피디아 문서
081. GPT2 Output - 대규모 텍스트
082. Summ Screen - 대화 요약
083. Long Summarization - 논문 요약
084. PubMed Crawl - 논문 정보 수집
085. DART - 시멘틱 트리플렛
086. Twitch Chat - 트위치 채팅

CHAPTER 13 한국어 자연어 처리(NLP(KR))
087. ParaKQC - 질문과 명령
088. Chatbot_data - 챗봇
089. ClovaCall - 음성 대화
090. KorQuAD 2.0 - 질의응답
091. Song-NER - 개체명 인식
092. KMOUNLP-NER - 개체명 인식
093. Sci-News-Sum-Kr-50 - 뉴스 요약
094. Petitions - 청와대 국민청원
095. KLUE - 한국어 이해
096. KorNLU - 문장 분류 및 유사성
097. NSMC - 네이버 영화 리뷰
098. Toxic Comment - NSMC 감정 상세화
099. 3i4K - 발화 의도 분석
100. Korean Hate Speech - 혐오발언
101. KAIST Corpus - 코퍼스 데이터셋 모음

CHAPTER 14 질의응답(Question Answering)
102. ARC - 지능검사 문제
103. ARM - 행렬추론
104. AI2 ARC - 과학 시험문제
105. NQ-Open - 영어 질의응답
106. SQuAD - 독해 기반 질의응답
107. CoQA - 대화 기반 질의응답

CHAPTER 15 기계번역(Machine Translation)
108. XQuAD - 다국어 질의응답
109. MLQA - 다국어 질의응답
110. TyDi - 다국어 질의응답
111. FloRes-101 - 101가지 언어 번역
112. Ted Talks - 테드 강연
113. KPC - 한국어, 영어, 불어 매핑

PART 4 소리 데이터

CHAPTER 16 음성 발화(Speech and Voices)
114. Spoken Digit - 음성 MNIST
115. Libri Speech - 대규모 음성 코퍼스
116. LibriTTS - 음성 코퍼스
117. LJSpeech - 오디오북
118. Common Voice Corpus - 대규모 음성 코퍼스
119. CREMA-D - 감정 인식
120. VoxCeleb2 - 대규모 발화 데이터
121. LRW - 입술 읽기(단어)
122. LRS3-TED - 입술 읽기(문장)

CHAPTER 17 음악 및 소리(Music and Sound)
123. FUSS - 소리 분해
124. CMM - 클래식 음악
125. GMD - 전자 드럼
126. E-GMD - 전자 드럼
127. NSynth - 대규모 악보
128. Bach Doodle - 화음
129. MAESTRO - 피아노 연주

PART 5 강화학습 데이터

CHAPTER 18 강화학습(Reinforcement Learning Environments)
130. Green House - 온실 시뮬레이션
131. OpenAI GYM - 대규모 강화학습 환경들
132. D4RL - 대규모 강화학습 환경들

PART 6 과학기술 데이터

CHAPTER 19 생명과학(Biology)
133. GDC - 암 유전자 포털
134. CTPR - 항암 약물치료 반응
135. KEGG - 유전자 & 물질대사
136. OOD - 박테리아 유전자
137. COVID-19 Open-Data - 코로나19

CHAPTER 20 화학(Chemistry)
138. iEnvCmplx - 화학 복잡계
139. iPlantNutrient - 식물-화학 복잡계 상호작용
140. OGB-LSC - 그래프 추론
141. ProteinNet - 단백질 분자구조
142. GDB - 유기물 분자구조

저자 소개 (1명)

회원리뷰 (4건) 리뷰 총점9.6

혜택 및 유의사항?
AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋 내용 평점5점   편집/디자인 평점5점 j**y | 2022.04.23 | 추천0 | 댓글0 리뷰제목
빅데이터 세상에서 살아가고 있습니다.   AI 하면 자율주행차, 인공지능 스피커, 이미지 분류가 생각납니다.   양질의 데이터를 얻고 싶지만 구하기 어렵습니다.   그런 분들에게 데이터셋을 잘 정리해둔 책을 하나 소개해드리고자 합니다.   소개할 책은 ‘AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋’입니다.   이 책을 통해 어떤 종류의 데;
리뷰제목

빅데이터 세상에서 살아가고 있습니다.

 

AI 하면 자율주행차, 인공지능 스피커, 이미지 분류가 생각납니다.

 

양질의 데이터를 얻고 싶지만 구하기 어렵습니다.

 

그런 분들에게 데이터셋을 잘 정리해둔 책을 하나 소개해드리고자 합니다.

 

소개할 책은 ‘AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋’입니다.

 

이 책을 통해 어떤 종류의 데이터셋이 있는지 같이 살펴볼 수 있습니다.

 

데이터셋을 통해 AI와 빅데이터를 활용하는 여러분이 되시길 바랍니다.

 

 

 


 

 

 

1) 관심 분야

사람들마다 관심 분야가 다릅니다.

사람들이 관심 있어 할만한 데이터셋도 잘 정리되어 있습니다.

 

예를 들어 영상, 자연어 처리, 이미지 분류의 데이터셋도 다룹니다.

 

또한 의료나 농업에 관심 있는 분들도 있습니다.

 

그 외에도 데이터셋의 범위가 18가지가 됩니다.

 

목차를 보면서 관심이 가는 데이터셋이 있는지도 찾아보시기를 바랍니다.

 

궁금한 데이터셋이 있으면 어떤 데이터셋인지 읽어봐도 좋습니다.

 

 

 


 

 

 

2) 데이터셋 활용

데이터셋을 활용하려면 어떤 데이터인지 알아야 합니다.

 

데이터를 안다는 것은 무슨 특징을 가졌는지와 데이터에 관해 설명할 수 있어야 합니다.

 

데이터셋의 명칭부터 해당 데이터셋 관련 논문도 알려줍니다.

 

다른 논문을 참고할 경우 출처를 잘 적어줘야 하는데요.

출처가 없을 경우 애써 만든 논문이 표절될 수 있습니다.

 

그렇기 때문에 논문을 참고할 때도 출처를 잘 기록해두며 참고하고 사용해야 합니다.

 

 

 


 

 

 

Ps

연구나 개발업무에 관심 있는 분들이 계실 텐데요.

전문 분야에 따라 학습하는 게 다릅니다.

 

데이터 분석하려면 데이터가 필요합니다.

 

데이터를 직접 확보하거나 검증된 데이터셋을 통해 할 수 있습니다.

검증된 데이터셋을 알려주고 저작권과 관련된 논문의 출처도 알려줍니다.

 

졸업작품을 준비하는 대학생이나 졸업논문을 준비 중인 대학원생들에게도 이 책을 추천합니다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 [서평] AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋 내용 평점4점   편집/디자인 평점4점 y******y | 2022.03.06 | 추천0 | 댓글0 리뷰제목
나는 IT업계에서 일하고 있는 직장인이다. 지금은 IT컨설팅 분야에서 일하고 있다. 정부는 D.N.A라고 하여 빅데이터, 5G를 중심으로 한 네트워킹, 인공지능을 중심으로 한 정보화정책을 펴고 있다. 거기에는 (빅)데이터가 매우 중요한 역할을 차지하고 있다. 공공데이터 개방도 그런 의미에서 추진되어 지금은 모든 공공분야의 기관들은 자신들이 보유하고 있는 데이터를 개방하;
리뷰제목

나는 IT업계에서 일하고 있는 직장인이다.

지금은 IT컨설팅 분야에서 일하고 있다.

정부는 D.N.A라고 하여 빅데이터, 5G를 중심으로 한 네트워킹, 인공지능을 중심으로 한 정보화정책을 펴고 있다.

거기에는 (빅)데이터가 매우 중요한 역할을 차지하고 있다.

공공데이터 개방도 그런 의미에서 추진되어 지금은 모든 공공분야의 기관들은 자신들이 보유하고 있는 데이터를 개방하고 있다.

또한 데이터댐 사업을 통해 빅데이터 플랫폼 구축, 빅데이터를 활용한 인공지능 학습용 데이터 구축 등을 하고 있다.

(물론 조달청 나라장터에서도 보면 데이터댐 관련 혹은 빅데이터/인공지능 활용 사업이 부쩍 눈에 띄고 있다.)

그럼에도 실전에 적용하기 위한 데이터를 찾기에는 많은 부분 어려움이 있는 것이 사실이다.

이 책 <(AI, 빅데이터 활용이 쉬워지는) 142가지 데이터셋>은 그런 의미에서 가치가 있다.

이 책을 이용하여 자신이 원하는 분야의 데이터셋을 쉽게 접근하여 연구나 개발에 활용할 수 있을 것이다.

이 책에서 다루는 데이터 셋의 범위는 다음과 같다.


 

그리고 이 책의 목차를 보면

- 영상 데이터

- 자연어 처리 데이터

- 소리 데이터

- 강화학습데이터

- 과학기술 데이터

등으로 분류하여 데이터의 목록을 제공하고 있다.

따라서 자신이 원하는 분야의 데이터를 구해 이용하면 될 것이다.

그리고 이 책의 가장 큰 특징은 "데이터 셋을 활용한 흥미로운 연구결과"를 제공한다는 점이다.

자신이 원하는 데이터 셋을 찾았으면 그 데이터셋을 이용한 추가적인 연구결과를 살펴봄으로써 그 데이터를 어떻게 활용할지 시사점을 얻을 수 있을 것이다.


 

나 역시 앞으로 프로젝트를 진행하면서 혹은 인공지능/데이터 학습을 하면서 이 책을 적극적으로 활용하여 원하는 데이터를 발굴 이용할 생각이다.


 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
[책 서평] AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋 내용 평점5점   편집/디자인 평점5점 봉*이 | 2022.03.06 | 추천0 | 댓글0 리뷰제목
데이터 분석을 하다 보면 적절한 데이터셋을 찾는 것도 일이다. 목적에 맞는 데이터를 어디서 얻을 수 있는지도 모를뿐더러 사용할 만한 데이터셋이 존재하는지 조차도 모를 수 있다. 특히나 품질 좋고 깔끔한 데이터셋을 구하는 일은 시간 소모도 꽤 크다. 책 표지 이번에 <AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋> 도서를 생능북스에서 제공받아 읽어보고 책 서평을 작성;
리뷰제목

데이터 분석을 하다 보면 적절한 데이터셋을 찾는 것도 일이다. 목적에 맞는 데이터를 어디서 얻을 수 있는지도 모를뿐더러 사용할 만한 데이터셋이 존재하는지 조차도 모를 수 있다. 특히나 품질 좋고 깔끔한 데이터셋을 구하는 일은 시간 소모도 꽤 크다.

책 표지

이번에 <AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋> 도서를 생능북스에서 제공받아 읽어보고 책 서평을 작성하게 되었다. 프로젝트를 진행할 때면 항상 구글에서 탐색하느라 힘들었는데, 마치 가뭄의 단비 같은 책처럼 느껴졌다.

이 책이 소개하고 있는 데이터셋 종류가 다양해서 많은 분석가에게 도움이 될 수 있을 것 같다. 특히 영상, 자연어처리, 소리에 대한 분야라면 더 관심을 가져볼만하다. 자연어처리에 대한 데이터셋을 몇 개 찾아봤는데, 관련 흥미로운 논문들도 있어서 어떤 방식으로 활용할 수 있을지 등에 대해서도 알아볼 수 있어서 좋았다. 영상 데이터셋에 대한 비중이 많아서 AI 관련 준비하는 분도 관심을 가져볼만 한 것 같다.

데이터셋 예시

다소 데이터가 전문적으로 느껴질 수 있어서 마케팅이나 일반적인 가벼운 데이터 분석을 준비하는 분과는 어울리지 않을 수도 있겠다. 어쩌면 비즈니스 도메인 영역에서 도움이 될수도 있으나 이 책에서도 막상 활용할만한 데이터셋을 찾지 못하는 분도 분명 계실 것 같다. 하지만 관련 영역에 있는 대학(원)생이나 AI 프로젝트 실무자 분들은 도움이 될 듯 싶다.

만약 차후에 관련 도서가 또 나온다면 금융 데이터나 좀 더 비즈니스 영역에서 사용할 만한 주제의 데이터에 대한 정리가 있으면 큰 도움이 될 것 같다. 개인적으로는 이번 도서에서 다룬 내용들도 추후에 활용할 일이 생길지도 모르겠다. 그리고 책 앞부분에 저작권과 관련된 내용을 정리해 둔 것을 읽으면서 좀 더 활용에 유의할 점도 알게되어서 좋았다.

결론적으로 AI 관련 데이터를 계속 봐야할 일이 있다면 이 책을 사전처럼 옆에 두고 필요할 때마다 사용해볼만 하다고 생각한다. 충분히 좋은 데이터들을 소개하고 있으며, 관련 연구들 또한 흥미로워서 찾아볼만 하다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
  •  쿠폰은 결제 시 적용해 주세요.
1   19,800
뒤로 앞으로 맨위로 aniAlarm