파이썬 seaborn 데이터셋 Dataset 목록 – 파이썬 seaborn 라이브러리 포함된 DataSet 입니다. 22개가 있으며 각각 어떤 내용인지 목록으로 정리하였습니다. 파이썬 데이터 분석 작업에 활용해 주세요.
Table of Contents
1. 파이썬 seaborn 데이터셋 Dataset 목록
파이썬 seaborn에는 데이터 분석을 위한 샘플 데이터셋이 있습니다. 22가지가 있으며 이 데이터를 활용하여 데이터 분석, 그래프, 기초 통계 등 파이썬을 익히고 데이터를 학습하는 중요한 데이터가 됩니다.
- seaborn 라이브러리 적용
# 라이브러리 import
import seaborn as sns
- seaborn 에 포함된 전체 라이브러리 목록 추출
# 전체 데이터셋을 데이터프레임 df 에 저장
dataset_lst = sns.get_dataset_names()
len(datasel_lst) # 88 개
- 데이터셋 전체를 가져와서 ‘datasel_lst’ 에 저장
- ‘datasel_lst’ 에 88개의 데이터셋이 있는 것으로 나옴 –> 중복된 데이터셋이 있음
- 중복 제거 해야 함
# 중복 제거
set01 = set(dataset_lst) # set 형식으로 처리됨 (중복 제거)
print(set01)
list01 = list(set01) # set 형식을 list 형식으로 전환함
print(list01, '\n', len(list01), ' 개')
[output]
{'exercise', 'attention', 'flights', 'diamonds', 'fmri', 'anscombe', 'car_crashes', 'seaice', 'penguins', 'healthexp', 'geyser', 'mpg', 'taxis', 'dowjones', 'anagrams', 'glue', 'tips', 'dots', 'iris', 'titanic', 'brain_networks', 'planets'}
['exercise', 'attention', 'flights', 'diamonds', 'fmri', 'anscombe', 'car_crashes', 'seaice', 'penguins', 'healthexp', 'geyser', 'mpg', 'taxis', 'dowjones', 'anagrams', 'glue', 'tips', 'dots', 'iris', 'titanic', 'brain_networks', 'planets']
22 개
- 88개 항목이 중복 처리 되어 22개로 되었음
2, 데이터셋 행과 열의 형태와 칼럼들
seaborn에서 제공하고 있는 22개 데이터셋의 행과 열 그리고 칼럼을 정리하였습니다.
- anagrams 처럼 20개의 행과 5개의 열로 구성된 데이터셋도 있고
- diamonds 처럼 53,940개의 행과 10개의 열로 구성된 데이터셋도 있습니다.
데이터셋 | 행과열 | 칼럼들 |
exercise | (90, 6) | [‘Unnamed: 0’, ‘id’, ‘diet’, ‘pulse’, ‘time’, ‘kind’] |
attention | (60, 5) | [‘Unnamed: 0’, ‘subject’, ‘attention’, ‘solutions’, ‘score’] |
flights | (144, 3) | [‘year’, ‘month’, ‘passengers’] |
diamonds | (53940, 10) | [‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’], |
fmri | (1064, 5) | [‘subject’, ‘timepoint’, ‘event’, ‘region’, ‘signal’] |
anscombe | (44, 3) | [‘dataset’, ‘x’, ‘y’] |
car_crashes | (51, 8) | [‘total’, ‘speeding’, ‘alcohol’, ‘not_distracted’, ‘no_previous’, ‘ins_premium’, ‘ins_losses’, ‘abbrev’] |
seaice | (13175, 2) | [‘Date’, ‘Extent’] |
penguins | (344, 7) | [‘species’, ‘island’, ‘bill_length_mm’, ‘bill_depth_mm’, ‘flipper_length_mm’, ‘body_mass_g’, ‘sex’], |
healthexp | (274, 4) | [‘Year’, ‘Country’, ‘Spending_USD’, ‘Life_Expectancy’] |
geyser | (272, 3) | [‘duration’, ‘waiting’, ‘kind’] |
mpg | (398, 9) | [‘mpg’, ‘cylinders’, ‘displacement’, ‘horsepower’, ‘weight’, ‘acceleration’, ‘model_year’, ‘origin’, ‘name’], |
taxis | (6433, 14) | [‘pickup’, ‘dropoff’, ‘passengers’, ‘distance’, ‘fare’, ‘tip’, ‘tolls’, ‘total’, ‘color’, ‘payment’, ‘pickup_zone’, ‘dropoff_zone’,pickup_borough’, ‘dropoff_borough’], |
dowjones | (649, 2) | [‘Date’, ‘Price’] |
anagrams | (20, 5) | [‘subidr’, ‘attnr’, ‘num1’, ‘num2’, ‘num3’] |
glue | (64, 5) | [‘Model’, ‘Year’, ‘Encoder’, ‘Task’, ‘Score’] |
tips | (244, 7) | [‘total_bill’, ‘tip’, ‘sex’, ‘smoker’, ‘day’, ‘time’, ‘size’] |
dots | (848, 5) | [‘align’, ‘choice’, ‘time’, ‘coherence’, ‘firing_rate’] |
iris | (150, 5) | [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’,’species’] |
titanic | (891, 15) | [‘survived’, ‘pclass’, ‘sex’, ‘age’, ‘sibsp’, ‘parch’, ‘fare’, ’embarked’, ‘class’, ‘who’, ‘adult_male’, ‘deck’, ’embark_town’,’alive’, ‘alone’]] |
brain_networks | (923, 63) | [‘network’, ‘1’, ‘1.1’, ‘2’, ‘2.1’, ‘3’, ‘3.1’, ‘4’, ‘4.1’, ‘5’, ‘5.1’, ‘6’, ‘6.1’, ‘6.2’, ‘6.3’, ‘7’, ‘7.1’, ‘7.2’, ‘7.3’, ‘7.4’, ‘7.5’, ‘8’, ‘8.1’, ‘8.2’, ‘8.3’, ‘8.4’, ‘8.5’, ‘9’, ‘9.1’, ’10’, ‘10.1’, ’11’, ‘11.1’, ’12’, ‘12.1’, ‘12.2’, ‘12.3’, ‘12.4’, ’13’, ‘13.1’, ‘13.2’, ‘13.3’, ‘13.4’, ‘13.5’, ’14’, ‘14.1’, ’15’, ‘15.1’, ’16’, ‘16.1’, ‘16.2’, ‘16.3’, ‘16.4’, ‘16.5’, ‘16.6’, ‘16.7’, ’17’, ‘17.1’, ‘17.2’, ‘17.3’, ‘17.4’, ‘17.5’, ‘17.6’] |
planets | (1035, 6) | [‘method’, ‘number’, ‘orbital_period’, ‘mass’, ‘distance’, ‘year’] |
3. 파이썬 seaborn 데이터셋 Dataset 목록 – 개별 데이터 확인
파이썬 seaborn 데이터셋 Dataset 목록에 나오는 개별 데이터셋 정보는 별도로 포스팅 하겠습니다.
판다스의 데이터프레임 기능을 활용하여 데이터 규모, 결측치, head() 데이터 등을 각 데이터셋 별로 정리하고 여기에 연결해 두겠습니다.
여기에는 목록만 정리하였지만 잘 활용하시기 바랍니다.
위 표에 나오는 데이터셋의 규모(shape)와 칼럼을 출력하는 코드를 아래에 포함해 두었습니다. 활용하시기 바랍니다.
# 데이터셋의 규모(shape)와 칼럼을 출력
dataset_list = list(set(dataset_lst)) # 데이터셋 리스트 생성(중복 제거)
for dataset_name in dataset_list:
ds = sns.load_dataset(dataset_name)
print(dataset_name,'\t', ds.shape, '\t',ds.columns)
위 코드의 output은 위와 같습니다. 탭으로 분리하여 구분해 두었습니다.
[같이 보기]