import pandas as pd

data_frame = pd.read_csv("test.csv") # csv파일 읽어서 데이터 프레임 생성


data_frame


data_frame.head(2) # 데이터 프레임의 맨 앞 2행


data_frame.tail(2) # 데이터 프레임의 맨 뒤 2행


type(data_frame.job) # data frame의 각 열은 Series이다.

pandas.core.series.Series


s1 = pd.core.series.Series([1, 2, 3])
s2 = pd.core.series.Series(["one", "two", "three"])

pd.DataFrame(data=dict(num=s1, word=s2)) # series들로 data frame 생성


# csv파일 읽어서 데이터 프레임 생성 (delimiter 명시, header 명시)
# delimiter 기본값: ','    |   header 기본값: 0
# header로 명시된 행은 header가 되고, header로 명시된 행 + 1 부터는 데이터가 된다.
# header가 None이면, header는 0, 1, 2, 3, ...으로 생성된다.
df = pd.read_csv("data/friend_list.csv", delimiter = ',', header = None)
df


# data frame의 column header 변경하기
df.columns = ['이름', '나이', '직업']
df


# 파일을 불러올 때 names를 통해 따로 헤더명을 명시할 수 있다.
df = pd.read_csv("data/friend_list_no_head.csv", header = None, names = ['name', 'age', 'job'])
df


# dict는 순서가 없기 때문에, column의 순서는 랜덤하게 결정된다.
friend_dict_list = [
    {"name": "John", "age": 25, "job": "student"},
    {"name": "Nate", "age": 30, "job": "teacher"}
]


df = pd.DataFrame(friend_dict_list)
df.head()


# dataframe의 column순서 변경하기
df = df[["name", "job", "age"]]
df.head()


from collections import OrderedDict # dataframe 생성시 column순서를 보장하기 위함


# tuple을 (key(column name),[value(column element)]) 형식으로 list를 만들어서 OrderedDict를 생성한다.
friend_ordered_dict = OrderedDict(
    [
        ("name", ["John", "Nate"]),
        ("age", [25, 30]),
        ("job", ["student", "teacher"])
    ]
)

df = pd.DataFrame.from_dict(friend_ordered_dict)
df.head()


# list를 이용해서 dataframe을 생성하기 (data, header 따로 정의)
friend_list = [
    ["John", 20, "student"],
    ["Nate", 30, "teacher"]
]
column_name = ["name", "age", "job"]

df = pd.DataFrame.from_records(friend_list, columns = column_name)
df.head()


# list를 이용해서 dataframe을 생성하기 (data, header 한번에 정의) (OrderedDict를 이용한 간접적인 방식)
friend_list = [
    ["name", ["John", "Nate"]],
    ["age", [20, 30]],
    ["job", ["student", "teacher"]]
]

df = pd.DataFrame.from_dict(OrderedDict(friend_list))
df.head()


friends = [
    {"name": "John", "age": 25, "job": "student"},
    {"name": "Nate", "age": 30, "job": "teacher"},
    {"name": "Jenny", "age": 30, "job": None}
]

df = pd.DataFrame(friends)
df = df[["name", "age", "job"]]
df.head()


df.to_csv('friends.csv', index = True, header = True, na_rep = '-') # index와 header의 기본값은 True이다. na_rep은 None value를 해당 값으로 저장한다.


friend_list = OrderedDict(
    [
        ("name", ["John", "Nate", "Jenny"]),
        ("age", [25, 30, 30]),
        ("job", ["student", "teacher", "developer"])
    ]
)

df = pd.DataFrame.from_dict(friend_list)
df.head()


df[1:3] # slicing (row 기준) 된 복사본을 return.


df.loc[ [0, 2] ] # 불연속적인 특정 row만 선택해서 return


df[df.age > 25]


df.query('age > 25')


df[(df.age > 25) & (df.name == "Nate")]


friend_list = [
    ["John", 20, "student"],
    ["Nate", 30, "teacher"],
    ["Jenny", 30, "developer"]
]

df = pd.DataFrame.from_records(friend_list)
df


df.iloc[:, 0:2]  # [row, column]


df.iloc[0:2, 0:2]


df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=["name", "age", "job"])
df


df[["name", "age"]] # name, age column만 return


df.filter(items = ["age", "job"]) # age, job column만 return


# column name에 'a'가 포함된 column을 return.
# axis = 0: 행
# axis = 1: 열
df.filter(like = "a", axis = 1)


# regex 사용
df.filter(regex="b$", axis=1) # b로 끝나는 column을 return.


friends = [
    {"age": 15, "job": "student"},
    {"age": 25, "job": "developer"},
    {"age": 30, "job": "teacher"}
]

df = pd.DataFrame(friends, index = ["John", "Jenny", "Nate"], columns = ["age", "job"])
df


df.drop(["John", "Nate"]) # 행 삭제해서 return


df.drop(["John", "Nate"], inplace = True) # inplcae를 True로 하면 원본이 수정된다.
df


friends = [
    {"name": "John", "age": 15, "job": "student"},
    {"name": "Jenny", "age": 25, "job": "developer"},
    {"name": "Nate", "age": 30, "job": "teacher"}
]

df = pd.DataFrame(friends, columns = ["name", "age", "job"])
df


df.drop(df.index[[0, 2]]) # index이용 행 삭제


df.drop(["age"], axis = 1) # 열 삭제해서 return


friends = [
    {"name": "John", "age": 15, "job": "student"},
    {"name": "Jenny", "age": 25, "job": "developer"},
    {"name": "Nate", "age": 30, "job": "teacher"}
]

df = pd.DataFrame(friends, columns = ["name", "age", "job"])
df


df['salary'] = 0 # 'salary' 열 추가
df


import numpy as np

df['salary'] = np.where(df['job'] != "student", "yes", "no") # job이 student이면 salary를 no, 그 외는 yes로 한다.
df


friends = [
    {"name": "John", "midterm": 95, "final": 85},
    {"name": "Jenny", "midterm": 85, "final": 80},
    {"name": "Nate", "midterm": 30, "final": 10}
]

df = pd.DataFrame(friends, columns = ["name", "midterm", "final"])
df


df['total'] = df['midterm'] + df['final']
df


df['average'] = df['total'] / 2
df


grades = []

for row in df['average']:
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    else:
        grades.append('F')
        
df['grade'] = grades # list로 새로운 열 생성 가능.
df


def pass_or_fail(row):
    if row != "F":
        return "Pass"
    else:
        return "Fail"

df.grade = df.grade.apply(pass_or_fail) # 인자로 받은 함수(pass_or_fail)의 인자로 각 element가 들어가고, return값들로 column을 생성한다.
df


date_list = [
    {"yyyy-mm-dd": "2000-06-27"},
    {"yyyy-mm-dd": "2007-10-27"}
]

df = pd.DataFrame(date_list, columns = ["yyyy-mm-dd"])
df


# 년도만 추출해서 새로운 column 추가
def extract_year(row):
    return row.split('-')[0]

df['year'] = df['yyyy-mm-dd'].apply(extract_year)
df


friends = [
    {"name": "John", "midterm": 95, "final": 85},
    {"name": "Jenny", "midterm": 85, "final": 80},
    {"name": "Nate", "midterm": 30, "final": 10}
]

df = pd.DataFrame(friends, columns = ["name", "midterm", "final"])
df


df2 = pd.DataFrame([["Ben", 50, 50]], columns = ["name", "midterm", "final"])
df2


#row 추가하기 (다른 datafrma을 이용해서 (df와 df2의 column구성은 같음))
df.append(df2, ignore_index = True)


# list로 새로운 row 추가하기
df.append(pd.Series(["Ben", 50, 50], index=df.columns), ignore_index = True)


student_list = [
    {"name": "John", "major": "Computer Science", "sex": "male"},
    {"name": "Nate", "major": "Computer Science", "sex": "male"},
    {"name": "Abraham", "major": "Physics", "sex": "male"},
    {"name": "Brian", "major": "Psychology", "sex": "male"},
    {"name": "Janny", "major": "Economics", "sex": "female"},
    {"name": "Yuna", "major": "Economics", "sex": "female"},
    {"name": "Jeniffer", "major": "Computer Science", "sex": "female"},
    {"name": "Edward", "major": "Computer Science", "sex": "male"},
    {"name": "Zara", "major": "Psycholog", "sex": "female"},
    {"name": "Wendy", "major": "Economics", "sex": "female"},
    {"name": "Sara", "major": "Psychology", "sex": "female"}
]

df = pd.DataFrame(student_list, columns=["name", "major", "sex"])
df


groupby_major = df.groupby('major')
groupby_major.groups

{'Computer Science': [0, 1, 6, 7], 'Economics': [4, 5, 9], 'Physics': [2], 'Psycholog': [8], 'Psychology': [3, 10]}


for name, group in groupby_major:
    print(name + " : " + str(len(group)))
    print(group)
    print()

Computer Science : 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics : 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics : 1
      name    major   sex
2  Abraham  Physics  male

Psycholog : 1
   name      major     sex
8  Zara  Psycholog  female

Psychology : 2
     name       major     sex
3   Brian  Psychology    male
10   Sara  Psychology  female


df_major_cnt = pd.DataFrame({"count": groupby_major.size()}).reset_index()
df_major_cnt


groupby_sex = df.groupby('sex')
groupby_sex.groups

{'female': [4, 5, 6, 8, 9, 10], 'male': [0, 1, 2, 3, 7]}


for name, group in groupby_sex:
    print(name + " : " + str(len(group)))
    print(group)
    print()

female : 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara         Psycholog  female
9      Wendy         Economics  female
10      Sara        Psychology  female

male : 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male


student_list = [
    {"name": "John", "major": "Computer Science", "sex": "male"},
    {"name": "Nate", "major": "Computer Science", "sex": "male"},
    {"name": "Abraham", "major": "Physics", "sex": "male"},
    {"name": "Brian", "major": "Psychology", "sex": "male"},
    {"name": "John", "major": "Computer Science", "sex": "male"},
]

df = pd.DataFrame(student_list, columns=["name", "major", "sex"])
df


# 위 df의 4번째 row는 0번째 row와 완전히 같은 값을 갖고 있다.
df.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool


# 중복된 row 제거하기
df.drop_duplicates()


student_list = [
    {"name": "John", "major": "Computer Science", "sex": "male"},
    {"name": "Nate", "major": "Computer Science", "sex": "male"},
    {"name": "Abraham", "major": "Physics", "sex": "male"},
    {"name": "Brian", "major": "Psychology", "sex": "male"},
    {"name": "John", "major": "Economics", "sex": "male"},
    {"name": "Nate", "major": "Physics", "sex": "male"},
]

df = pd.DataFrame(student_list, columns=["name", "major", "sex"])
df


# 'name' column에 대해서만 중복 검사
df.duplicated(["name"])

0    False
1    False
2    False
3    False
4     True
5     True
dtype: bool


# 'name' column에 대해서만 중복된 row 제거
# keep은 'first'이면 중복된것 중에서 맨 첫번째 값만 남기고, 'last'이면 맨 마지막 값만 남긴다. 그리고 False이면 모든 중복된 것을 지운다.
df.drop_duplicates(["name"], keep = 'first')


school_id_list = [
    {"name": "John", "job": "teacher", "age": 40},
    {"name": "Nate", "job": "teacher", "age": 35},
    {"name": "Yuna", "job": "teacher", "age": 37},
    {"name": "Abraham", "job": "student", "age": 10},
    {"name": "Brian", "job": "student", "age": 12},
    {"name": "Janny", "job": "student", "age": 11},
    {"name": "Nate", "job": "teacher", "age": None},
    {"name": "John", "job": "student", "age": None}
]

df = pd.DataFrame(school_id_list, columns=["name", "job", "age"])
df


df.shape

(8, 3)


df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    8 non-null      object 
 1   job     8 non-null      object 
 2   age     6 non-null      float64
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes


df.isna()


df.isnull()


df.age = df.age.fillna(0)
df


df = pd.DataFrame(school_id_list, columns=["name", "job", "age"])


# age column의 Nan 값들을 job별로(teacher, student)의 age 중앙값으로 채운다.
df['age'].fillna(df.groupby('job')['age'].transform('median'), inplace = True)
df


date_list = [
    {"yyyy-mm-dd": "2000-06-27"},
    {"yyyy-mm-dd": "2005-09-24"},
    {"yyyy-mm-dd": "2007-12-20"}
]

df = pd.DataFrame(date_list, columns = ["yyyy-mm-dd"])
df


def extract_year(column):
    return column.split("-")[0]

df['year'] = df['yyyy-mm-dd'].apply(extract_year)
df


def get_age(year, current_year):
    return current_year - int(year)

df['age'] = df['year'].apply(get_age, current_year = 2018) # year의 파라미터는 명시하지 않았는데, year column의 element가 자동으로 들어간다.
df


def get_introduce(age, prefix, suffix):
    return prefix + str(age) + suffix

df['introduce'] = df['age'].apply(get_introduce, prefix = "I am ", suffix = " years old.")
df


# 여러개의 column에 apply function 사용하기
def get_introduce_2(row):
    return "I was born in " + str(row.year) + " my age is " + str(row.age)

df.introduce = df.apply(get_introduce_2, axis = 1)
df


friends = [
    {"age": 15, "job": "student"},
    {"age": 25, "job": "developer"},
    {"age": 30, "job": "teacher"}
]

df = pd.DataFrame(friends, columns = ["age", "job"])
df


# map: column별로 적용할 때 사용
df.job = df.job.map({"student": 1, "developer": 2, "teacher": 3})
df


x_y_z = [
    {"x": 5.5, "y": -5.6, "z": -1.1},
    {"x": -5.2, "y": 5.5, "z": -2.2},
    {"x": -1.6, "y": -4.5, "z": -3.3}
]

df = pd.DataFrame(x_y_z)
df


# applymap: dataframe 전체에 적용할 때 사용
df = df.applymap(np.around) # np.around는 함수이다.
df


job_list = [{'name': 'John', 'job': "teacher"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Fred', 'job': "teacher"},
                {'name': 'Abraham', 'job': "student"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Janny', 'job': "developer"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Obrian', 'job': "dentist"},
                {'name': 'Yuna', 'job': "teacher"},
                {'name': 'Rob', 'job': "lawyer"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Matt', 'job': "student"},
                {'name': 'Wendy', 'job': "banker"},
                {'name': 'Edward', 'job': "teacher"},
                {'name': 'Ian', 'job': "teacher"},
                {'name': 'Chris', 'job': "banker"},
                {'name': 'Philip', 'job': "lawyer"},
                {'name': 'Janny', 'job': "basketball player"},
                {'name': 'Gwen', 'job': "teacher"},
                {'name': 'Jessy', 'job': "student"}
         ]
df = pd.DataFrame(job_list, columns = ['name', 'job'])
df


df.job.unique()

array(['teacher', 'student', 'developer', 'dentist', 'lawyer', 'banker',
       'basketball player'], dtype=object)


df.job.value_counts()

teacher              8
student              5
lawyer               2
banker               2
dentist              1
basketball player    1
developer            1
Name: job, dtype: int64


l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Fred', 'job': "developer"}]

l2 = [{'name': 'Ed', 'job': "dentist"},
      {'name': 'Jack', 'job': "farmer"},
      {'name': 'Ted', 'job': "designer"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

df1

df2


# df1과 df2를 row로 합치기 (방법 1)
result = pd.concat([df1, df2], ignore_index = True)
result


# df1과 df2를 row로 합치기 (방법 2)
result = df1.append(df2, ignore_index = True)
result


l3 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Jack', 'job': "developer"}]

l4 = [{'age': 25, 'country': "U.S."},
      {'age': 30, 'country': "U.K."},
      {'age': 45, 'country': "Korea"}]

df3 = pd.DataFrame(l3, columns = ['name', 'job'])
df4 = pd.DataFrame(l4, columns = ['age', 'country'])

df3

df4


# df3과 df4를 column으로 합치기
result = pd.concat([df3, df4], axis = 1, ignore_index = False)
result

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

따릉이

따릉이

[머신러닝] Pandas 기초 본문

[머신러닝] Pandas 기초

0. 팬더스, 데이터프레임, 시리즈¶

1. 파일에서 데이터 불러오기¶

2. 데이터프레임 생성하기¶

3. 데이터프레임 파일로 저장하기¶

4. 데이터프레임 행, 열 선택 및 필터 하기¶

column condition 사용하기¶

Filter column by index¶

Filter column by index¶

5. 데이터프레임 행, 열 삭제하기¶

6. 행, 열 생성 및 수정하기¶

7. 데이터 그룹 만들기¶

8. 중복 데이터 삭제하기¶

9. NaN 찾아서 다른 값으로 변경하기¶

10. apply 함수 활용¶

11. map, applymap 함수 활용¶

12. Column 내에서 유니크한 값 list 뽑아내고 갯수 확인하기¶

13. 두개의 데이터프레임 합치기¶

'머신러닝' 카테고리의 다른 글

티스토리툴바

	0	1	2
0	name	age	job
1	John	20	student
2	Jenny	30	developer
3	Nate	30	teacher
4	Julia	40	dentist
5	Brian	45	manager
6	Chris	25	intern

	name	midterm	final	total	average	grade
0	John	95	85	180	90.0	Pass
1	Jenny	85	80	165	82.5	Pass
2	Nate	30	10	40	20.0	Fail

	name	major	sex
0	John	Computer Science	male
1	Nate	Computer Science	male
2	Abraham	Physics	male
3	Brian	Psychology	male
4	Janny	Economics	female
5	Yuna	Economics	female
6	Jeniffer	Computer Science	female
7	Edward	Computer Science	male
8	Zara	Psycholog	female
9	Wendy	Economics	female
10	Sara	Psychology	female

	name	job	age
0	John	teacher	40.0
1	Nate	teacher	35.0
2	Yuna	teacher	37.0
3	Abraham	student	10.0
4	Brian	student	12.0
5	Janny	student	11.0
6	Nate	teacher	NaN
7	John	student	NaN

	name	job	age
0	False	False	False
1	False	False	False
2	False	False	False
3	False	False	False
4	False	False	False
5	False	False	False
6	False	False	True
7	False	False	True

	yyyy-mm-dd	year	age	introduce
0	2000-06-27	2000	18	I am 18 years old.
1	2005-09-24	2005	13	I am 13 years old.
2	2007-12-20	2007	11	I am 11 years old.

	yyyy-mm-dd	year	age	introduce
0	2000-06-27	2000	18	I was born in 2000 my age is 18
1	2005-09-24	2005	13	I was born in 2005 my age is 13
2	2007-12-20	2007	11	I was born in 2007 my age is 11

[머신러닝] 대용량 csv 파일 분할하기 (0)	2021.02.26
[모델] 2018년도 1~12월 요일별 따릉이 이용량 (0)	2021.02.24
[머신러닝]신경망 시각화 영상 (개요) (0)	2021.01.20
[머신러닝] Linear Regression, Logistic Classification, Softmax Regression (0)	2021.01.20
[팬더스] 6. map , applymap , unique , value_counts 함수 활용 (0)	2021.01.19

	num	word
0	1	one
1	2	two
2	3	three