본문 바로가기
취준! ✒/LG

[AI과제분석 테스트] 1. 서론과 pandas -작성중

by deepbluechip 2023. 10. 9.
728x90

과제분석테스트와 관련한 자료는 적다. 그래서 나는 그냥 이런저런 걸 공부해 볼 예정이다. pytorch같은 것은 사용 못할테니, 간단한 것 부터... 시험 내용은 공개가 불가능이라 그런지 관련 자료가 별로 없다. 그리고 나도 어느정도까지 정리해도 될지 모르겠어서 그냥 내가 공부하려고 하는 것만 적으며 공부해볼까 한다. 

기본적인 테스크를 위해서 필요한, 전처리 & 간단한 머신러닝에 필요한 것들을 공부할 것이다.

사실 이는 내가 어느 기업 인공지능 기초를 하며 강의에 참여하여 수업한 내용과 비슷하다. 사실 거기도 그렇고 여기도 기업이니, 비슷한 것을 필요로 하지 않을까? 이 수업을 한 경험이 여러므로 도움이 되는 것 같다.

 

공부할 내용은 크게 두개이다. 

  • Pandas 🔥 이번에 다룰 것!
  • sklearn

 

1. 설치 및 시작

! pip install pandas
import pandas as pd

 

2. 데이터 정리 (Dataframe)

위 와 같은 자료를 정리하고자 한다면, pd.DataFrame을 사용하면 좋다. 

df = pd.DataFrame(data, columns = ['year', 'name_id_code', 'points', 'penalty'], index = ['1','2','3','4'])

결과는 다음과 같다. 

보면 알 수 있듯이, 원래 data에 있던 순서대로가 아닐라 DataFrame화 해주며 지정해준 columns 순서대로 정리가 된다.

 

3. 파일 읽기 및 저장

# 파일읽기
data = pd.read_csv('./path/filename.cvs')

# 파일저장
data.to_csv("./path/filename.csv")

<예시>

1. dictionary "data"  →  dataframe "df"

2. datame "df" → csv 파일 저장 "test.csv"  →  csv 파일 열기: dataframe "ff" 

근데 보면 새로운 인덱스가 생겼다.

근데 저장하고 나니 index가 바뀌었다. 그럼 set_index를 사용하면 된다. 

newff = ff.set_index("Unmamed: 0")

 

 

https://velog.io/@hhhs101/Pandas-%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D-str.extractstr.contains 정규표현식

728x90