본문 바로가기

프로그래밍 관련/잡담

[Dacon.io] 초보 데이터 분석가의 AI 도전기 / 한국판 Kaggle / 인공지능신문 / 머신러닝 / 딥러닝

요즘 컴퓨터 관련 주제의 화두는 역시 AI 기술이라고 생각한다.

 

얼마 전에 열린 CES 2020에서도 AI 관련 기술이 쏟아져 나왔다.

삼성, LG, SK 등 대기업을 위주로 5G, AI 관련 기술의 선점을 위한 신제품 출시를 계획하고 있는 것으로 보인다.

 

[인공지능 365] CES 2020 "AI로 시작해 AI로 끝났다"

IT조선은 인공지능(AI) 관련해 놓치지 않아야 할 뉴스를 모아 전달하는 [인공지능 365] 코너를 주 1회 게재합니다. 뉴스 제목을 클릭하거나..

it.chosun.com

위 기사를 보면 CES 2020에서 선보인 AI 기술들에 대한 뉴스를 확인해볼 수 있다.

 

 

인공지능신문

인공지능 관련 뉴스와 정보 제공. 인공지능, AI, 딥러닝, 머신러닝, 기계학습, 강화학습, CNN, 뉴럴네트워크, Deep Learning.

www.aitimes.kr

또한, 인공지능신문에서는 하루하루 새로운 인공지능 관련 기사를 접할 수 있다.

 

SI 업계에서 8년간 일하고 있는 웹 개발자로서 쏟아져 나오는 신기술을 배우기 위한 노력을 지속적으로 시도해야 하는 게 경쟁 시장에서 살아남기 위한 최소한의 자기 방어라고 생각한다.

 

8년간 전자정부 프레임워크를 통해 여러 기관의 웹 페이지를 개발했는데, 역시 폐쇄적인 한국 개발 문화의 특성상 기술 습득에 한계를 느끼고 혼자 공부를 시작해야겠다고 마음먹은 지 여러 해 지났지만 결국 맴돌고 맴돌아 그 자리.

 

그래도 작년 부터 딥러닝에 매력을 느껴 딥러닝 관련 서적과 기술을 찾아본 지 약 6개월 정도 되었고, Java로 개발한 경험이 있어 Python은 쉽게 적응하여, 요즘은 둘을 병행해서 지속적으로 공부하고 있다.

 


- Kaggle 데이터 분석가의 성지

 

문과 출신, 거기에 수학도 포기했던 개발자가 딥러닝을 한다는 게 참 우습긴 하다.

그래도 억지로 하다 보니 뭔가 처음보다 많이 좋아졌다는 걸 느끼긴 한다. 물론 모든 알고리즘이 수학 공식을 필요로 하기 때문에 원리를 정확히 이해하지는 못하지만 대충이라도 이해하고 적용해보는 실습 위주로 공부를 진행하고 있다.

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

Kaggle 메인 - 현재 진행 중인 딥 페이크 관련 경연은 총 상금이 무려 100만 달러(약 12억)이다.

그렇게 처음 딥러닝 관련 공부를 무작정 시작했을 때, 우연히 발견하게 된 사이트가 Kaggle이라는 사이트다.

 

Kaggle은 데이터 분식 및 머신러닝에 대한 경쟁 플랫폼이다. 기업, 기관, 특정 사용자가 데이터를 제공해주면 Kaggle 사용자가 문제에 대한 코드를 공유하고 자유롭게 토론하여, 원하는 답을 제출하는 구조로 데이터 분석가들의 성지로 알려져 있다.

 

데이터 분석가들은 자신의 코드를 공유하여, 참가자들의 표를 얻고 점수 및 상금을 획득하게 되는데, 점수에 따라 티어가 존재하여 티어를 높이기 위한 경쟁도 은근히 치열하게 진행되고 있다.

 

자신의 분석 코드(알고리즘)를 코드로 공유하므로, 초보자들이 혼자 공부하기 가장 좋은 사이트라고 생각되며, 자유토론 또한 활발히 진행 중이니, 궁금한 점이 있다면 작성하여 원하는 답을 얻어 낼 수도 있다.

 

 

AI 고수들의 전쟁터 캐글…한국 인재들이 안보인다

세계 인공지능(AI) 개발자들이 총상금 100만달러(약 11억5980만원)가 걸린 과제 해결을 두고 치열한 경쟁을 벌이고 있다. AI 개발자들의 최대 온라인 커뮤니티이자 AI 경진대회가 수시로 열리는 플랫폼 ‘캐글(Kaggle)’에서다. 이번 경진대회는 지난달 시작됐으며 역대 세 번째 규모의 상금이 걸렸다. 페이스북, 마이크로소프트(MS), 아마존 등이 후원한다. 과제는 딥페이크를 미리 감지하는 AI 기술을 개발하는 것. 딥페이크는 AI로 사진, 동영상

www.hankyung.com

 

[헬로디디]세계 0.1% 캐글 실력자 "원동력은 협동·도전·나눔 정신"

인공지능 분자물성 예측 대회에서 이유한 KAIST 박사과정생이 속한 팀은 세계 3위로 금메달을 수상했다. <사진=정민아 기자> "혼자서는 해결할 수 없던 과제를 팀원들과 수행하며 많은 깨달음을 얻었어요. 아무리 생각해도 답이 나오지 않던 문제에 직면할 때면 막막했는데 팀원들에게 제안받은 솔루션을 적용하니 바로 문제가 해결됐어요. 혼자서만...

hellodd.com

얼마 전에 나온 Kaggle 관련 기사.

 

AI 고수들의 전쟁터에서 한국 인재들이 안 보인다는 칼럼인데, 초보자인 내가 보기에도 Kaggle에는 활동 중인 한국인 분들이 보이지 않는다. 또, 구글에서 검색해서 보이는 자료들도 한국어로 된 레퍼런스는 찾아보기 힘들고, 활성화된 커뮤니티도 찾아보기 힘든 게 현실이다.

 

가뜩이나 영어도 잘 못하는데, 꾸역꾸역 해석해서 읽는다고 하더라도 이해가 안 가는 부분이 많다. 딥러닝을 하려면 영어를 먼저 공부하라는 장난 섞인 말이 있는데, 장난이 아니라 정말 영어만 잘해도 공부의 질이 달라질 수 있다. 거의 모든 양질의 레퍼런스가 영어로 되어있으니 영어 공부 또한 소홀히 할 수 없는 게 현실.

 

그 와중에 입상하는 한국인 분들은 정말 대단한 것 같다!!

 


 

- [Dacon.io] 한국판 Kaggle 등장!

 

한국에도 Kaggle과 같은 데이터 분석 경연 사이트가 개설됐다.

 

- DACON

Welcome to Dacon 데이콘에 가입하신 것을 환영합니다. 데이콘 서비스를 이용하시려면 가입하신 undefined이메일로 인증이 필요합니다.

dacon.io

Kaggle과 마찬가지로 기관 및 기업에서 데이터를 제공하고, 경연자가 해당 데이터에 대한 분석을 진행하는 형태다. 아직 크게 활성화되어있지 않아, 참여자가 많지 않지만 그래도 한국에서 이런 사이트가 개설됐다는 거에 의의를 둬야겠다.

 

Dacon.io 메인 - Kaggle과 동일한 구조

 

현재 참여 중인 경연 - 약 561팀이 참가했고 소정의 상금이 주어진다.

Kaggle처럼 토론이 활발하진 않지만, 그래도 코드 공유 및 EDA 분석을 진행해주시는 분들도 계셔서 선의의 경쟁을 위한 구도가 조금씩 갖춰지는 것 같다.

 

현재 위의 경연에 참여 중인데, 20 ~ 40등 내외에서 계속 맴돌고 있다. 코드 공유를 하고 싶어도 매우 수준 떨어진 코드라 공개하기 부끄럽다...;; 기초가 부족해 내가 어떻게 뭘 진행했는지, 왜 이런 결과가 나왔는지 조차 파악하기 어려운 단계. 경연 후에 커널이 공개되는지 모르겠지만, 역시 아직 한참 멀었다는 생각과 동시에 더 열심히 공부해야겠다는 의지도 생긴다.

 

#데이터를 불러옵니다.
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

#독립변수와 종속변수를 분리합니다.
train_X = train.iloc[:,4:]
train_Y = train.iloc[:,0:4]
test_X = test.iloc[:,1:]

#케라스를 통해 모델 생성을 시작합니다.
import keras
from keras.models import Sequential
from keras.layers import Dense

model = Sequential()
model.add(Dense(units=160, activation='relu', input_dim=226))
model.add(Dense(units=160, activation='relu'))
model.add(Dense(units=160, activation='relu'))
model.add(Dense(units=4, activation='linear'))

#모델을 컴파일합니다.
model.compile(loss='mae', optimizer='adam', metrics=['mae'])

#모델을 학습합니다.
model.fit(train_X, train_Y, epochs=20, batch_size=10000, validation_split = 0.05)

#예측값을 생성합니다.
pred_test = model.predict(test_X)

#submission 파일을 생성합니다.
sample_sub = pd.read_csv('sample_submission.csv', index_col=0)
submission = sample_sub+pred_test
submission.to_csv('submission.csv')

그리고 주최 측에서 위처럼 베이스라인 코드를 제공해주니, 데이터 분석에 관심 있는 분들은 참여하여 선의의 경쟁 구도에 참여해보길 바라고, 앞으로도 많은 분들이 AI, 데이터 분석, 머신러닝, 딥러닝에 관심을 갖고 경쟁력 있는 사회를 만들어 나가길 바라는 마음에서 오늘 포스팅을 진행하게 됐다.

 

앞으로도 데이터 분석과 해당 분야를 관심 있게 보고 연구 & 개발하는 분들의 선전을 기원합니다.

(한국어 레퍼런스가 많이 생겼으면...ㅎ)