분류 전체보기 245

AI (GridSearchCV/ Outliers/ Bagging/ Voting )

● 그리드서치 (GridSearchCV) - 하이퍼파라미터 튜닝 : 임의의 값들을 넣어 더 나은 결과를 찾는 방식 → 수정 및 재시도하는 단순 작업의 반복 - 그리드 서치 : 수백 가지 하이퍼파라미터값을 한번에 적용 가능 - 그리드 서치의 원리 : 입력할 하이퍼파라미터 후보들 을 입력한 후, 각 조합에 대해 모두 모델링해보고 최 적의 결과가 나오는 하이퍼파라미터 조합을 확인 ex) max_depth = [3, 5, 10] Learning_rate = [0.01, 0.05, 0.1] ● XGBoost 모델의 parmeters - 'n_estimators': [100,200,300,400,500,1000]} #default 100 / 1~inf(무한대) / 정수 - 'learning_rate' : [0.1,..

Python/인공지능 2023.05.16

SQL 15(데이터 분석 함수로 데이터를 가로로 출력하기/ LISTAGG)

1. 부서 번호를 출력하고, 부서번호 옆에 해당 부서에 속하는 사원들의 이름을 가로로 출력해보기 ●LISTAGG -데이터를 가로로 출력하는 함수 -구분자로 ( , ) , ( /) 사용 - withn group: '~이내의' 라는 뜻으로 group 다음에 나오는 괄호에 속한 그룹의 데이터를 출력하겠다는 뜻 -group by 절이 listagg 함수사용에 필수로 동반되어야 함 2. 직업과 그 직업에 속한 사원들의 이름을 가로로 출력하기

SQL 2023.05.15

AI (XOR 문제의 해결/ SVM 모델 (SVC, SVR), Linear 모델, Tree 모델, Ensemble 모델, All_Estimator,KFold 와 StratifiedKFold, Feature Importances )

● 퍼셉트론의 과제 - XOR 문제 - 직선을 하나 그어서 직선의 한쪽 편에는 검은 점, 다른 한쪽에는 흰 점만 있도록 할 수 있을까? ->이것이 퍼셉트론의 한계를 설명할 때 등장 하는 XOR(exclusive OR) 문제 - AND, OR, XOR 게이트 ● SVM 모델 - 서포트 벡터 머신은 여백(Margin)을 최대화하는 지 도 학습 알고리즘 - 여백(Margin)은 주어진 데이터가 오류를 발생시키 지 않고 움직일 수 있는 최대 공간 - 분류를 위한 서포트 벡터 머신 SVC - 회귀를 위한 서포트 벡터 머신 SVR ● Decision Tree - 분류와 회귀 문제에 널리 사용하는 모델 - 기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 -scikit-learn에서 ..

Python/인공지능 2023.05.15

AI (Word Embedding/인공지능에서 벡터 (vector)란/ keras Embedding/ Tokenizer/ Embedding_imdb)

●워드 임베딩 (Word Embedding) - 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 변환 - 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라짐 - 워드 임베딩은 각 단어를 인공 신경망 학습을 통해 벡터(Vector)화하는 방법 - 케라스에서 제공하는 Embedding() ->단어를 랜덤한 값을 가지는 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습 ●인공지능에서 벡터 (vector)란 - 인공지능 분야에서 벡터는 대개 고차원의 숫자 배열(array)을 의미함 - 이미지 데이터의 벡터는 각 픽셀(pixel)의 색상 값을 숫자로 표현하고, 이러한 숫자들을 배열 형태로 나열한 것 (예를 들어, 28 x 28 픽셀의 흑백 이미지는 784차원의 벡터) - 텍스트 데이터의 벡터는 각 단어(w..

Python/인공지능 2023.05.12

AI ( CNN/ Convolutional Layer/ stride/ pooling layer/ Mnist/ cifar/pandas)

●회귀분석과 분류분석 정리 ●CNN(합성곱 신경망) 이미지 분석에서 완전연결신경망의 문제점 -데이터 형상의 무시 -변수의 개수 -네트워크의 크기 -학습시간의 문제 이미지 데이터의 경우 3차원(세로, 가로, 채널)의 형상을 가지며, 공간적 구조(spatial structure)를 지닌다 ex) 공간적으로 가까운 픽셀은 값이 비슷하거나, RGB의 각 채널은 서로 밀접하게 관련 있다 ●합성곱층(Convolutional Layer, Conv Layer) − 이미지 데이터는 일반적으로 채널, 세로, 가로 이렇게 3차원으로 구성된 데이터 − 합성곱에서는 3차원 데이터(1, 28, 28)를 입력하고 3차원의 데이터로 출력하므로 형상을 유지 가능 − CNN에서는 이러한 입출력 데이터를 특징맵(Feautre Map)이라..

Python/인공지능 2023.05.11

SQL 13(데이터 분석 함수로 등급 출력하기 / NTILE)

1. 이름과 월급, 직업, 월급의 등급을 출력하고자 한다. -월급의 등급은 4들급으로 나눠 1등급(0~25%), 2등급(25~50%), 3등급(50~75%), 4등급(75~100%)으로 나누기 -> select ename, sal, job ntile을 이용한 등급 나누기 -> ntle(원하는 n등분의 숫자 쓰기) 첫시도 : 단순히 NTILE(n)을 사용하여 쿼리 작성 했더니, 윈도우에 대한 지정이 없단 결과가 나왔다 ●NTILE NTILE(bucket_count) OVER (PARTITION BY partition_expression ORDER BY sort_expression) -bucket_count는 결과를 분할할 버킷(그룹)의 수를 지정 -partition_expression은 옵션으로, 결과를 ..

SQL 2023.05.11

AI ( gradient descent/ momentum/ AdaGrad/ RMSProp/ Adam/과적합[overfitting]/ early stopping)

● Gradient Descent (경사하강법) -함수의 기울기(=gradient)를 이용해 x의 값을 어디로 옮겼을 때 함수가 최소값을 찾는지 알아보는 방법 => 문제점 1. 극소값(local minimum)에 도달할 수 있다는 것이 증명되었으나, 전체 최소값(global minimum) 에 갈 수 있다는 보장 없음 2. 훈련이 느림 ● Momentum -GD(graient descent) 의 문제를 해결하기 위해 보편적으로 사용되는 방법 -관성(momentum)을 적용하여 변수가 가던 방향으로 계속 가도록 속도(velocity)를 추가한 것 -전체 최소값(global minimum)에 이르기전에 기울기가 0이 되는 (local minimum)에 빠지는 것을 방지 =>문제점 1. 여전히 지역 최소값 탈..

Python/인공지능 2023.05.10

SQL 12(데이터 분석 함수로 순위 출력하기/DENSE_RANK + extract)

1. 직업이 ANALST, MANAGER 인 사원들의 이름, 직업, 월급, 월급의 순위를 출력하고자 한다 순위 1위인 사람이 2명일때 다음 순위가 3위가 아닌 2위가 되도록 출력하기 rank는 1 1 ->3 dense rank 는 1 1 ->2 로 출력해준다 2. 81년도에 입사한 사원들의 직업, 이름, 월급, 순위를 출력하는데, 직업별로 월급이 높은 순서대로 순위 부여하기 1981년에 입사한 사원들에 대한 조건을 간단히 해보고 싶어 작성해본 hiredate = to_date('1980', 'RRRR') 쿼리가 오류가 발생했다. 어떻게 입력해야 가능할라나,, ##공부하다가 알아냈는데 첫 줄 쿼리터 잘못짰다 직업별 월급이 높은 순서니까 dense_rank() over(partition by job orde..

SQL 2023.05.10

AI (train set/ test set/ validation set/ 회귀분석과 분류분석/ 이진분류/ 다중분류/ 이항교차 엔트로피/ 범주형교차 엔트로피/ mse/ r2 score/ onehotencoding)

●Train Set - 모델의 학습만 을 위해 사용 - parameter 나 feature 등을 수정하여 모델의 성능을 높이는 작업에 사용 ● Test Set - 최종적으로 모델의 성능 평가 - 실사용 되었을 때 모델이 얼마나 좋은 성능을 보일 수 있을지 알아보는 것 ● Validation Set - 모델의 학습에 직간접적으로 관여하지 않음 - 학습이 끝난 모델에 적용, 최종적으로 모델을 fine tuning하는데 사용한다 ● 회귀분석과 분류분석 회귀분석 (Regression) 분류분석 (Classfication) 연속된 값을 예측 종류를 예측 ex) 과거의 주가를 토대로 미래 주가 예측 자동차 배기량 , 연식 등 중고차 정보 이용해 가격을 예측 클래스 0 또는 1 중에서 선택하는 이진 분류 3개 이상의..

Python/인공지능 2023.05.09