Python 103

2024-07-04 문장 임베딩 | ELmo / Transformer

1. ELmo(Embeddings from Language Model) 2018년 논문에서 제안된 새로운 워드 임베딩 방법론 ELMo의 가장 큰 특징은 가전 훈련된 언어 모델(Pre-Trained Language Model)을 사용한다는 것 논문: https://arxiv.org/abs/1802.05365참고사이트: https://wikidocs.net/33930 09-09 엘모(Embeddings from Language Model, ELMo)![](https://wikidocs.net/images/page/33930/elmo_DSHQjZD.png) 논문 링크 : https://aclweb.org/antholog…wikidocs.net  1. ELmo 특징기존 워드 임베딩은 주변 문맥 정보를 활용하여 ..

2024-07-04 11.문장 임베딩 | Attention Meshanism

1. 어텐션 메커니즘(Attention Meshanism) 기본적으로 Seq2Seq 모델의 한계를 해결하기 위해 2014년도에 제안한 논문입력 시퀀스가 길어지면 출력 시퀀스의 정확도가 떨어지는 것을 보정해주기 위해 등장한 기법논문1: https://arxiv.org/abs/1409.0473논문2: https://arxiv.org/abs/1508.04025참고사이트: https://wikidocs.net/22893 15-01 어텐션 메커니즘 (Attention Mechanism)앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 …wikidocs.net   1. 어텐션의 아이디어디코..

2024-07-03 10.문장 임베딩 | Seq2Seq

1. 문장 임베딩- 2017년 이전의 임베딩 기법들은 대부분 단어 수준의 모델 (Word2Vec, FastText, GloVe)- 단어 수준의 임베딩 기법은 자연어의 특성인 모호성, 동음이의어를 구분하기 어렵다는 한계가 있음- 2017년 이후에는 ELMo(Embeddigs from Language Models)와 같은 모델이 발표되고 트랜스포머와 같은 언어 모델에서 문장 수준의 언어 모델링을 고려하면서 한계점들이 해결됨   2. Seq2Seq (Sequence To Sequence)2014년 구글에서 논문으로 제안한 모델LSTM(Long Short-Term Memory) 또는 GRU(Gated Recurrent Unit) 기반의 구조를 가지고 고정된 길이의 단어 시퀀스를 입력으로 받아, 입력 시퀀스에 알..

2024-07-02 9. LSTM과 GRU

1. RNN  ◼ import                 import torch          import torch.nn as nn          import torch.optim as optim          import numpy as np          from sklearn.preprocessing import LabelEncoder          from sklearn.feature_extraction.text import CountVectorizer          from torch.utils.data import DataLoader, Dataset          from sklearn.datasets import fetch_20newsgroups          from sk..

2024-07-02 8. CNN text classification

1. CNN Text Classification- 참고 사이트: https://wikidocs.net/book/2155 ◼ import                import urllib.request          import pandas as pd          import numpy as np          import matplotlib.pyplot as plt          import torch          import torch.nn as nn          import torch.optim as optim          import torch.nn.functional as F          from copy import deepcopy          from torch.u..

2024-07-01 7. CBOW Text Classification

1. CBOW Text Classification  더보기"I like studying data analysis." 라는 문장이 주어져있다고 합시다.저희는 studying 이라는 단어의 정보를 주변의 단어의 정보로부터 얻고자 합니다.CBOW 방법은 "studying" 을 주변 단어인 "I", 'like", "data", "analysis" 로 부터 유추됩니다.우선 첫 번째 과정으로, "I", 'like", "data", "analysis" 단어들에게서 정보를 추출해야합니다.정보를 추출한다는 것은 각 단어들을 vector화 시키는 것입니다.각 단어들을 vector화 시키기 위해서 우선 가장 기본적인 방법으로 one-hot encoding을 사용합니다.그리고, look-up table 이라고 불리는 행렬에 ..

2024-06-27 6. RNN 기초

1. 순환 신경망(Recurrent Neural Network) 시계열 또는 자연어와 같은 Sequence 데이터를 모델링하는데 강력한 신경망, 시계열 데이터나 시퀀스 데이터를 잘 처리예) 주식 가격, 텍스트 데이터, 오디오 데이터Sequence: 단어의 문장, 연결되어 있는 정보  1. RNN 동작 방식은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 다시 출력층 방향으로 보내면서 은닉층 노드의 다음 계산의 입력으로 보내는 특징셀(cell): 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드, 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행은닉 상태( hidden state): 셀이 출력층 방향 또는 다음 시점인 t+1의 자신에게 보내는 값  rnn = torch.nn.RNN(i..

2024-06-27 5. 워드임베딩 시각화

1. 네이버 영화 리뷰 데이터 셋 총 20만개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음   ◼  데이터 준비설치               !sudo apt-get install -y fonts-nanum        !sudo fc-cache -fv        !rm ~/.cache/matplotlib -rf  import               import urllib.request        import pandas as pd   git-hub에 올라가 있는 파일 가져오기               urllib.request.urlretrieve('https://raw.githubus..

2024-06-25 4. 워드 임베딩

1. 워드 임배딩(Word Embedding)단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 백터화하는 기술단어를 밀집 백터의 형태로 표현하는 방법워드 임배딩 과정을 통해 나온 결과를 임배딩 백터워드 임배딩을 거쳐 잘 표현된 단어 백터들은 계산이 가능하여, 모델에 입력으로 사용할 수 있음  1. 희소 표현(Sparse Representation)원 핫 인코딩을 통해서 나온 백터들은 표현하고자 하는 단어의 인덱스의 값만 1이고,나머지 인덱스에는 전부 0으로 표현되는 백터 표현 방법원-핫 인코딩에 의해 만들어지는 백터를 '희소 백터'하고 함 2. 희소 백터의 문제점희소 백터의 특징은 단어의 개수가 늘어나면 백터의 차원이 한없이 커진다는 것원-핫 백터는 백터 표현 방식이 단순하여, 단순히 단어의..

2024-06-25 3. 임베딩, 임베딩 실습

1. 자연어의 특성 자연어를 기계가 처리하도록 하기 위해서 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고,단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있음  1. 단어의 유사성과 모호성단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있음 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있음 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어 처리에서 매우 중요동형어: 형태는 같으나 뜻이 서로 다른 단어 _예) 배다의어:..