top of page
기계학습을 통한 위해물질 거동 예측
자연어 처리 또는 자연 언어 처리는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고,
이를 구현하는 인공지능의 주요 분야 중 하나다.
자연어를 처리할 때 데이터가 필요에 맞게 전처리 하기 위해서 Tokenization 과정을 하게 된다.
Tokenization는 Tokennizer를 이용하여 text를 여러개의 Token으로 나누는 것이다.
다양한 Tokenizer에 따라 공백, 구두점, 특수문자등으로 나눈다.
Tokenizer에 따라 Token생성하는 방식이 다르기 때문에 데이터에 따라 Tokenizer를 다르게 사용해야한다.
아래는 Python을 이용하여메타지놈시퀸싱을 통한 염기서열을 Tokenization 과정과,
이를 이용한 문(Phylum) 단위의 분류 모델링을 보여주고 있다.
Sequence tokenizer
NLP-based Phyllum categorization model training
다층 퍼셉트론(Multilayer perceptron, MLP)은 퍼셉트론을 여러층 쌓은 순방향의 인공 신경망이다. 입력층(input layer)과 은닉층(hidden layer)과 출력층(output layer)으로 구성된다. 각 층에서는 활성함수를 통해 입력을 처리한다.
아래는 수질사례와 토양사례의 물리, 화학, 생물학적인 변수를 이용하여 다층 퍼셉트론을 통한 기계학습을 한 모델이다
Optimized MLP
bottom of page