기계학습을 통한 위해물질 거동 예측

Machine Learning

기계 학습 또는 머신 러닝은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다.

인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다.

자연어 처리 또는 자연 언어 처리는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고,

이를 구현하는 인공지능의 주요 분야 중 하나다.

자연어를 처리할 때 데이터가 필요에 맞게 전처리 하기 위해서 Tokenization 과정을 하게 된다.

Tokenization는 Tokennizer를 이용하여 text를 여러개의 Token으로 나누는 것이다.

다양한 Tokenizer에 따라 공백, 구두점, 특수문자등으로 나눈다.

Tokenizer에 따라 Token생성하는 방식이 다르기 때문에 데이터에 따라 Tokenizer를 다르게 사용해야한다.

아래는 Python을 이용하여메타지놈시퀸싱을 통한 염기서열을 Tokenization 과정과,

이를 이용한 문(Phylum) 단위의 분류 모델링을 보여주고 있다.

Sequence tokenizer

확인

NLP-based Phyllum categorization model training

확인

다층 퍼셉트론(Multilayer perceptron, MLP)은 퍼셉트론을 여러층 쌓은 순방향의 인공 신경망이다. 입력층(input layer)과 은닉층(hidden layer)과 출력층(output layer)으로 구성된다. 각 층에서는 활성함수를 통해 입력을 처리한다.

아래는 수질사례와 토양사례의 물리, 화학, 생물학적인 변수를 이용하여 다층 퍼셉트론을 통한 기계학습을 한 모델이다

Optimized MLP

확인

images-kjune1236-post-b9c6ca80-e735-4bd0-9d7d-a904c46db734-0__Ycg_QjsTmSl8YU4.png

​기계학습을 통한 위해물질 거동 예측

Machine Learning

Sequence tokenizer

NLP-based Phyllum categorization model training

Optimized MLP

기계학습을 통한 위해물질 거동 예측