카이스트 Bioengineering Laboratory 1 lab4_final [Text Mining of Biological Literature]
- 최초 등록일
- 2015.01.04
- 최종 저작일
- 2014.04
- 11페이지/ MS 워드
- 가격 2,000원
소개글
카이스트 바이오및뇌공학과 계측 1 실험 4 : text mining of biological literature final 보고서 입니다
한글자료입니다
목차
1. Introduction
2. Theoretical Background
1) co-occurence based text mining
2) scoring function
3. Methods
4. Source code
1) Find same PMID index
2) save scoring information
5. Result & Discussion
본문내용
1. Introduction
21세기, 인터넷 정보 통신의 발전으로 인해 정보화시대로 접어들면서 우리는 언제 어디서든 손쉽게 원하는 정보를 얻을 수 있게 되었다. 하지만 정보의 양이 어마어마하게 증가하면서 막대한 양의 정보 속에서 필요한 정보만을 선택적으로, 빠르게 찾아내는 일이란 매우 어려워졌다. Text mining이란 text 형식으로 된 정리되지 않은 문헌에서 패턴 또는 관계를 유추하여 의미 있는 정보를 추출하는 작업을 말한다.
현재 Text mining 기법은 어휘 분석, 패턴인식, 문서요약 등 다양한 분야에서 널리 쓰이고 있다. 특히 생명과학 분야에서는 방대한 양의 biomedical literature로부터 필요한 정보만을 얻어내기 위해 text mining 기법을 사용한다. 이번 lab에서는 수 많은 논문들의 데이터를 text mining로 분석하여 특정 disease와 관련된 protein gene을 찾아내는 방법을 구현해 보고자 한다.
<중 략>
5. Result & Discussion
Parkinson’s disease와 multiple sclerosis에 대해 Pre-lab에서 얻은 gene tagging table과 disease tagging table로부터 같은 PMID에 등장한 protein들을 extract 한 뒤 이를 scoring function에 기반하여 score를 매기고, 상위 30개의 protein에 대해 F-score test를 시행하였다.
처음에 Parkinson’s disease를 통해 처음 test할 때는 co-occurrence method에 기반하여 같은 논문에서 같은 문장에 위치해 있는 disease와 protein gene만을 extract하여 F-score test를 시행하였다. 하지만 PMID, sentence index가 disease와 일치하는 50개의 protein gene 가운데 4개만 true positive protein으로 밝혀졌다.
참고 자료
Pre-Lab Report #4_20120589
2014 Bioengineering Laboratory 1-Lab4 material
http://www.cplusplus.com/reference/map/map/?kw=map
http://stackoverflow.com/questions/5056645/sorting-stdmap-using-value
http://stackoverflow.com/questions/16545309/stdmap-how-to-change-key-sorting