BPT AI 딥러닝 구조, 프레임워크

특허 문서 AI 딥러닝

청구항은 특허 문서의 주요한 내용이기 때문에 청구항에 작성된 내용으로 그 권리가 보장됩니다. 하지만 이러한 문서 작성 내용은 가독성과 많은 내용을 담기 때문에 그 분석이 매우 어렵습니다. BPT AI는 이러한 청구항을 분석하기 위해 다음 단계의 전처리 과정을 진행합니다. Apache-Spark에서 분석 할 수 있도록 RDD(Resilient Distribution Dataset)로 변환시키며, 이를 단어 단위로 나누고 불용어를 삭제합니다. RDD는 스파크의 기본 데이터 구조를 의미합니다.

Word2Vec 분석 로직

검색식은 입력된 정보와 연산자로 구성된 식으로 이를 통해서는 찾고자 하는 정확한 정보를 획득하기 어렵습니다. Word2VEC은 단어를 벡터화하고 이와 연관된 유사도를 측정하여 정확한 데이터를 추출하는 기술입니다. 특허 문서의 내용을 보다 정확하게 도식화 하고 관련없는 정보들은 NOT 연산으로 제거합니다.

PreviousBPT AI 개요 NextBPT 자연어 처리 및 이해

Last updated 2 years ago