More actions
imported>skywave No edit summary |
imported>anjw0111 No edit summary |
||
| Line 1: | Line 1: | ||
== | |||
== OMS == | |||
* [[이병윤]] 학우의 '''질의 응답 시스템''' | |||
* SW Maestro 프로젝트 | |||
* Question Answering | |||
** 난 질문할테니 너는 답을 내놔라 | |||
** 심심이, 에밀리(신의탑) | |||
** 동기 | |||
** "서울에서 가장 높은 산은?"은 네이버에서 답을 알려주지는 않는다. | |||
** 답을 바로 알려주는 뭔가를 만들자! | |||
** 어떻게 답을 찾아낼까? | |||
## 많은 검색 결과에는 답을 포함하고 있다. | |||
*** 여러 자료를 모아서 가장 많이 나오는 단어를 찾아낸다. | |||
*** But, 가장 많은 단어 'ㅋ' | |||
*** 다음으로 은, 는, 이, 가 | |||
## 형태소를 분석하자 | |||
*** 각각 요소들이 어떤 형태를 가지고 있는지 분석 | |||
*** 명사, 동사, 형용사 ... 등등등 | |||
*** 테스트 결과 | |||
*** 북한산 20 / 도봉산 17 / 청계산 ... | |||
*** 그래서! 그런 답에 가까운 답을 돌려주었다. | |||
** 데모를 하려고 준비하려고 했는데 | |||
** 형태소 분석기가 되지 않아 보여주지는 못함 | |||
** 발표가 끝났다. | |||
** 안녕 | |||
** 목표 | |||
** 단답형으로 답으로 나올 수 있는 질문이다. | |||
** 상위 5개에서 정확한 답이 있을 확률은 약 70%정도 | |||
** 기능셋 | |||
** Crawling | |||
** Information Retrieve | |||
** NLP | |||
** Indexing | |||
** Etc... | |||
** 목적 | |||
** 검색엔진이 발전하고 (구글, 네이버, 등에서는 데이터 센터도 짓고)해서 많은 자료들 중에서 | |||
** 사용자들이 원하는 정보를 찾기는 쉽지가 않다. | |||
** 그래서 이 프로젝트에서는 데이터를 가공하여 사람들이 실제로 원하는 정보를 사용자에게 전달하자. | |||
* Q. [[질문을 놓쳤습니다]] | |||
** A. 6천만건 정도의 문서를 크롤링하여 데이터를 직접 가지고 있었다. | |||
* Q. 답을 내는데 어느정도 시간이 걸렸나? | |||
** A. 질문하나에 대해서 데이터를 찾아내는 시간은 3초정도? | |||
* Q. 데이터 관리는 어떻게 하고 있었나? | |||
** A. 블로그 데이터를 중점적으로 크롤링하였는데, 일단 DB에 데이터를 넣었다. 그 정보를 다시 루씬을 이용하여 인덱싱/검색을 통해 데이터를 찾아내었다. | |||
** Q. DB는 RDBMS? | |||
*** A. ㅇㅇ RDBMS썼다. | |||
== 예정 == | == 예정 == | ||
* OMS: [[이병윤]] 학우 | * OMS: [[이병윤]] 학우 | ||
Revision as of 09:21, 7 May 2014
==
OMS
- 이병윤 학우의 질의 응답 시스템
- SW Maestro 프로젝트
- Question Answering
- 난 질문할테니 너는 답을 내놔라
- 심심이, 에밀리(신의탑)
- 동기
- "서울에서 가장 높은 산은?"은 네이버에서 답을 알려주지는 않는다.
- 답을 바로 알려주는 뭔가를 만들자!
- 어떻게 답을 찾아낼까?
- 많은 검색 결과에는 답을 포함하고 있다.
- 여러 자료를 모아서 가장 많이 나오는 단어를 찾아낸다.
- But, 가장 많은 단어 'ㅋ'
- 다음으로 은, 는, 이, 가
- 형태소를 분석하자
- 각각 요소들이 어떤 형태를 가지고 있는지 분석
- 명사, 동사, 형용사 ... 등등등
- 테스트 결과
- 북한산 20 / 도봉산 17 / 청계산 ...
- 그래서! 그런 답에 가까운 답을 돌려주었다.
- 데모를 하려고 준비하려고 했는데
- 형태소 분석기가 되지 않아 보여주지는 못함
- 발표가 끝났다.
- 안녕
- 목표
- 단답형으로 답으로 나올 수 있는 질문이다.
- 상위 5개에서 정확한 답이 있을 확률은 약 70%정도
- 기능셋
- Crawling
- Information Retrieve
- NLP
- Indexing
- Etc...
- 목적
- 검색엔진이 발전하고 (구글, 네이버, 등에서는 데이터 센터도 짓고)해서 많은 자료들 중에서
- 사용자들이 원하는 정보를 찾기는 쉽지가 않다.
- 그래서 이 프로젝트에서는 데이터를 가공하여 사람들이 실제로 원하는 정보를 사용자에게 전달하자.
- Q. 질문을 놓쳤습니다
- A. 6천만건 정도의 문서를 크롤링하여 데이터를 직접 가지고 있었다.
- Q. 답을 내는데 어느정도 시간이 걸렸나?
- A. 질문하나에 대해서 데이터를 찾아내는 시간은 3초정도?
- Q. 데이터 관리는 어떻게 하고 있었나?
- A. 블로그 데이터를 중점적으로 크롤링하였는데, 일단 DB에 데이터를 넣었다. 그 정보를 다시 루씬을 이용하여 인덱싱/검색을 통해 데이터를 찾아내었다.
- Q. DB는 RDBMS?
- A. ㅇㅇ RDBMS썼다.
예정
- OMS: 이병윤 학우
- ZeroPager여러분 모두 OMS 페이지에 추후 발표 주제를 적어주세요.
- 안내
- 독서대 나눔
- 위시리스트
- 회원 활동 조사
- HDMI 케이블 구매
- 공대 해오름제 부스 - 일정?
- Devils Camp - 데블스캠프/2013/조언 : All the thing you needed is included.
- ZeroPage 그룹
- TOPCIP 안내
- 진행 사항 공유
- 스터디 및 프로젝트 (활동지도/2014)