일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- list
- Anaconda
- 미니프로젝트 #XYZ세대 #도서제목분석 #워드클라우드 #워드투벡 #대응분석 #word2vec
- jupyter notebook
- bool
- 자연어처리 #언어학 #이론언어학 #형태론
- 자연어처리 #언어학 #이론언어학 #통사론
- for
- while
- Set
- 문자열
- 숫자형
- Python
- 언어학 #이론언어학 #자연어처리 #개론
- IF
- Tuple
- Today
- Total
미나랑 해보자
이론언어학 1. 개론 본문
언어학과 자연어처리에 대한 아주 간단한 인트로이다. 배운 걸 정리하려는 목적이지만 혹시 정주행 하시는 분이 있다면 이러저러한게 있구나~ 하고 쓱 보시면 될 것 같다. 자연어처리에 관한 내용도 조금은 나오고 위 수업은 영어학이었지만 언어학 전공수업 시간에 배운 타언어도 조금 언급하게 될 것 같다.

1. 자연어처리 개론
1. 자연어&자연어처리란?
-자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일
-자연어 이해, 자연어 생성, 음성인식, 음성합성, 기계번역 등
-이전에는 규칙기반 방법(rule based)을 주로 사용했으나 최근에는 머신러닝을 사용하면서 정확도가 높아짐
2. 자연어처리의 한계(현재)
-비정형데이터(띄어쓰기가 없는 경우, 영어 알파벳 등으로 자모음을 대체하여 표기하는 경우) 처리가 어렵다
-숙어, 신조어 등을 처리하기 어렵다
3. 자연어처리의 단계
Sentence splitting-> Tokenization(단어단위로 나누기)-> Morphological analysis(형태소 분석)-> Part-of-speech tagging(품사 태깅)-> Shallow parsing(품사적 다의어가 존재하는 경우 맥락을 고려)-> Named entity recognition(개체명인식, 고유명사나 여러 단어가 한가지 뜻을 이루는 경우)-> Syntactic parsing-> Semantic role Labeling(문장 내 역할 부여, 요즘은 자주 사용하지 않는다고 함)-> Semantic/Pragmatic analysis

2. 언어란? 언어를 안다는 건 무엇인가?
1. 소리 체계(sound system)을 안다는 것
-> 언어의 어떤 소리가 음소(뜻을 구분해주는 최소의 소리단위)이고 어떤 소리가 언어가 될 수 없는지를 아는 것.
예) 한국어에는 달/딸/탈이 모두 다른 소리이지만 영어는 위 소리가 음소가 아니기 때문에 세 소리를 구분하기 어렵다
2. 단어(word)를 안다는 것
-> 어떤 소리들의 연쇄가 특정한 의미를 나타낸다(signify)는 것을 안다
-> 소리(speech sound)와 그 의미는 자의적, 임의적(arbitrary)이다
-> 표지판과 같이 단어 역시 관습적으로 그렇게 부를 뿐이다
-> 시니피앙(형태)과 시니피에(의미)는 자의적이다
-> 의성어, 의태어 등도 같은 소리이지만 언어마다 나타내는 소리가 다르다.
3. 문장과 비문장(정문과 비문)을 안다는 것
-> 유한한 언어규칙으로 무한한 개수의 문장을 만들 수 있다
-> 우리는 언어규칙을 통해 이전에 전혀 들어보지 못한 문장을 만들 수 있다
-> 언어 규칙에 대한 지식은 정문과 비문을 구분할 수 있게 해준다
4. 문법의 종류
1) 기술문법(Descriptive grammar)
모든 문법은 동등하다는 입장
2) 규범문법(Prescriptive grammar)
더 적합한 문법이 있다는 주장. 요즘에는 잘 사용하지 않는 문법사상
예) 서울말이 짱이라고 생각하기. 서울말은 다른 지역과 마찬가지로 서울 지역에서 사용되는 사투리에 불과하다.
3) 보편문법(Universal grammar)
-> 촘스키가 주장한 인간 내적의 문법체계. 인간은 모든 언어를 배울 수 있는 능력을 타고 태어나지만 시간이 지남에 따라 모어(모국어)를 배우고 사용하는 능력 외에는 퇴화된다고 주장.
'데이터청년캠퍼스 > 이론언어학' 카테고리의 다른 글
이론언어학 3. 통사론 (0) | 2021.07.17 |
---|---|
이론언어학 2. 형태론(Morphology) (0) | 2021.07.06 |