일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- bool
- Anaconda
- Tuple
- 숫자형
- for
- Set
- 문자열
- jupyter notebook
- 자연어처리 #언어학 #이론언어학 #형태론
- list
- Python
- IF
- 언어학 #이론언어학 #자연어처리 #개론
- 자연어처리 #언어학 #이론언어학 #통사론
- 미니프로젝트 #XYZ세대 #도서제목분석 #워드클라우드 #워드투벡 #대응분석 #word2vec
- while
- Today
- Total
미나랑 해보자
이론언어학 2. 형태론(Morphology) 본문
형태론(Morphology)
단어의 구성과 형태에 대한 이론들
1. 내용어(Content word)와 기능어(function word)
-내용어: 개념적인 의미(conceptual meaning)을 가지고 있는 단어(명사, 동사, 형용사 등)
*Open class words: 새로운 단어가 무한으로 생성 가능하다
-기능어: 문법적인 의미(grammatical meaning)만 가지고 있는 단어(관사, 전치사, 접속사 등)
*Closed class words: 새로운 기능어가 만들어지기 어렵다.
뇌에서 기능어와 내용어를 처리하는 부분이 다르다
2. 형태소란?
-형태론(morphology): 단어의 구조와 단어형성규칙에 대한 연구
-형태소(morpheme): 의미의 최소단위
예) books-> book+-s
간다-> 가-+-ㄴ다
*자립형태소(free morpheme)와 의존형태소(bound morpheme)
1) 자립형태소: 혼자 단어로 사용가능한 형태소
2) 의존형태소: 단독으로 사용할 수 없어 반드시 다른 형태소와 함께 사용해야하는 형태소(접사)
*접사의 종류*
-prefix(접두사)
-suffix(접미사)
-infix
-circumfix
덧.
형태론과목 시험볼 때 아는 접사의 종류를 다 써내는게 주관식 문제였던 기억이 난다. 6개 정도 예시랑 썼던 것 같다. 세상엔 아직 성문화되지못한 언어가 많고(지역어의 경우 특히 그렇다), 다들 활용되는 양상이 다양하다. 실제 형태론을 하시는 분들은 성문화되지못한 언어들을 성문화하는 작업을 하시기도 한다.
3. 어근(root)과 어간(stem)
1) 어근(root): 단어의 가장 중심이 되는 형태소.
예) ‘un-love-able’ 에서 love.
2) stem(어간): 활용어(용언 생각하면 될 듯)가 활용할 때 변하지 않는 부분.
에) ‘unloveable’의 ‘loveable’, ‘보다’의 ‘보-’, ‘점잖은’의 ‘점잖-’
3) bound root: 어근이긴 어근인데 혼자 사용할 수 없는 어근.
예) ‘먹다’의 ‘먹-’
어근과 어간은 유사하지만 다르다. 예를 들어, ‘샛노랗다’의 어근은 ‘노랗-’, 어간은 ‘샛노랗-’으로 어근은 의미로, 어간은 활용을 기준으로 보면 된다. 자연어처리에서는 용어를 혼용해서 쓰는 경우도 있다고 한다.
4. 단어형성규칙
1) 파생형태소(Derivational morpheme)
어근의 뜻이나 품사를 바꾸는 형태소를 의미한다.
예) -ly(명사+ly=형용사, 형용사+ly=부사): lovely, manly
2) 굴절형태소(Inflectional morpheme)
문법적 기능을 바꾸는 형태소를 의미한다. 품사를 바꾸지 않음. 접미사의 형태로 존재하며 만약 파생형태소와 굴절형태소가 한 단어에 함께 사용된다면 언제나 파생형태소 뒤에 붙는다(언어의 계층적인 구성 때문에 그렇다)
많은 범위에 활용이 가능하다(productive)는 장점이 있다. (-ed의 경우 거의 모든 동사에 붙일 수 있다.)
예: -ed, -s, -ing / 한국어로는 -었다, -었고
5. Hierarchical structure of words
형태소는 단어의 구조를 나타낼 수 있는 고정된 순서로 합성된다.
예) unsystematic=un+system+atic
Un-이 형용사에 붙기 때문에 명사인 system을 형용사로 바꿔줄 수 있는 -atic이 먼저 결합된다
단, 중의성은 언제나 존재한다.
중의성이 나타날 땐 어떻게 해야할까? 앞 뒤 문맥파악, 의미를 추론해야하는 상황이 오면 통계적으로 많이 사용되는 걸로 선택한다.
6. Rule productivity
생산성의 정도로만 놓고보면 확실히 굴절접사가 생산성이 높긴하지만 파생접사 중에서도 많은 단어에 활용되는 접사들도 많다.
예) un-, -er, -ity, -th etc
** 단어 형성 예시들
사실 정규형태로 만들어진 단어들보다 그렇지 않은 경우들이 많다.
불규칙 동사들도 많고,
타언어에서 빌려온 단어들도 많다.
접사없이 굴절되는 단어들도 있고.
다른 단어인데 같은 형태로 굴절되는 단어들도 있다
7. Other morphological process
정규 규칙 외에도 새로운 단어가 만들어지는 양상이 다양하다. 친구들을 부를 때도 이름을 줄여부르거나 한 글자만 부르거나 하지 않나. 귀찮아서 그렇기도 하고 실제 말하는 수고를 덜어 경제적이기 때문에 그렇기도 하다. 새로운 단어를 만들어내는 것은 사실 별게 아니며 비슷한 이유로 만들어진다.
1) 역형성(Back-formation)
단어 형성의 규칙을 잘못 적용한 경우.
에) editor라는 단어가 원래 있었고 전혀 파생된 단어가 아님에도 사람들이 player, actor등을 보고 editor가 edit에서 왔겠거니 하면서 말하다 진짜 사전에 등재된 단어가 되었다. Television->televise의 경우도 마찬가지. 이런 경우가 꽤 많다고 한다.
2) 두문자어(Acronym)
여러 단어들의 첫 글자를 따서 만드는 단어들. 두문자어라는 것을 티내기 위해 영어에서는 대문자로 쓴다. 한국에도 많다.
예) HUFS(Hankuk University of Foreign Studies)
3) 약어(Abbrevation/Clipping)
긴 단어의 형태를 줄여만든 단어이다. 예시를 보면 조금 더 와닿을 것 같다.
Gym(<-gymnasium)
Bike(<-bicycle)
Math(mathmatics)
방탄(<-방탄소년단)
4) Eponym
해석이 조금 어려운데 사전에는 이름의 시조라고 나온다. 사람의 이름을 딴 단어라고 생각하면 된다.
예) denim(de Nemes라는 사람이 만들었다고 한다), 김영란 법(김영란 씨가 만들었다)
5) Blend
두 단어를 섞어 만든 새로운 단어. 단어의 부분이 일부 변형된다.
예) smog(smoke+fog), 먹방(먹다+방송), bromance(brother+romance)
여담으로 학과에서 수업들을 때 왜 사람들이 먹는거, 눕는거 방송을 보는지 모르겠다고 말씀하셨다가 내가 귀엽게 누워있어서 그렇다고 혼자말 한 게 하필이면 소리가 너무 커서 교수님께 들렸었다(앞자리에 앉아있기도 했다). 다른 학우님들이 빵 터지셨고 교수님은 아~ 귀엽게 누워있느냐 하시며 같이 웃어주셨는데 꽤 쪽팔렸던 기억이 있다.
6) Compound
단어 여러 개(두개 이상)을 결합해 새로운 단어를 만드는 방법. 철자적으로 각 단어들이 온전하다.
2개 이상의 어근의 결합으로 이루어진 단어. 합성어는 각 단어의 뜻을 단순히 합한게 아닐 수도 있다.
에) white house는 단순히 하얀 집을 의미하기도, 백악관을 의미하기도 한다.
낮밤(낮+밤)의 경우에도 하루종일 이라는 의미로 쓰인다.
-> 언어처리에서 앞뒤맥락을 파악해 해당 단어가 어떤 용도로 쓰이는지를 알 수 있어야한다.
8. 자연어처리에서 단어처리의 문제점
자연어처리에서 단어처리는 주로 띄어쓰기를 기준으로 하는데, 이때 문제가 생기는 경우가 있다.
1) 숙어문제
발이 넓다, piece of cake, a hot potato 등 단어의 결합 이상의 의미로 쓰이는 숙어들은 각 단어들이 모여 하나의 의미로 사용되기 때문에 통으로 사전에 들어가있어야한다.
2) 개체명 인식(named entity recognition, NER)
단체, 장소, 시간표현, 의학 코드 등은 다단어(여러단어)로 되어있는게 대부분이다. 이에 대한 처리가 어려울 때가 많다.
예) 한국 외국어 대학교(붙여써야하는가? 띄어써야하는가? 어떻게 처리해야하나?)
한사랑 산악회(단체들도 다단어로 되어있는 것이 대부분이라 처리가 어렵다)
'데이터청년캠퍼스 > 이론언어학' 카테고리의 다른 글
이론언어학 3. 통사론 (0) | 2021.07.17 |
---|---|
이론언어학 1. 개론 (0) | 2021.07.06 |