한국금융지주는 어떤회사?


한국금융지주는 자회사 등(자회사, 손자회사 및 손자회사의 계열사)에 대한 사업목표를 부여, 사업계획의 승인, 자회사의 임원들의 성과를 어느정도 보상할것인지에 대한 평가, 재산상태에 대한 경영관리를 주로 하고있다. 즉, 자회사들을 운영하는 커멘드 센터의 역할을 하고있다. 또한, 한국금융지주는 자회사가 자본을 필요로 할 때, 출자하여 자금지원을 하는 역할도 부수적으로 하고 있다. 한마디로 요약하면, 자회사들의 경영관리, 자금조달을 주로 하고 있는 모회사이다.

 

 

사업의 내용을 크게 구분하자면, 크게 6가지로 모두다 금융자산 또는 비금융자산에 관한 사업들이다. 지주회사가 직접적으로하는 사업은 실제로는 1개이지만, 계열사가 많다보니까, 6가지로 구분될수 있다. 즉, 직접하는 사업은 1가지이며, 간접적으로 지분을 이용한 영업활동은 5가지로, 총 6가지에 해당된다. 아래의 구분은 한국금융지주의 사업부 구분이지만 수익구분과는 달라 수익구분으로 회사를 이해하는 것이 조금 더 편할 수 있다(후술).

 

참조: 한국투자증권 경영공시자료 발췌

 

 

 

한국금융지주는 어떤 회사들의 지주회사인가?


위에서 언급한 것과 같이 한국금융지주는 각 6개의 사업부에 따라 포함되는 여러 자회사 및 손자회사들이 있다. 여기서 주요하게 보아야하는 것은 자회사의 순익의 순서대로 어떤 회사들이 있는지 열거해보자. 대부분 지분율 100%~80%이기 때문에 자회사로, 손자회사로 분류되고 국제회계기준에 따라 순이익이나 지배순이익이나 큰 차이가 안난다

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

 

1. 한국투자증권: 우리가 아는 "한투"하면 생각나는 "한투"의 본체에 해당한다해도 과언이 아니다. 이 회사가 대부분의 돈을 벌어다 준다. 위에서 열거한 사업부 중, 대부분의 사업부를 영휘하는 회사이며, 주로 자산관리(Asset management), IB(Investment banking), 자기자본투자 (Principal investment), 위탁매매(브로커리지, BK) 등으로 구분된다. 자산관리는 증권사에서 주로 WM(Wealth management)라는 것으로 얘기하는 서비스인데, 고객의 자산을 효율적으로 설계하고 관리할 수 있도록 관리해주는 업무를 의미하며, 이 과정에서 수수료 등을 수취한다. IB는 단순히 대출업무 뿐만아니라, 회사채 인수/기업 M&A/부동산 등에 자금을 투자하는 영업행위를 의미한다. IB내에 자산관리를 포함하기도하는데, 쉽게 말하면 산업과 기업에 장기 자금을 공급하는 역할이다. 자기자본투자(Principal investment, PI)은 금융기관이 자기의 돈으로 직접 주식, 채권 부동산, M&A등으로 투자하는 것을 의미한다. 2021년 당기순이익기준으로 9,622억원으로 꽤 큰 돈을 벌고 있다.

여의도에 있는 한국투자증권.

 

 

2. 한국투자밸류자산운용: 한국투자증권의 자회사이며, 투자신탁회사가 회사의 본체이다. 주로 펀드를 판매 운용하고있다. 투자일임자사는 3.2조원으로 엄청난 부분인데, 이부분에서도 수수료를 생각하면 예탁액이 클수록 돈을 버는 구조이다. 주식형, 혼합형, 연금펀드 등 펀드를 운용하면서얻는 수익 모델이다.

한국투자밸류자산운용 홈페이지

 

 

사업부별 수익 구조/변동성, 수익과 연관된 요인들은?


순영업수익 구성을 평균적으로 분기별로 비율이 큰 순서대로 열거하면 아래와 같다. 한 사업부가 여러 종류의 수익을 낼 수 있기 때문에, 수익구성으로 보는 것이 편하다. 수익구성은 크게 4덩이이다. IB, 운용, 자산관리, BK 및 BK이자. 주로 IB > 운용부문 > BK 및 BK이자 > 자산관리 순으로 크다고 보아도 큰 무리가 없다.

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

 

 

1. IB(Investment Banking): M&A 및 금융자문 수수료. 채무보증, 인수관련 수수료, IB관련이자 등으로 구성된다. 총 1,600~2,000억정도. M&A관련 자문수수료로 1200억정도, 채무보증 및 매입약정 수수료로 300억. IB관련 이자로 240억, 인수 및 주선수수료로 200억, 기타수수료로 150억정도를 얻는다. 이것도 증시가 활황일경우, IPO에서 얻는 수수료나 유증등의 공모로부터 얻는 수루료가 늘 수 있긴 하다. 

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

2. 운용부문: ELS, DLS 발행/운용에 따른 수익 및 발행어음 운용수익. 운용부문 수익은 100~2,200억 왔다갔다 할 정도로 변동성이 크다. 배당금수익이 20%정도, ELS/DLS운용에서 얻는 수수료가 80%정도 되는 듯하다. ELS/DLS은 파생결합 금융상권으로, 기초자산을 주가지수, 원유, 농수산물등으로 하는 연계상품이다. 증권사는 ELS/DLS을 상품을 팔면 파는대로 수수료를 얻고, 해지하면 해지할때도 운용수익을 먹는다. 판매수수료는 0.1~2%정도로 하니, 운용자산이 크면 클수록 돈이되는 사업이다. 또한, 이 ELS, DLS을 운용하면서 고객의 예상 수익율보다 초과로 설계하면, 초과로 운용보수를 먹는 구조도 가능하다. 발행어음도 운용부분에 포함되는데, 고객으로부터 예탁 된 돈을 가지고, 여러 투자자산에 투자하여 이익이 되면, 고객에게 원금과 약정된 수익을 준다. 예금과는 다른건 1) 하루만 맡겨도 약정수익을 받고, 2) 원금 손실이 가능하다. 이 것도 발행어음총액이 크면 클수록 운용보수를 얻어갈 수 있다.

 

발행어음의 수익구조

 

운용부문은 E/DLS 발행실적은 요동치긴하지만 잔고기준으로는 ELS은 꾸준히 발행총잔액이 증가하고 있고, 발행어음또한 잔고가 점차 증가해서 운용부문 수익이 점점 커질 것으로 기대할 수 있다.

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

 

 

3. 브로커리지(BK) 및 브로커리지(BK) 이자: 브로커리지는 주식거래에 따른 수수료를 의미한다. 고객이 증권사로부터 주문을 넣고, 거래가 체결되면 얻는 중간수수료를 의미한다. 브로커리지 이자는 "이자"라는 개념이 있기다. 브로커리지 과정에서 얻는 이자수익이다. 가령, 신용대출등을 의미한다. 브로커리지는 일단 거래가 많으면 많을수록 유리하다. 증권사가 고객중에 거래(매매회전율)이 많은 사람들을 챙기는데에는 다 이유가 있다. 또한, 시장에 참여하는 사람이 많으면 비례하여 증가할 수 있는 수익이기에 거래대금이 많을 수록 좋다. 한국투자증권이 국내주식 브로커리리지의 M/S는 비교적 높아지긴했지만, 일평균 거래대금은 증시가 안좋아지면서 빠지고있어 일부 감소할 수 밖에 없다. 반대로 증시가 좋아지면 증시에 참여한는 사람이 많기에 대금도 많아지고 BK 수익이 좋아진다. 또한, 예탁금으로 BK 이자로 얻는 대출이 많아질수록 수익이 좋아진다.

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

 

4) 자산관리 부문: 개인고객의 금융상품 운용하며서 얻는 수수료와,  금융상품을 판매하면서 얻는 판매수수료. 브로커리지는 개개인이 직접투자하면서 증권사에서 체결시에 얻어가는 수익이라면, 자산관리부문은 애초에 "너가 운용 해주세요"이기 때문에 수수료가 더 많은 것이 일반적이다. 그리고, 고객의 금융 상품의 잔고가 크면클수록, 대부분 비율(%)으로 수수료를 챙기기에 큰 이익이 된다. 개인고객의 금융상품 잔고는 시간이 갈수록 점차 오르고있다. 한편, 금융상품은 ELS, 신탁, 자산관리, 수익증권을 판매하면서 얻는 수익이다. 개인의 자산을 운용하기도하지만, 당사가 만들어낸 금융상품을 고객에게 팔면, "판매수수료", "운용수수료" 둘다 챙길 수 있다. 

참조: 한국투자증권 2022.1Q 잠정공시용 실적분석보고서 발췌

 

반응형

 

재무상태표는 자금을 어떤 방식(부채/자기자본/이익의 누적)으로 조달했는지를 알려준다. 부채는 타인으로부터 돈을 빌려오는 것을 의미하고, 자기자본은 주주들의 출자금등을 의미하고, 잉익의 누적은 영업을 하고남은 이익잉여금을 의미한다. 재무상태표를 볼 때, 혼동하지 말아야할 개념을 몇 가지를 소개한다.

 


1. 이익잉여금은 현금이 아니다.

 

CASE study(고려아연): 아래는 고려아연의 2019년부터 2021년의 3기의 연결 요약재무정보이다. "연결"은 종속회사의 재무정보를 포함한다는 의미이고, "요약"은 말그대로 모든사항을 보여줄 수 없으니, 요약(summary)하여 큼직큼직한 요소들에 대해서만 보여준다는 것이다. 고려아연의 48기의 자산총계는 9조9천억이며, 이를 구성하는데는 부채종계는 2조2천억원이며, 자본은 7조 7천억원이라는 것이다. 좀 더 자세하게는 자본 7조 7천억원을 구성하는데 있어서, 7조 5천억원이 이익잉여금이다. 즉, 회사가 커가면서 대부분 자본을 이익잉여금을 키워나가면서 자본을 구성했다는 것이다. 여기서 헷갈리지 말아야할 것은 "이익잉여금은 이익이 나고 남은 잉여의 현금"의 의미가 아니다. 구체적으로는 이 말은 반은 맞고 반은 틀리다. 잉여금이라는 것은 남은돈인데 왜 회사에 남은 돈이 아니라는 것인가? 이유는 이익잉여금은 현금외에 다른 자산의 형태로 바꿔놓을 수 있기 때문이다. 즉, 재무상태표에서의 "이익잉여금은 사업을 하고 남은 금액의 누계이지, 반드시 현금형태로 있을 필요는 없고, 여러 형태로 바꿔놓은 자산들의 누계액"으로 보는것이 적절하다. 상식적으로 고려아연의 시가총액이 7~11조 정도인데, 제 48기의 이익잉여금이 7조5천억이 현금이 있는것이 말이되는가? (2019~2021). 여태 48년동안 벌어놓은 금액이 7조 5천억정도라는 것이다. 

 

고려아연의 2021,2020,2019년의 연결요약재무

 


2. 비지배지분이 높은 회사의 요약연결재무정보를 조심하여야한다.

 

2020년에 IFRS(국제회계기준)에 따라서 지배지분과 비지배지분을 나누어 재무재표를 작성해야한다. 지배지분이랑 비지비지분이 무엇인가? 비지배지분이 있으면, 지배지분도 있다. "지배"의 의미를 이해하면 쉽게 이해할 수 있다. "지배"는 주인이 있다는 말이다. 주식회사의 특성은 주주가 불특정다수로 여럿이 있을 수 있다는 것인데, "지배"는 말그대로 지배를 당하는 회사가 충분히 지배를 당할만한 요소(지분율)이 있기 때문이다. 보통은 지분율이 50%이상이면 자회사(=종속회사), 30%이상이면 관계기업으로 분류한다. 항상 이 잣대로 구분짓는 것은 아니고, 실질적인 지배력을 보여주면 자회사로 종속회사로 보기도한다. 이 종속회사들은 회계기준하에 재무정보를 모기업과 합쳐서 계산한다. 여기서 문제가 발생한다. 모회사가 일부만 자회사를 지배하는데 전체를 합산하는것에 문제가 발생한다. 전체를 지배하는 것이 아니기 때문에 실질적인 지분율에 따른 "지배지분"만을 고려한것이 "지배기업의 소유지분"이다. 

 

 아래와 같이 "엄마는외계인"이라는 회사가 "아들도외계인"이라는 회사의 지분율 50%라고하자. 그리고 그외 기타주주들이 50%라고하자. 그러면 "엄마는외계인"이라는 회사가 모회사, "아들도외계인"이라는 회사는 자회사(종속기업)으로된다. 종속기업이기 때문에, 요약연결재무표에 "아들도외계인"의 자산과 부채를 합쳐서 계산하고, 자본에 지배기업의 소유지분만큼의 자본을 고려하여 계산한다. 예를들어, 엄마는 외계인이라는 회사의 자본이 100억 (별도회계상), 아들도외계인이라는 회사의 지분은 50억이었으면, 엄마는외계인의 지배기업의 소유지분은 100억(엄마꺼) + 아들도외계인 50억 * 지분율 50%으로, 총 125억이 지배기업의 소유지분이다.

 

 아래는 이마트의 제 11기의 연결재무제표이다. 지배기업의 소유지분이 10조이다. 그리고 비지배주주지분은 2조1천억이다. 자회사라고 100%지분이 아니기 때문에, 이마트가 자회사로 편입한 회사중에 실제로 지분을 갖고있는 만큼(비지배주주지분)이 2조 1천억이라는 것이다. 

 

이마트의 제11기 연결 재무제표.

 

 이는 PBR계산에도 쓸 수 잇다. PBR의 계산에서도 쓸 수 있다. PBR은 시가총액/순자산 비율인데, 단순히 장부가를 자본총계를 이용하여 계산하면 지분율이 100%가 아님에도 지분율 100%인것처럼 오해할 수 있다. 따라서, 이러한 경우에도, 지배기업의 소유지분을 이용하여 PBR을 계산하면, 주주가 간접적으로 지배하고있는 회사의 1주당의 순자산을 포함하여 계산할 수 있다.

 

 

3. 가능한 운전자본이 적은 것이 긍정적

 

운전자본은 회사가 영업을 위해 필요한 돈(자본)을 의미한다. 운전자본은 재고자산+매출채권을 의미한다. 재고자산을 기업이 주문이 들어오면 바로 물건을 납품하기위해, 창고에 쌓아두는 판매품을 의미하고, 매출채권은 기업에게 판매하고나서 대금을 현금으로 받는것이 아닌, 나중에 줄 받을 것을 약속한 채권형식으로 받는 것을 의미한다. 당연히 매출채권은 지금 당장 돈을 받는것이 아니기 때문에, 매출채권이 없으면 좋겠지만, 기업이 사업을 영위하면서, 현금으로만 운영하는 회사는 없다. 따라서, 매출채권은 언제나 있을수밖에없는데, 지나친 매출채권의 증가는 판매하고난 금액을 못받을 위험이 있을 수도 있다. 그리고 매출채권은 당장의 현금이 들어오는 것이 아니기때문에, 현금으로 받아서 은행에 넣어둔다면 이자라도 발생했을텐데, 그러지 못하니, 이자율만큼 손해를 보는 것으로 바라볼 수 있다.

 

 유사하게, 순운전자본은 운전자본(=재고자산+매출채권)에서 매입채무를 제외한것을 의미한다. 생산을 위해서는 원재료가 필요한데, 기업에서 원재료를 매출채권의 형식으로 구매를 할 수 있다. 이를 매입채무라고한다. 즉, 장래에 회사가 줘야할 돈을 일단 현금말고, 채권을 발행해서 타기업에게 준것이다. 운전자본이든, 순운전자본은 기업규모, 업종이 같다면 작을수록 좋은데, 이는 같은 규모면 남길 돈없이 자본을 매우 효율적으로 이용하여 영업에 쓴다는 것을 의미할 수 있다.  

 

 운전자본 또는 순운전자본은 1) 지나치게 급증하고 있지 않은지, 2) 매출액대비 비율이 어느정도인지(지나치게 많이 빌려주고 있다면, 매출채권을 나중에 돈으로 받지 못하면 디폴트가 날 수 있다), 3) 경장사 대비 어느정도인지(경쟁사의 경우 따박따박 돈으로 받는데, 현금아닌 채권을 받는다면 회사가 엄청난 을의 위치에 있을 수 있는 것이다)를 유심히 보면 운전자본의 형태를 볼 수 있다. 

 

 CASE Study: 재고자산에서의 분식회계이슈 (셀트리온, 셀트리온헬스케어): 셀트리온이 바이오시밀러를 개발하면, 그 의약품의 판매권은 셀트리온헬스케어가 가지고, 일단 바이오시밀러 의약품을 선구매하고 판매하는 영업방식이다. 문제는 일단 판매를 위한 각국의 FDA의 허가를 받기전에, 미리 약을 사두고 재고로 선구매를 하는데, 재고자산의 가치하락을 축소했다는 것에 문제가 되었다. 한 바이알(=병)의 약을 A라는 금액에 사두다보면, 유통기한이 지날 수도 있고, 이렇게 유통기한이 지나면 판매하지못하고 폐기해야할 위험이 있는데도, 이를 재고평가 손실을 늦게 반영했다는 것이다. 추가적인 문제는 셀트리온 헬스케어의 재고자산이 이렇게 급속도로 커지면, 이를 매출로 잡는 셀트리온의 매출이 급증했다는 것도 의미한다. 셀트리온 헬스케어 재고자산이 커지면 커질수록, 회사의 자본금이 커지는 것처럼 해석 될 수도있고, 셀트리온의 매출이 느는것처럼 보여 문제가 될 수 있다. 

반응형

각 함수의 matrix가 definte, semidefinite, indefinite에 따른 시각화

 

Summary


어떤 메트릭스 M이 Positive definite이라고하면, 흔히 PDM(Positive Definite Matrix)이라고 한다. 이러한 matrix은 아래의 조건을 만족하는 경우를 의미한다. 흔히 이 경우를 "M > 0"와 같이 수학적인 표기도 한다(행렬 A의 원소가 모두 0보다 크다는 의미가 아니다). PDM은 어떠한 함수를 메트릭스 M으로 표현했을때, 함수가 극소점을 갖는다는 것을 의미한다.

조건은 다음과 같다. 메트릭스 M이 1) 실수를 원소로하고, 2) 대칭형인 매트릭스(Symmetric matrix)이며, 3) 실수로 이뤄진 벡터 z에 대해서도 $z^{T}Mz$연산을 하더라도 양수가 나오는 메트릭스를 의미함. 

 

 

Reference:

http://mlwiki.org/index.php/Positive-Definite_Matrices

반응형
  • cv2.anything() --> use (width, height)
  • image.anything() --> use (height, width)
  • numpy.anything() --> use (height, width)
반응형

 

요약


본 연구는 단어를 숫자로 표현하는 과정에 해당하는 continous word representations(=word embedding, =denser representation)중에서 언어의 모양새(형태학적인) 구조를 최대한 살려서 벡터화하는 것에 초점을 두고 있다. 기존의 word2vec, glove처럼 단어를 훈련데이터에서만 찾을 수 있는 구조(dictionary: vocabulary을 포함한 구조)에서 찾을 수 없는 경우는 적용이 어렵기 때문이다(=이를 OOV, out of vocabulary라고 함). 따라서, unseend word(rare words)에 대해서 강건한 모델을 만들기 위해서, n-grams을 이용해서, 각 단어를 <n-gram1, n-gram2..., 원형단어>의 세트로 처리하여, 단어를 표현하고 Skip-gram을 이용해서 훈련한 모델을 제시한다.

 

방법론


방법론을 이해하려면, word2vec의 skip-gram을 이해가 요구된다. 가장 중요한건 Skip-gram은 주어진 단어 하나로, 주변단어를 예측하는 문제이기 때문에, 아래의 같은 목적함수를 가진다. $w_{t}$은 t번 째의 주어진 단어이며, $w_{c}$은 t번째 단어의 주변단어이다. 즉, 한 단어가 주어졌을 때, 주변단어를 얼마나 잘 맞추는지에 관한 목적함수이다. 이 목적함수를 최대화하면된다. 그리고나서, 각 단어를 잘맞추는지(잘 분류해서 선택했는지) Softmax함수로 평가하면된다.

 

추가로, 기술적으로 할만한 것으로는 절대 주변에 없을 것 같은 단어들을 추가로 전달하여 손실함수로 사용해볼 수 있다. 이에 관한식이 아래와 같다. log()의 안에있는 식을 L()로 표현하면 아래의 식으로 변환할 수 있다.

 

Fasttext의 핵심을 subword model이다. 주어진 단어가 w가 있다고 했을떄, 각 단어를 w의 bag of n-gram으로 표현하는 것이다. 예를 들어, where이라는 단어가 주어졌을 때, <whe, her, ere>로 표현할 수 있다. 추가로 Fasttext은 원래 단어까지를 넣어 하나의 bag-of-n-gram을 구성한다. 즉, where -> <whe, her, ere, where>까지를 하나의 세트로 구성해서 표현한다.  이는 <her>의 단어와는 다르다. 왜냐하면 <her>은 하나의 세트가아니라 독립적인 단어이며 <whe, her, ere, where>안에 있는 "her"은 구별될 수 있기 떄문이다. 각각 bag-of-ngram에 표현될 수 있는 집합을 g라고 표현하고, 각n-gram으로 표현한게 G만큼의 사이즈를 가지면 아래와 같이 표현할 수 있다. $z_{g}$은 bag of n-gram에서 표현된 서브단어(subword)이고, v은 맞춰야할 단어를 의미한다. 따라서, subword와 원래단어를 동시에 임베딩하는 형식으로 OOV문제를 개선한 모델이라고 할 수 있다.

 

 

결과


1. word similarity: sg(skip-gram), cbow(continous bag of words), sisg-(subword information skipgram with OOV->null vector표기), sisg(subword로 처리한경우) AR, DE등은 아랍, 체코, 덴마크등의 언어인데, human judgement간의 유사도를 비교하였을때 가장 높은 성능을 보였다.

2. word analogy: analogical reasoning task로 word2vec에서 king-man=queen과 같은 논리적 추론을 의미한다. 과거에 각 언어별로 만들어 놓았던 analogical reaskong task로 실험해본 결과 sisg이 syntatic한 부분에서 우수한 성능을 보였다.

"y Mikolov et al. (2013a) for English, by Svoboda and Brychcin (2016) for Czech, by Köper et al. (2015) for German and by Berardi et al. (2015) for Italian."

 

3. morphological representation을 진행했던 사전연구와 human judgment와 모델의 스코어관의 상관관계를 봤을때, 스피어만 상관계수가 높을수록 사람의 판단과 유사한 성능을 내서 높은 성능이라는 해석할 수 있다. 

반응형

Doc2vec, Word2vec처럼 각각의 단어를 벡터로 표현하고자하는 시도가 꽤 있어왔다. 이런 벡터표현은 단순히 bag-of-words으로 표현하거나, one-of-k (흔히 one-hot vector)라고 부르는 방법으로 표현할 수 있다. 그러나 이러한 시도들은 여러 문제가 있었고, word2vec으로 더 밀도있는 표현방식(denser representation)을 사용했다. 한 단어를 doc2vec으로 임베딩하여 표현할 수 있었듯이, document 또는 paragraph을 벡터로 표현할 수 있는데 왜 supervised paragraph2vec가 필요한건가? 이에 대한 장점은 있는건가? 이에 대한 대답을 Supervised Paragraph Vector: Distributed representations of words, documents, and class에서 찾을 수 있다.

 

 

 

 

Supervised paragraph vector가 필요한 이유?


 

범용적인 임베딩모델(예, doc2vec, paragraph2vec 이하 PV)은 정말 단순한 알고리즘으로 hidden layer가 하나만 존재하여 매우 학습이 편하고, 쓰기도 편하지만, 임베딩에 다음과 같은 문제가 있다. word2vec의 CBOW(continous bag of words)을 생각하면, 단어벡터(word vector, 단어를 임베딩한 벡터)를 구문론적(syntactical)으로 학습하기도하고, 의미론적(semantic)적으로 학습하기도 한다. 예를 들어, "the cat sat on the mat"이라면, cat을 예측할땐, 주변단어인 the와 sat을 이용해서 예측한다. 따라서 유사한 단어가 동시에 많이 출현될수록, 같은 벡터로 표현될 확률이 높고, 주변단어의 쓰임이 비슷하게 나왔을 때도, 유사한 벡터로 임베되는 경향이 있다 (Figure 1. A). 하지만, 해결해야하는 문제가 감정분석(sentimental analysis)로, wonderful과 amazing이 같은 그룹으로, terrible, awful이 부정그룹으로 분리되서 해야한다면 어떨까? 동시출현 또는 유사한 단어가 많이 출현하는 것을 학습하여 임베딩하는 word2vec의 이런 학습방식은 특정테스크에 모두 걸맞게 쓰기가 쉽지가 않다. 이런 일반화된 분석방법으로는 이런 임베딩의 표현의 의사결정바운더리(decision boundary)을 긋기가 쉽지않다. 본 논문은 word2vec, paragraph2vec, doc2vec의 제한점을 해결하고자 시도했던 논문이다. 

word2vec의 출력에이어의 

 

 

 

SPV의 핵심 아키텍처


해결방법은 다음과 같다. word2vec의 아키텍처와 같이 하나의 입력레이어, 하나의 히든레이어, 하나의 출력레이어로 구성한다(Figure 4-A). 좌측에 아키텍처의 구성을보면, $x1,..., x_{\gamma}$까지는 한 문단에 들어가있는 단어가 one hot vector로 변환된 벡터를 의미한다. 각각 one-hot vector로 표시할 때, 총 단어의 개수가 V라면, V개 원소의 개수를 가지고, 원소중 하나만 1인 벡터가 된다. 차이점이라면, 다음과 같은 벡터들도 입력값에 전달된다. 바로 도큐먼트의 one-hot vector인 $p$와 클레스의 라벨인 $z$가 추가로 전달된다는 것이다. 아래의 그림에서는 $p$은 전체 문서(documents)의 수를 의미한다. $z$은 클레스라벨을 의미해서, $M$개의 클레스가 존재한다고 했을 때, 각각 하나하나를 one-of-K(one-hot)벡터로 인디케이팅한 것을 의미한다. 그리고 h에 해당하는 히든레이어의 출력을 $\delta$개의 원소를 가진 벡터라고하자.

 

 

위와 같이 셋팅한 경우, $W^{(1)}$은 임베딩을 위한 dense layer의 가중치 메트릭스로 $\mathbb{R}^{V\times\delta}$가 된다(V개의 one-hot vector을 $\delta$개로 압축하는 fully connected layer 이기 때문). $W^{(2)}$은 출력레이어의 가중치로 W1의 전치행렬과 크기가 같다(왜냐하면, 출력해야하는 단어도 V개의 벡터여야 하기 때문이다). 

 

위의 아키텍처에서 목적함수를 클레스라벨이랑 도큐먼트의 인덱스 단어에 최대한 학습할 수 있게 다음과 같이 정의하였다. 

 

1. SPV-DM(여러 단어가 주어진 경우, 한단어를 예측하는문제):  아래의 우변의 시그마 내 첫 항은 "CBOW와 같이 주변단어가 주어졌을 때, 예측하고자하는 단어를 예측하기위한 손실함수", 두 번째 항은 "문서내에 해당 예측하고자 하는 단어가 있을 확률", 세 번째 항은 "문서의 라벨이 주어졌을 때, 해당 단어가 있을 확률"을 모두 더한 값이다.

 

$L_{SPV-DM} = \frac{1}{T}\sum_{t=1}^{T}\sum_{j=1}^{\gamma}log(p(w_{t}|w_{t+j})+log(p(w_{t}|d))+log(p(w_{t}|c)))$

 

2. SPV-DBOW(한 단어가 주어진 경우, 여러단어를 예측하는 문제)

 

$L_{SPV-DBOW} = \frac{1}{T}\sum_{t=1}^{T}\sum_{j=1}^{\gamma}log(p(w_{t+j}|c))$

 

 

논문에는 등장하지 않는 limitations


1. 본 모델은 word2vec에 사용되는 모델과 구조가 유사해서, OOV(out of vocabulary)의 문제를 그대로 갖고있다. 따라서 unseen data에 대해서는 모델이 강건하지 않을 수 있다.

반응형

+ Recent posts