전체 글
-
NLLB-200 distilled 350M 두근두근 개발일지[+] 인공지능 [+] 2024. 4. 26. 16:08
배경졸업 전 캡스톤 디자인 프로젝트에서 생성형AI를 사용한 서비스를 만들고자 하였다. 교수님도 생성형AI가 들어갔으면 하셨고, 무엇보다도 내가 원했다! 최종적으로 생각한 그림은 크롬 익스텐션으로 영문 이미지를 캡쳐하는 즉시 이미지가 한국어로 번역된 이미지로 보여지는 그런 형태의 제품을 고안했다. 초기엔 LLM을 QLora를 통해 학습하는 방식을 택했으나, 요즘 나오는 LLM들이 1B은 훌쩍 넘어가는데, 인퍼런스 타임이 최대한 빠릿빠릿해야 사용함에 불편함이 없을 것이다. 그리고 GPU서버를 쓰는데에 비용이 적잖이 들어간다. AI서비스가 GPU서버 없이 운영된다는건 좀 모순이긴 하지만... 뭐 어쩌겠는가... 돈없는 대학생인데... ㅠㅠ 😭😭😭 결국 LLM 포기 추가적인 리서치를 통해 Meta에서 공개..
-
[논문 리뷰] ELMo : Deep contextualized word representations[+] 인공지능 [+] 2021. 5. 11. 14:34
소개 높은 퀄리티의 representation을 만들어 내는것은 어려운 일이다. 언어의 문법적 의미론적인 특성을 고려해야하고, 다의어의 경우 문맥상 쓰임에 따라 상이기때문이다. 본 논문은 뉴럴 네트워크를 이용하여 문맥을 반영한 임베딩 기법을 제안한다. 전체 문장을 입력으로 제공받아 각 토큰 단위의 임베딩 벡터를 출력한다. 두개의 양방향 순환신경망을 사용하여 해당 토큰의 이전 맥락과 이후 맥락을 동시에 고려한다. 본 모델은 현존하는 down stream task에 쉽게 적용가능하며, 6가지 언어이해 문제에서 SOTA를 갱신한다. 문맥을 반영한 임베딩 모델이다. 언어 모델을 활용한 입베딩 기법이다. 본론 문장단위의 텍스트를 입력으로 받는다. 해당 텍스트는 문맥이 고려되지않은 token Embedding이나 ..
-
좋은 개발자는 어떤 개발자일까?[+] 기타 [+] 2021. 3. 21. 19:45
최근 1만 시간의 재발견이라는 책을 읽었습니다. 책에서는 한 분야의 전문가가 되기위해 무엇을 하면 될지, 높은 경지에 이른 사람들은 어떤 일들을 하였는지 등을 소개하며 지침을 제공하고, 선천, 재능, 타고남 등 불가능이라 믿었던 영역들에 대해 감히 맞설 수 있는 용기를 불어넣어줍니다. 참 좋은책이라고 생각합니다. 구체적이고 디테일한 접근방법, 환경과 상황, 분야에 따라 훈련을 어떻게 진행하면 좋을 지에 대한 상세한 방법을 제공합니다. 하지만 동시에 염려스러운 것이, 책에서는 전문가가 되기위한 의식적인 연습을 소개합니다. 매일 같은 일을 반복하면서 전문가가 되기를 바랄 수는 없는 법입니다. 높은 집중력과 목표에 대한 열망이 있어야하고, 즉각적인 피드백과, 도달하고자하는 경지에 대한 형체가 분명해야 한다는 ..
-
Text Summarization : Models[+] 인공지능 [+] 2021. 3. 7. 23:14
Extractive Models SummaRuNNer - R Nallapati et al (2016) SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents 두개의 양방향 RNN 사용 매 타입스탭 마다 단어를 입력으로 받아 vector를 생성후 평균 풀링을 진행하여 한 문장을 하나의 벡터로 표현 문장 벡터들이 순차적으로 RNN을 거쳐 Classification 수행 일반적인 Classification과는 달리 다양한 파라미터를 추가해서 고유성, 차별성, 위치 정보 등을 고려함 NeuSum - Qingyu Zhou et al (2018) Neural Document Summari..
-
Text Summarization: Overview and Metric[+] 인공지능 [+] 2021. 2. 20. 19:36
Motivation 특정한 문제를 해결하기 위해서, 이에 대한 최신 정보 혹은 최근 연구를 필요로 합니다. 습득해야하는 정보량이 늘어남에 따라 핵심만 선별하고자 하고, 명료하며 정제된 형태로 접근하고자합니다. 최신 정보 뿐 아니라, 회의록 작성, 논평, 헤드라인, 보고서 등 다양한 분야에서 요약을 필요로 합니다. Definition Text summarization is the process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks). Advances in Automati..
-
위성 사진에서 태양광 패널을 탐지하자[+] 프로젝트 [+]/태양 전지의 전력량 예측! 2021. 2. 6. 19:05
0. 배경 혹시 여러분들은 파리협정에 대해 들어보신적 있으신가요? 지구온난화를 억제하고자 온실가스 배출을 규제하고, 식량생산에 위협을 가하지 않는 선에서 적은 온실배출 개발을 위한 협약입니다. 2021년 부터 모든 국가들은 온실가스 감축의 의무를 갖습니다. 세계인들의 환경보호와 지속가능한 성장에 대한 관심도는 무척이나 높아진 것 같습니다. MSCI나 FTSE와 같은 기구는 ESG(환경,사회,지배구조)에 기반한 지표를 신설하여 기업의 비재무적 성과를 평가합니다. ESG인덱스는 기업 경영에 중요합니다. 이 지표가 낮은 기업들은 ESG 지수에 편입되지 못하고, 높은 기업들은 편입되는 등, 세계적인 부의 흐름이 더이상 돈만을 쫒는 기업을 향하지 않는 듯합니다. 그런까닭에 국내에서도 그린 뉴딜을 필두로, 신재생 ..
-
BERT 구조와 Transformer Encoder 살펴보기[+] 인공지능 [+] 2021. 1. 23. 16:46
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT (Bidirectional Encoder Representations from Transformers) 자연어 처리를 공부하는 사람이라면 모르기 어려운 모델입니다. 혹자는 "우리는 BERT 의 시대에 살고있다"는 표현을 사용하기도 합니다. BERT 모델의 논문 부제로 Pre-train, Bidirectional, Language Understanding, 또 BERT의 풀네임 중에 Encoder, Transformers, Representations 라는 키워드가 사용되는데 이는 BERT의 성격을 잘 포함하고 있다고 생각합니다. 우선 BERT는 Lang..
-
CNN 개요와 흐름[+] 인공지능 [+] 2020. 12. 13. 19:59
INDEX 0. CNN의 탄생 배경 1. CNN의 개요 1-1. 합성곱 층 (Convolution Layer) 1-2. 풀링 층 (Pooling Layer) 2. CNN의 흐름 LeNet-5 - 얀 르쿤(1998) AlexNet - 알렉스 크리체프스키(2012) GoogLeNet - 크리스찬 세게디(2014) 0. CNN의 탄생 배경 CNN에 대한 아이디어는 일부 범위 안에 있는 시각 자극에만 반응한다는 데에서 착안하였습니다. 그도 그럴 것이, 타인이 저를 알아보는 것은 저의 명치를 보고 알아보는 것도 아니고, 제 어깨나 무릎도 아닌 헤어스타일과 이목구비를 보고 저를 인식할 것입니다. 이미지 인식 문제에서 완전 연결층(FC)을 이용하여 물체를 인식하는 작업은 유효하지만, 큰 이미지에 대해서는 문제가 됩니..