일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 챗GPT
- 딥러닝
- Stable Diffusion
- 서적집필
- 머신러닝
- 생성AI
- 전이 학습
- 생성모델
- ChatGPT
- 새책출간
- 도메인 적응
- 인공지능
- 스테이블 디퓨젼
- U-Net
- ai
- GPT-3.5
- 구글유입
- 모델 학습
- gpt-4
- 오토GPT
- 그림AI
- 내손안에비서
- 신규서적
- Auto-GPT
- Domain Adaptation
- 거대언어모델
- AutoGPT
- 쟈비스
- Generative AI
- AI그림
- Today
- Total
목록딥러닝 (8)
코드 러너(Learner+ Runner)

ChatGPT가 최근 화두가 되어서 비교적 가려졌으나, 이미지 생성에 있어서도 또 하나의 기념비적인 사건이 일어났다. 바로 Stable Diffusion 모델이 등장해서 키워드 위주의 입력 프롬프트로 원하는 사진을 손쉽게 생성할 수 있게 된 것이다. 이런 Stable Diffusion이 파급력을 가진 이유는 높은 이미지 퀄리티와 상대적으로 적은 연산 리소스를 요구하는 하드웨어 사양 때문이다. 즉, 누구나 자신의 PC로 원하는 사진을 뽑을 수 있게 되었기 때문이다. 딥러닝 공부를 해본 사람들은 대부분 이미지 생성에 GAN(Generative Adversarial Network)을 사용한다는 것을 배웠을 것이다. 그래서 이런 Diffusion Model에 대해서는 생소할 수 있다. 그래서 이번 시간에는 이렇..

스테이블 디퓨전에 관한 'Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.' 논문을 보면 U-net 구조가 많이 나온다. 오늘은 이 U-Net에 대해서 먼저 짚고 넘어가고자 한다(그다음은 VAE 원리도 다뤄보고, 프롬프트가 어떻게 latent에 컨디셔닝 되는지도 다룰 예정이다. 조금 더 다루게 되면, 실제로 Stable Diffusion을 사용해서 이미지를 뽑는 내용도 책뿐만 아니라 여기에도 올릴까 한다). 저 구조를 조금 더 확대해보면 아래와..

Q) GPT-4? 그게 뭔가요? A) GPT-4는 OpenAI사에서 개발한 GPT 시리즈의 4번째 모델이다. Q) GPT-3.5랑 GPT-4의 주요한 차이점이 뭔가요? A) 멀티모달 모델(두 종류 이상의 소스를 사용하여 의미를 전달하는 모델, GPT-4는 이미지와 텍스트를 입력으로, 텍스트를 출력으로 낼 수 있는 모델이다)이라는 점과 더욱 고차원적인 추론이 가능하다는 점이 있다. 예시를 통해 쉽게 확인해 보자.. 아래는 GPT-4에 재밌는 사진을 입력으로 넣고, 어떤 점이 유머 포인트인지 질문한 결과이다. [사용자] 아래 사진에서 재밌는 점이 뭐야? 패널(아래 사진에서 작은 사진을 의미)별로 설명해 줘.. [GPT-4] 이 이미지는 세 개의 패널이 있는 "라이트닝 케이블" 어댑터 패키지를 보여줍니다. 패..

서로 다른 도메인을 갖는 데이터셋을 효과적으로 활용하는 방법들은 상당히 많은 연구가 되고 있다. 전이 학습이라고 불리는 기술은 방대한 데이터셋에서 학습한 모델을 가져와서 일부 레이어들을 대체 혹은 신규로 추가하고, 기존 부분은 얼려서(Frozen) 파라미터가 학습되지 않게 한 후, 추가된 부분을 추가로 학습시키는 방법으로 많이 사용되고 있다. 이 전이학습의 하위 분야 중 하나로 Domain Adaptation 분야가 있어서 이를 간단하게 정리해보고자 한다. 1. 도메인 적응이 중요한 이유? 우선 시간과 리소스가 절약된다. 모든 새로운 도메인에 대해 라벨링 된 데이터를 확보하는 데는 많은 시간과 비용이 소요될 수 있다. 그러나 도메인 적응을 사용하면 방대한 레이블이 지정된 데이터 세트 없이도 기존 모델을 ..

앞서 스테이블 디퓨전을 사용해서 세상에 존재하지 않지만, 실제 같은 사진들을 뽑았었다. 이 스테이블 디퓨전은 2022년 8월에 공개되었었는데, 이것이 특별한 이유는 깃허브에서 코드를 다운로드하여 개인 PC에서 사용할 수 있다는 점이다. 유사한 서비스인 미드저니와 DALL-E 시리즈는 모두 유료지만, 스테이블 디퓨전을 사용하면 퀄리티도 상당히 좋은 사진을 무료로 뽑을 수 있다는 점이 충격이다(물론 전기세는 들지만 말이다). 심지어는 최근 스테이블 디퓨전의 ControlNet 기능(기본 기능 중 하나는, 뼈대를 그리면 그대로 캐릭터가 생성된다..!)은 이미 미드저니와 DALL-E를 뛰어넘었다는 평가도 받는다. 그리고 이런 스테이블 디퓨전의 공개와 같은 일이 거대 언어 모델에서도 일어나기 시작했다..! 바로 ..

최근에는 코딩에 거대 언어모델을 많이 사용하면서 기본 코딩 블록 구현은 거대 언어 모델이 대체하게 될지도 모른다는 이야기가 많이 등장하고 있다. 실제로 코딩을 할 줄 모르는 분들도 ChatGPT를 활용하여 프로그램을 만드는 사례들이 우후죽순 등장한다. 실제로도 ChatGPT에서 한 줄의 명령만으로 손글씨를 인식할 수 있는 영상 인식 프로그램을 Pytorch라는 딥러닝 프레임워크를 사용하는 코드를 작성해 준다. 이뿐만 아니라 Github Copilot을 사용하면 Visual Studio 등과 같은 통합개발환경(프로그램을 만들기 위한 다양한 기능들을 많이 담고 있는 프로그램이라고 생각하면 쉽다) 내에서 코드를 작성하면서 많은 도움을 받을 수도 있다. 그런데 실제로 프로그램을 만들기 위해서는 단순히 코드를 작..

최근에는 딥러닝 생성 모델들을 사용해 세상에 존재하지 않는 새로운 사진을 만드는 것에 관심을 갖고 개인적으로도 관심이 많다. 이런 생성 모델들을 제공하는 서비스들은 상당히 많은데, 필자는 최근 Stable Diffusion으로 다양한 모델들을 다루고 있다. 최근에는 미드저니도 버전 5가 나오면서 퀄리티가 상당히 증가했다. OpenAI의 DALL·E 2도 상당히 재밌는 모델이다. 이런 생성 모델들을 사용하면 어떤 사진들을 만들 수 있을까? 아래 사진들은 필자가 로컬 PC에서 모델들을 튜닝하여 직접 뽑은 사진들이다. 상당히 배경이 현실적이다. 이런 배경 사진들 외에도 인물 사진도 가능하다. 상상력을 동원해서 아래와 같이 동물의 얼굴을 가진 사람의 사진들 만들어 볼 수도 있다. 재미있는 사진들이 탄생했다. 생..

최근 동시에 집필하는 책이 4권이 넘어가면서 바쁜 일상을 보내고 있다. https://product.kyobobook.co.kr/detail/S000201290928 개발자를 위한 챗GPT 활용법 | 오현석 - 교보문고 개발자를 위한 챗GPT 활용법 | 프로그래밍을 공부하는 과정에서 새로운 언어에 대한 공부는 필수이다. ChatGPT를 사용한다면 새로운 언어를 빠르고 쉽게 습득할 수 있을 것이다!이 책은 프로그래밍 product.kyobobook.co.kr '개발자의 진로'는 이미 가장 먼저 집필이 완료된 책이지만, ChatGPT의 급격한 인기로 '개발자를 위한 ChatGPT 활용법' 책을 먼저 집필하게 되었다. 일반인을 위한 책도 현재 작업이 거의 마무리 되어간다. 제작년부터 시작한 '현장에서 바로 써..