본문 바로가기

전체 글33

[RLHF] DPO (Direct Preference Optimization) 기법 1️⃣ DPO⭐ DPO(Direct Preference Optimization) 란 : RLHF의 한계를 해결하기 위해 등장한 방법으로, 리워드 모델 없이 데이터를 직접 최적화하는 기법이다. : RLHF보다 더 간단하고 효율적으로 모델을 미세 조정할 수 있다. 💁🏻‍♀️ PPO와 DPO 차이 : RLHF는 보상 모델 학습 후 PPO(강화학습)로 최적화 : DPO는 보상 모델을 생략하고, 직접 선호 데이터를 활용해 모델을 업데이트 2️⃣ RLHF와 DPO 비교구분RLHFDPO학습 방식보상 모델을 학습한 후 강화 학습(PPO) 적용선호 데이터만을 사용해 직접 최적화보상 모델 필요 여부필요 (human feedback -> reward model)불필요 (선호 데이.. 2025. 5. 2.
파인튜닝 (Fine-tuning) ⭐ 파인 튜닝 (Fine-tuning) - 이미 학습된 대규모 언어 모델(LLM)을 특정 작업이나 데이터셋에 맞춰 재학습시키는 과정 - 모델이 특정 도메인 또는 작업에서 최적의 성능을 발휘하도록 조정하는 기술 - 특정 데이터에서 더 높은 정확도와 일관성을 제공할 수 있지만 데이터 준비와 학습 비용이 많이 듦 - 학습 과정: 파라미터를 업데이터하는 것 01. 파인 튜닝의 주요 기법`PEFT (Parameter-Efficient Fine-Tuning)`대표적인 기법: LoRA (Low-Rank Adaptation)특징거대한 모델 전체를 학습하지 않고, 적은 파라미터만 조정모델 크기에 비해 연산 비용을 절감할 수 있음`RLHF (Reinforcement Learning w.. 2025. 5. 2.
[플레이데이터 SK네트웍스 Family AI 캠프 11기] 5주차 회고 5주차 회고 시작하겠습니다! ✅ What I Learn250304 (화)✨ 데이터 분석      - numpy: 병합(append, vstack, hstack, concatenate), 분할(split), 형태변경(reshape)       - pandas:  250305 (수)✨ 데이터 분석      - 데이터 전처리         - 파생변수, 요약변수, 기준점, 결측값(평균 대치법, 단순확률대치법, 다중대치법), 이상값, 데이터 정규화      - pandas: df merge, aggregation      - matplotlib: 데이터 시각화 - plt.plot() 250306 (목)✨ machine learning      - 지도학습 분류: scikit-learn, scatter, knei.. 2025. 3. 10.
[Git] GitHub Pull Request가 안 되는 원인과 해결 (feat. There isn't anything to compare) 문제 상황git push까지 마치고 create pull request를 하기 위해 github를 확인했는데 there isn't anything to compare이라고 화면에 뜨며 pr을 올릴 수 없는 경우  문제 원인base branch와 commit history가 다르기 때문에 발생!git clone을 통한 remote 연결이 아닌 git remote add를 통해 연결한 경우에서 git pull을 받아오지 않았을 때 발생git remote -v를 통해 원격 저장소를 확인하면 코드를 올리고자하는 레포에 연결이 되어 있긴 함 문제 해결rebase를 사용하자!git rebase: base를 다시 설정한다는 의미로 rebase를 사용하면 base가 재설정되어 commit history가 합쳐지게 됨 .. 2025. 3. 6.
[알고리즘 개념 정리] 자료구조 (자료구조 개념, array, list, linked list, stack, queue) 📋 목차    1. 자료구조란       - 자료구조란       - 자료구조의 분류    2. 선형 자료구조       - 정적 자료구조: 배열       - 동적 자료구조: 리스트, linked list, stack, queue    3. 비선형 자료구조       - 트리       - 그래프    4. 예시 문제       - 백준 10828번 스택       - 백준 10845번 큐 1️⃣ 자료구조란1) 자료구조(Data Structure)데이터를 효율적으로 사용할 수 있도록 데이터를 표현 및 관리하기 위한 구조 💡 자료구조, 왜 공부해야 할까요?      : 사용할 수 있는 컴퓨팅 리소스가 제한되어 있기 때문!    컴퓨터를 구성하는 핵심 요소는 4가지로 CPU(중앙처리장치), 메모리(주기.. 2025. 3. 4.
[BOJ] 백준 4948 베르트랑 공준 Python 문제4948 베르트랑 공준베르트랑 공준: 임의의 자연수 n에 대해 n보다 크고, 2n보다 작거나 같은 소수는 적어도 하나 존재한다는 명제입력여러 개의 자연수 n출력n 제한1   1️⃣ 코드 (오답)import math# 소수면 true인 배열 만들기arr = [True for _ in range(0,123456 * 2 + 1)]arr[0] = arr[1] = Falsefor i in range(2, 123456*2+1): if i%2==0: arr[i] = False if i==2: arr[i] = True for j in range(3, int(math.sqrt(i))+1): if i%j==0: arr[i] = False#.. 2025. 3. 3.