勾配降下党青年局

万国のグラーディエントよ、降下せよ!

2023-06-01から1ヶ月間の記事一覧

Adafactorについて

今回はなぞのおぷてぃまいざーであるAdafactorについて論文の内容を見ていきます。 arxiv.org 概要 AdafactorはAdamを元にした最適化アルゴリズムで、メモリ容量の削減とパラメータスケールに応じた学習率の調整を行う手法です。勾配の二乗指数平均をランク1…

DDSP-SVCについて

こんかいはー、DDSP-SVCがどんな感じか見てみたのでメモしておきます。RVCに対するメリットデメリットなども考察していきます。 実装は以下を参考にしました。 github.com 全体像 DDSP-SVCは拡散モデルベースの音声変換モデルです。HuBERT特徴量・基本周波数…

RVCについて

音声変換手法の一つであるRVC(Retrieval-based-Voice-Conversion)について、色々な情報と実装を流し見して何をやっているか想像してみました。想像なのであっているかどうかはわかりません。RVCの元になっているVITSの元になっているVAEから説明していきます…

LoRAのための特異値分解

特異値分解を解説する記事なんていくらでもありますが、LoRAに関連付けて話す記事なんてないと思うので、ここで書いてみます。まあ自分が特異値分解を理解するためでもあります。行列の右上カッコつき添え字に行数と列数を書きます。 参考記事: yutomiyatak…

noise_predictionモデルとv_predictionモデルの損失

Stable-Diffusionのv1系は画像に加わったノイズを予測するモデルですが、v2の一部はvelocityというものを予測しています。この2つは損失関数が違うのでlossで比べられません。経験的にv_predictionモデルの方が3倍くらいlossが大きくなるイメージですが、数…