Update config.gin

8f5064c verified 8 months ago

9.23 kB

	# Macros:
	# ==============================================================================
	batch_size = 384
	new_freq = 24000

	# Parameters for AllMPNetBaseV2:
	# ==============================================================================
	AllMPNetBaseV2.model_id = 'sentence-transformers/all-mpnet-base-v2'

	# Parameters for AudioDataModule:
	# ==============================================================================
	AudioDataModule.num_workers = 0

	# Parameters for AudioDataset:
	# ==============================================================================
	AudioDataset.half_precision = True
	AudioDataset.mono = True
	AudioDataset.new_freq = 24000
	AudioDataset.num_frames = 480000
	AudioDataset.orig_freq = 16000

	# Parameters for build_dev_datamodule:
	# ==============================================================================
	build_dev_datamodule.datamodule = @discotube_text_audio

	# Parameters for build_module:
	# ==============================================================================
	build_module.ckpt_path = \
	'/home/jovyan/shared/palonso/data/logs/mtg-text-audio/dt86c2jx/checkpoints/epoch=287-step=148032.ckpt'
	build_module.module = @modules.maskingmodel.MaskingModel
	build_module.net = @nets.conformer.Conformer
	build_module.representation = \
	[@nets.melspectrogram.MelSpectrogram,
	@nets.waveform.Waveform,
	@nets.cqt.CQT,
	@nets.encodec.EnCodec]

	# Parameters for CLAP:
	# ==============================================================================
	CLAP.aggregation_type = 'mean'
	CLAP.audio_encoder = @OMARRQ
	CLAP.loss_type = 'info_nce_multimodal'
	CLAP.lr = 0.0001
	CLAP.n_pool_att_heads = 8
	CLAP.proj_size = 512
	CLAP.seed = 0
	CLAP.temp = 0.1
	CLAP.text_encoder = @AllMPNetBaseV2
	CLAP.tokenizers_parallelism = False
	CLAP.train_audio_encoder = True
	CLAP.train_text_encoder = False
	CLAP.weight_decay = 0.01

	# Parameters for ConcatTextAudioDataModule:
	# ==============================================================================
	ConcatTextAudioDataModule.batch_size = %batch_size
	ConcatTextAudioDataModule.datamodules = \
	[@DiscotubeTextAudioCleanDataModule,
	@MSDTextAudioDataModule,
	@FreesoundTextAudioDataModule,
	@PSETextAudioDataModule]
	ConcatTextAudioDataModule.num_workers = 30
	ConcatTextAudioDataModule.ratios = [0.55, 0.3, 0.11, 0.04]

	# Parameters for Conformer:
	# ==============================================================================
	Conformer.alpha_deepnorm = 2.21
	Conformer.beta_deepnorm = 0.0026
	Conformer.conv_kernel_size = 5
	Conformer.depth = 12
	Conformer.dropout = 0.2
	Conformer.embed_dim = 512
	Conformer.input_dropout = 0.0
	Conformer.mlp_ratio = 4.0
	Conformer.mlp_residual_factor = 4.0
	Conformer.num_heads = 8
	Conformer.num_patches = None
	Conformer.use_deepnorm = True
	Conformer.use_rope = True

	# Parameters for CosineAnnealingCallback:
	# ==============================================================================
	CosineAnnealingCallback.eta_min = 1e-07
	CosineAnnealingCallback.warmup_steps = 15000

	# Parameters for CQT:
	# ==============================================================================
	CQT.bins_per_octave = 24
	CQT.f_min = 32.703
	CQT.hop_len = 320
	CQT.logC = True
	CQT.magnitude = True
	CQT.n_bins = 188
	CQT.norm_mean = 4.754879065310596
	CQT.norm_std = 1.9055732535255916
	CQT.patch_size = (188, 4)
	CQT.power = 2
	CQT.sr = %new_freq

	# Parameters for def_module:
	# ==============================================================================
	def_module.module = @clap

	# Parameters for DiscotubeTextAudioCleanDataModule:
	# ==============================================================================
	DiscotubeTextAudioCleanDataModule.batch_size = %batch_size
	DiscotubeTextAudioCleanDataModule.data_dir = '/'
	DiscotubeTextAudioCleanDataModule.filelist_train = \
	'/home/jovyan/shared/palonso/data/discotube/metadata/mmap_ids_train'
	DiscotubeTextAudioCleanDataModule.filelist_val = \
	'/home/jovyan/shared/palonso/data/discotube/metadata/mmap_ids_val'
	DiscotubeTextAudioCleanDataModule.max_sentences = 3
	DiscotubeTextAudioCleanDataModule.num_workers = 30
	DiscotubeTextAudioCleanDataModule.text_file = \
	'/home/jovyan/shared/palonso/data/discotube/metadata/Qwen_Qwen2.5-32B__chatgpt_v2__t0.5__1.1.jsonl'

	# Parameters for DiscotubeTextAudioCleanDataset:
	# ==============================================================================
	DiscotubeTextAudioCleanDataset.num_frames = 160000

	# Parameters for EnCodec:
	# ==============================================================================
	EnCodec.norm_type = 'global'
	EnCodec.orig_sr = %new_freq
	EnCodec.patch_size = (128, 4)
	EnCodec.stats_path = None
	EnCodec.weights_path = '/gpfs/scratch/upf97/model_weights/encodec_24khz/'

	# Parameters for FreesoundTextAudioDataModule:
	# ==============================================================================
	FreesoundTextAudioDataModule.batch_size = %batch_size
	FreesoundTextAudioDataModule.data_dir = \
	'/home/jovyan/shared/palonso/data/freesound/mmaps/'
	FreesoundTextAudioDataModule.description_prob = 0.2
	FreesoundTextAudioDataModule.filelist_train = \
	'/home/jovyan/shared/palonso/data/freesound/filelist_full_train_mmap.txt'
	FreesoundTextAudioDataModule.filelist_val = \
	'/home/jovyan/shared/palonso/data/freesound/filelist_full_val_mmap.txt'
	FreesoundTextAudioDataModule.num_workers = 30
	FreesoundTextAudioDataModule.text_file = \
	'/home/jovyan/shared/palonso/data/freesound/freesound_metadata.jsonl'

	# Parameters for FreesoundTextAudioDataset:
	# ==============================================================================
	FreesoundTextAudioDataset.num_frames = 160000

	# Parameters for MaskingModel:
	# ==============================================================================
	MaskingModel.codebook_dim = 16
	MaskingModel.codebook_size = 8196
	MaskingModel.diff_input = False
	MaskingModel.input_representation = @nets.waveform.Waveform
	MaskingModel.lr = 0.0001
	MaskingModel.mask_prob = 0.6
	MaskingModel.mask_seconds = 0.4
	MaskingModel.num_codebooks = 1
	MaskingModel.plot_tokens = False
	MaskingModel.seed = 0
	MaskingModel.weight_decay = 0.01

	# Parameters for MelSpectrogram:
	# ==============================================================================
	MelSpectrogram.freq_mask_param = 0
	MelSpectrogram.hop_len = 320
	MelSpectrogram.mel_scale = 'slaney'
	MelSpectrogram.n_mel = 96
	MelSpectrogram.norm = 'slaney'
	MelSpectrogram.norm_mean = 2.06755686098554
	MelSpectrogram.norm_std = 1.268292820667291
	MelSpectrogram.patch_size = (96, 4)
	MelSpectrogram.power = 2
	MelSpectrogram.sr = %new_freq
	MelSpectrogram.stretch_factor = 1
	MelSpectrogram.time_mask_param = 0
	MelSpectrogram.win_len = 512

	# Parameters for MSDTextAudioDataModule:
	# ==============================================================================
	MSDTextAudioDataModule.batch_size = %batch_size
	MSDTextAudioDataModule.data_dir = '/home/jovyan/shared/palonso/data/msd/mmaps/'
	MSDTextAudioDataModule.description_prob = 0.5
	MSDTextAudioDataModule.filelist_train = \
	'/home/jovyan/shared/palonso/data/msd/filelist_train_mmap.txt'
	MSDTextAudioDataModule.filelist_val = \
	'/home/jovyan/shared/palonso/data/msd/filelist_val_mmap.txt'
	MSDTextAudioDataModule.num_workers = 30

	# Parameters for MSDTextAudioDataset:
	# ==============================================================================
	MSDTextAudioDataset.num_frames = 160000

	# Parameters for OMARRQ:
	# ==============================================================================
	OMARRQ.model_id = 'mtg-upf/clap_omarrq_mp_small_music'

	# Parameters for PSETextAudioDataModule:
	# ==============================================================================
	PSETextAudioDataModule.batch_size = %batch_size
	PSETextAudioDataModule.data_dir = \
	'/home/jovyan/shared/palonso/data/pse/mmaps/pse_data_december_2024/data/'
	PSETextAudioDataModule.filelist_train = \
	'/home/jovyan/shared/palonso/data/pse/filelist_train.txt'
	PSETextAudioDataModule.filelist_val = \
	'/home/jovyan/shared/palonso/data/pse/filelist_val.txt'
	PSETextAudioDataModule.num_workers = 30

	# Parameters for PSETextAudioDataset:
	# ==============================================================================
	PSETextAudioDataset.num_frames = 160000

	# Parameters for train:
	# ==============================================================================
	train.ckpt_save_every_n_epochs = 8
	train.datamodule = @concat_text_audio
	train.hf_ckpt = 'mtg-upf/clap_omarrq_mp_small_music'
	train.params = \
	{'accelerator': 'gpu',
	'check_val_every_n_epoch': 8,
	'devices': 8,
	'log_every_n_steps': 50,
	'max_steps': 150000,
	'num_nodes': 1,
	'num_sanity_val_steps': -1,
	'precision': 'bf16-mixed',
	'strategy': 'ddp_find_unused_parameters_true'}
	train.wandb_params = \
	{'entity': 'mtg-upf',
	'group': 'vanilla_clap',
	'name': 'config_clap_mpnet_base_v2_ssl_mp_10s_small_clap_dt_msd_fs_pse_lr_5e-6',
	'offline': False,
	'project': 'mtg-text-audio',
	'save_dir': '/home/jovyan/shared/palonso/data/logs'}

	# Parameters for Waveform:
	# ==============================================================================
	Waveform.norm_mean = None
	Waveform.norm_std = None
	Waveform.patch_size = (1, 1280)
	Waveform.sr = %new_freq