Lo que tienes que hacer es añadir silencios o cortar los audios del primer y segundo video para que duren exactamente lo mismo que el video... Por ejemplo si tu primer video dura:
Video: 1:00
Audio: 0:59
Luego como los audios se juntan, el segundo video se oirá con el audio un segundo adelantado... En este caso lo que tendrías que hacer es añadir un silencio al final del primer audio para que dure 1:00 Eso con algún editor de audio lo haces de forma sencilla.
Espero que me hayas entendido