Morten und Angelo sind da. Wir gucken uns Sora an.
Scaling transformers for video generation
Sora is a diffusion model21,22,23,24,25; given input noisy patches (and conditioning information like text prompts), it’s trained to predict the original “clean” patches. Importantly, Sora is a diffusion transformer.26 Transformers have demonstrated remarkable scaling properties across a variety of domains, including language modeling,13,14 computer vision,15,16,17,18 and image generation.27,28,29
https://openai.com/research/video-generation-models-as-world-simulators
Angelo möchte wissen, wie ein Transformer funktioniert.
Morten ist an Audio-AI interessiert.
Wir reden auch über Bewusstsein und Blade-Runner. Und über Steven Wolfram und noch einiges dazwischen.
Nächste Mal fällt aus.