allthingsdisaggregated's picture

2 83 4

allthingsdisaggregated

lastweek

·

AI & ML interests

None yet

Recent Activity

upvoted a collection 23 days ago

liked a model about 2 months ago

lmsys/Qwen3-235B-A22B-EAGLE3

upvoted a paper 3 months ago

Qwen3-Omni Technical Report

View all activity

Organizations

None yet

upvoted a collection 23 days ago

Olmo 3

Artifacts for the Olmo 3 release. • 9 items • Updated 9 days ago • 156

liked a model about 2 months ago

lmsys/Qwen3-235B-A22B-EAGLE3

1B • Updated Jul 28, 2025 • 1.19k • 5

upvoted a paper 3 months ago

Qwen3-Omni Technical Report

Paper • 2509.17765 • Published Sep 22, 2025 • 142

upvoted a paper 5 months ago

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Paper • 2508.02193 • Published Aug 4, 2025 • 133

upvoted 11 papers 7 months ago

Inference-Time Hyper-Scaling with KV Cache Compression

Paper • 2506.05345 • Published Jun 5, 2025 • 27

Cosmos World Foundation Model Platform for Physical AI

Paper • 2501.03575 • Published Jan 7, 2025 • 81

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Paper • 2502.11089 • Published Feb 16, 2025 • 166

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19, 2025 • 211

Transformers without Normalization

Paper • 2503.10622 • Published Mar 13, 2025 • 170

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published Jan 22, 2025 • 126

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 431

Token-Efficient Long Video Understanding for Multimodal LLMs

Paper • 2503.04130 • Published Mar 6, 2025 • 96

Kimi-VL Technical Report

Paper • 2504.07491 • Published Apr 10, 2025 • 133

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Paper • 2505.04921 • Published May 8, 2025 • 185

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 320

upvoted a paper 11 months ago

DeepFlow: Serverless Large Language Model Serving at Scale

Paper • 2501.14417 • Published Jan 24, 2025 • 3

commented a paper 11 months ago

DeepFlow: Serverless Large Language Model Serving at Scale

Paper • 2501.14417 • Published Jan 24, 2025 • 3 •

upvoted 3 papers about 1 year ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

GPT-4o System Card

Paper • 2410.21276 • Published Oct 25, 2024 • 87

Baichuan-Omni Technical Report

Paper • 2410.08565 • Published Oct 11, 2024 • 87