16-Bit to 1-Bit: Visual KV Cache Quantization for Efficient Multimodal LLMs

		16-Bit to 1-Bit: Visual KV Cache Quantization for Efficient Multimodal LLMs (arxiv.org)
		87 points by PaulHoule 5 days ago \| hide \| past \| favorite \| 1 comment

kadushka 4 days ago [–]

Have they published their code?