Research Papers – Page 615 – Own Your AI

Research Papers

Discovering Language Model Behaviors with Model-Written Evaluations

Research Papers

Evaluating feature steering: A case study in mitigating social biases

Research Papers

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

Research Papers

Toy Models of Superposition

Research Papers

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Research Papers

Measuring Faithfulness in Chain-of-Thought Reasoning

Research Papers

Open-sourcing circuit tracing tools

Research Papers

Tracing the thoughts of a large language model

Research Papers

Auditing language models for hidden objectives

Research Papers

Insights on Crosscoder Model Diffing

Previous 1 … 613 614 615 616 617 … 649 Next