32비트 Unsigned Division 최적화 논문이 64비트 AI 칩 설계에 던지는 조용한 혁신
64비트 프로세서 위에서 32비트 Unsigned Division을 어떻게 처리하느냐는 질문은 얼핏 낡은 하드웨어 교과서의 한 페이지처럼 들린다. 그러나 이 [arxiv 논문]( Hacker News 상단에 오른 순간, 이 질문은 AI 추론 칩의 비용 구조와 컴파일러 최적화 전쟁의 한복판으로 뛰어든 셈이 됐다. --- "상수로 나누기"는 왜 지금도 연구 대상인가 나눗셈(Division)은 컴퓨터 연산 중에서도 유난히 느리다. 덧셈이나 곱셈에 비해 수십 배의 클럭 사이클을 소비하는 것으로 알려져 있으며, 이는 고성능 컴퓨팅 환경에서
