원천 기술 연구

핵심 기술

커널 레벨 엔지니어링과 시스템 최적화를 통해 추론 성능의 한계를 돌파합니다.

커널 엔지니어링

최신 GPU 및 SoC를 위한 저수준 커널 개발에 특화되어 있으며, 하드웨어 활용도를 극대화하는 데 집중합니다.

CUTLASS 기반 Tensor Core 프로그래밍

GEMM 및 Attention 커널 최적화

맞춤형 메모리 계층 구조 관리

프로파일링 기반 병목 제거

커널을 넘어, 프로덕션 신뢰성과 처리량을 위해 전체 추론 스택을 최적화합니다.

동적 배칭 및 스케줄링

메모리 효율적 KV 캐시 관리

분산 추론 오케스트레이션

양자화 인식 성능 튜닝

우리는 Python 프레임워크의 추상화 계층에서 발생하는 'Software Tax'를 제거합니다. C++와 CUTLASS를 이용해 텐서 코어를 직접 제어함으로써, 하드웨어 활용도를 이론적 한계치인 100%에 근접하게 끌어올리는 벤치마크를 지향합니다.

THROUGHPUT

tokens/sec, batch, decode

LATENCY

p50/p95/p99

UTILIZATION

tensor core, memory, sm

* 성능 수치는 워크로드/하드웨어/비교 기준에 따라 달라집니다. 벤치마크의 재현 조건과 측정 지표(예: p50/p99)를 함께 공개합니다.

* 상세 벤치마크 환경(인프라/하드웨어 구성)과 결과는 파트너십 논의 시 NDA 하에 공유합니다.