krillinai/KrillinAI
요약
KrillinAI는 비디오 번역, 양화(dubbing), 음성 클로닝 기능을 통합한 다목적 오디오 및 비디오 로컬라이제이션 솔루션입니다. 이 도구는 복잡한 환경 설정 없이 원본 자료를 몇 번의 클릭만으로 크로스 플랫폼에 최적화된 콘텐츠로 변환할 수 있도록 돕습니다. Whisper 기반의 고정밀 음성 인식부터 LLM을 활용한 전문적인 번역, 그리고 다양한 로컬/클라우드 모델 지원까지 엔드투엔드 워크플로우를 제공하여 사용 편의성과 결과물의 품질을 극대화합니다.
핵심 포인트
- **올인원(All-in-One) 콘텐츠 제작:** 비디오 번역, 양화, 음성 클로닝 등 복잡한 과정을 하나의 도구에서 처리할 수 있습니다.
- **크로스 플랫폼 최적화:** YouTube, TikTok, Bilibili 등 주요 플랫폼의 가로/세로 포맷에 맞춰 자동 레이아웃을 조정합니다.
- **고정밀 및 유연한 기술 스택:** Whisper 기반 ASR, LLM 번역(OpenAI API 준수), CosyVoice 음성 클로닝 등 최신 AI 기술을 통합했습니다.
- **사용자 친화적인 접근성:** 복잡한 환경 구성 없이 데스크톱 버전으로 즉시 사용 가능하며, 서버 배포를 위한 웹 UI도 제공합니다.
- **다양한 모델 및 언어 지원:** 로컬/클라우드 기반의 다양한 ASR 엔진(FasterWhisper 등)과 101개 이상의 번역 언어를 지원합니다.
KrillinAI 는 Krillin AI 가 개발한 다목적 오디오 및 비디오 로컬라이제이션과 향상 솔루션입니다. 이 미니멀리즘적이면서도 강력한 도구는 비디오 번역, 양화 (dubbing), 음성 클로닝을 통합하며, 가로 및 세로 포맷 모두를 지원하여 주요 플랫폼 (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok 등) 에서 완벽한 프레젠테이션을 보장합니다. 엔드 투 엔드 워크플로우를 통해 몇 번의 클릭으로 원료 자료를 아름답고 사용 준비된 크로스 플랫폼 콘텐츠로 변환할 수 있습니다.
🎯 One-click Start: 복잡한 환경 구성이 필요 없으며, 자동 의존성 설치로 즉시 사용 가능하고, 더 쉬운 접근을 위한 새로운 데스크톱 버전 제공!
📥 Video Acquisition: yt-dlp 다운로드 또는 로컬 파일 업로드 지원
📜 Accurate Recognition: Whisper 기반의 고정밀 음성 인식
🧠 Intelligent Segmentation: LLM 을 사용한 서브타이틀 분할 및 정렬
🔄 Terminology Replacement: 전문 용어의 한 번 클릭 교체
🌍 Professional Translation: 자연스러운 의미 유지에 대한 컨텍스트를 가진 LLM 번역
🎙️ Voice Cloning: CosyVoice 의 선택된 음성 톤 또는 커스텀 음성 클로닝 제공
🎬 Video Composition: 가로 및 세로 비디오와 서브타이틀 레이아웃 자동 처리
💻 Cross-Platform: Windows, Linux, macOS 지원하며 데스크톱 및 서버 버전 모두 제공
아래 이미지는 46 분의 로컬 비디오를 가져온 후 한 번 클릭으로 실행하여 생성된 서브타이틀 파일의 효과를 보여줍니다. 수동 조정 없이 오missions 또는 overlaps 이 없으며, 분할은 자연스럽고 번역 품질은 매우 높습니다.
subtitle_translation.mp4 |
tts.mp4 |
agi.mp4 |
아래 표에 있는 모든 로컬 모델은 실행 파일 + 모델 파일의 자동 설치를 지원하며; 선택만 하면 Klic 가 모든 것을 준비해 드립니다.
| Service Source | Supported Platforms | Model Options | Local/Cloud | Remarks |
|---|---|---|---|---|
| OpenAI Whisper | ||||
| All Platforms | - | Cloud | Fast speed and good effect | |
| FasterWhisper | ||||
| Windows/Linux | tiny /medium /large-v2 (recommended medium+) | |||
| Local | Faster speed, no cloud service cost | |||
| WhisperKit | ||||
| macOS (M-series only) | large-v2 | |||
| Local | Native optimization for Apple chips | |||
| WhisperCpp | ||||
| All Platforms | large-v2 | |||
| Local | Supports all platforms | |||
| Alibaba Cloud ASR | ||||
| All Platforms | - | Cloud | Avoids network issues in mainland China |
✅ OpenAI API specifications을 준수하는 모든 클라우드/로컬 대형 언어 모델 서비스와 호환되며,包括但不限于:
-
OpenAI
-
Gemini
-
DeepSeek
-
Tongyi Qianwen
-
로컬 배포 오픈소스 모델
-
OpenAI 형식과 호환되는 다른 API 서비스
-
Alibaba Cloud Voice Service
-
OpenAI TTS
지원 언어: 중국어, 영어, 일본어, 독일어, 터키어, 한국어, 러시아어, 말레이어 (연속적으로 증가 중)
번역 언어: 영어, 중국어, 러시아어, 스페인어, 프랑스어 및 기타 101 개 언어
KrillinAI 의 Deepwiki 에서 질문을 할 수 있습니다. 저장소의 파일을 인덱싱하므로 빠르게 답변을 찾을 수 있습니다.
먼저 Release 에서 장치 시스템에 맞는 실행 파일 다운로드를 하십시오. 다음으로 데스크톱 버전 또는 비 데스크톱 버전 선택을 위한 아래 튜토리얼을 따르십시오. 소프트웨어 다운로드를 빈 폴더에 배치하십시오. 실행 시 일부 디렉토리를 생성하며, 빈 폴더에 유지하면 관리가 더 쉬워집니다.
【데스크톱 버전의 경우 (즉, "desktop"이 포함된 릴리스 파일), 여기 참조】
데스크톱 버전은 새로운 사용자가 설정 파일을 올바르게 편집하는 데 어려움을 겪는 문제를 해결하기 위해 새로 출시되었으며, 일부 버그가 지속적으로 업데이트되고 있습니다.
- 파일을 더블 클릭하여 실행하세요 (데스크톱 버전도 소프트웨어 내의 설정이 필요합니다)
【데스크톱 버전이 아닌 경우 (즉, "desktop"가 포함되지 않은 릴리스 파일), 여기 참조】
데스크톱 버전이 아닌 것은 초기 버전으로, 설정이 더 복잡하지만 기능은 안정적이며 웹 포맷 UI 를 제공하여 서버 배포에 적합합니다.
config
폴더를 생성한 후,config폴더 안에config.toml파일을 생성하세요. 소스 코드의config디렉토리의config-example.toml파일의 내용을 복사하고 주석을 따라 설정 정보를 입력하세요.- 터미널에서 실행 파일을 더블 클릭하거나 실행하여 서비스를 시작하세요
- 브라우저로 열기 및 다음 URL 을 입력하여 사용하세요:
http://127.0.0.1:8888
(8888 을 설정 파일에 지정된 포트 번호로 교체하세요)
【데스크톱 버전의 경우 (즉, "desktop"이 포함된 릴리스 파일), 여기 참조】 서명 문제 때문에 현재 데스크톱 버전은 더블 클릭하여 실행하거나 dmg 를 통해 설치할 수 없습니다. 애플리케이션을 수동으로 신뢰해야 합니다. 방법은 다음과 같습니다:
- 실행 파일이 있는 디렉토리 (파일 이름이 KrillinAI_1.0.0_desktop_macOS_arm64 라고 가정) 에서 터미널을 엽니다.
- 다음 명령어를 순서대로 실행하세요:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64
./KrillinAI_1.0.0_desktop_macOS_arm64
【데스크톱 버전이 아닌 경우 (즉, "desktop"가 포함되지 않은 릴리스 파일), 여기 참조】 이 소프트웨어는 서명이 없으므로 macOS 에서 실행할 때 "기본 단계"에서 파일 설정을 완료한 후에도 애플리케이션을 수동으로 신뢰해야 합니다. 방법은 다음과 같습니다:
- 실행 파일이 있는 디렉토리 (파일 이름이 KrillinAI_1.0.0_macOS_arm64 라고 가정) 에서 터미널을 엽니다.
- 다음 명령어를 순서대로 실행하세요:
sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64 sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64 ./KrillinAI_1.0.0_macOS_arm64
이것은 서비스를 시작합니다.
이 프로젝트는 Docker 배포를 지원하므로 Docker 배포 지침을 참조하세요.
제공된 설정 파일에 따라 업데이트된 "설정 도움말 (필독)" 섹션입니다:
설정 파일은 [app], [server], [llm], [transcribe], 및 [tts] 등 여러 섹션으로 나뉩니다. 작업은 음성 인식 (transcribe) + 대형 모델 번역 (llm) + 선택적 음성 서비스 (tts) 로 구성됩니다. 이를 이해하면 설정 파일을 더 잘 파악할 수 있습니다.
가장 쉽고 빠른 설정:
자막 번역만 위한 경우:
[transcribe]섹션에서provider.name을openai로 설정하세요.- 이후에는
[llm]블록에 OpenAI API 키를 입력하여 자막 번역을 실행할 수 있습니다.app.proxy,model, 및openai.base_url은 필요에 따라 입력하세요.
균형 잡힌 비용, 속도, 품질 (로컬 음성 인식 사용):
-
[transcribe]섹션에서provider.name을fasterwhisper로 설정하세요. -
transcribe.fasterwhisper.model을large-v2로 설정하세요. -
[llm] 블록에 대형 언어 모델 (LLM) 설정을 입력하세요.
필요한 로컬 모델은 자동으로 다운로드 및 설치됩니다.
텍스트 음성 변환 (TTS) 설정 (선택 사항):
- TTS 설정은 선택 사항입니다.
- 먼저
[tts]섹션 아래에provider.name을 설정하세요 (예:aliyun또는openai). - 그런 다음, 선택한 제공자에 대한 해당하는 설정 블록을 입력하세요. 예를 들어,
aliyun을 선택하면[tts.aliyun]섹션을 입력해야 합니다. - 사용자 인터페이스의 음성 코드는 선택한 제공자의 문서에 따라 선택해야 합니다.
참고: 음성 복제 기능을 사용하려면 TTS 제공자로aliyun을 선택해야 합니다.
알리바 클라우드 설정:
- 알리바 클라우드 서비스에 필요한
AccessKey,Bucket, 및AppKey를 얻는 방법에 대한 자세한 내용은 알리바 클라우드 설정 지침을 참조하세요. AccessKey 등의 반복되는 필드는 명확한 설정 구조를 유지하기 위해 설계되었습니다.
자주 묻는 질문 (FAQ) 을 방문하세요.
- .vscode, .idea 와 같은 쓸모없는 파일을 제출하지 마세요; 이를 필터링하려면 .gitignore 를 사용하세요.
- config.toml 을 제출하지 마세요; 대신 config-example.toml 을 제출하세요.
질문에는 QQ 그룹에 가입하세요: 754069680
매일 AI 기술 분야에서 품질 있는 콘텐츠를 공유하는 우리 소셜 미디어 계정 (Bilibili) 을 팔로우하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Go (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기