<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>chris-512.log</title>
        <link>https://velog.io/</link>
        <description>ChrisTechBlog</description>
        <lastBuildDate>Sun, 24 Sep 2023 10:19:09 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>chris-512.log</title>
            <url>https://velog.velcdn.com/images/chris-512/profile/58288664-265f-4b09-b671-450c92d6c242/image.jpg</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. chris-512.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/chris-512" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[[시장분석] Market Sizing]]></title>
            <link>https://velog.io/@chris-512/%EC%8B%9C%EC%9E%A5%EB%B6%84%EC%84%9D-Market-Sizing</link>
            <guid>https://velog.io/@chris-512/%EC%8B%9C%EC%9E%A5%EB%B6%84%EC%84%9D-Market-Sizing</guid>
            <pubDate>Sun, 24 Sep 2023 10:19:09 GMT</pubDate>
            <description><![CDATA[<h3 id="market-sizing">Market Sizing</h3>
<ul>
<li>시장의 크기를 정량화 하기 위한 방법론 (TAM-SAM-SOM framework, Guestimation 등)</li>
<li>기출 유형이 존재하듯 시장을 분석할때에도 유형을 분류해놓는 작업이 중요.</li>
<li>먹을 수 있는 시장의 크기엔 한계가 존재하기 때문에 Market Sizing이 중요하다.</li>
<li>Targetting할 Segmentation이 어떤 것인지에 따라 기업의 성장성을 바라볼 수 있음 (기업의 능력치도 중요하지만 시장성도 중요)</li>
</ul>
<h3 id="market-sizing의-중요성">Market Sizing의 중요성</h3>
<p>아래와 같은 의사결정을 위해</p>
<ul>
<li>(사업 관점) 시장 진입 여부</li>
<li>(투자 관점) 어느 정도 투자할지 </li>
</ul>
<h3 id="tam-sam-som-프레임워크">TAM-SAM-SOM 프레임워크</h3>
<blockquote>
</blockquote>
<p><strong>TAM (Total Addressable Market)</strong> - 전체시장</p>
<ul>
<li>Urgency Low / Importance Low</li>
</ul>
<blockquote>
<p><strong>SAM (Serviceable Addressable Market)</strong> - 유효시장</p>
</blockquote>
<ul>
<li>Urgency Low / Importance High 
or </li>
<li>Urgency High / Importance Low</li>
</ul>
<blockquote>
<p><strong>SOM (Serviceable Obtainable Market)</strong> - 수익시장/초기 거점시장</p>
</blockquote>
<ul>
<li>Needs High, Urgency High</li>
<li>ex. 배달앱</li>
</ul>
<p>스타트업이 목표로 하는 실질정인 시장기회를 나타내는 SOM 시장의 경우 다양한 접근법들이 있다.</p>
<ol>
<li>목표 고객을 정의한다</li>
<li>목표 고객의 전체 규모를 추산한다.</li>
<li>전체 목표 고객군 중 <strong>1~2년 내 당장 접근 가능한 수준의 점유율</strong>(혹은 침투율)을 산정한다.</li>
<li>잠재적인 시장규모를 산출한다.<ul>
<li><strong>Market Volume</strong>: 대개 잠재 구매자의 총합.<ul>
<li>전체 목표고객군 x 목표 점유율(또는 침투율)</li>
</ul>
</li>
<li><strong>Customer Value</strong>: 기업이 획득할 수 있는 경제적 가치로 보통 연간 단위 <ul>
<li>구매주기 또는 구매빈도 (통상 1년 기준), 평균 객단가 등을 활용하여 계산</li>
<li>연간 구매 빈도 x 평균 객단가</li>
</ul>
</li>
</ul>
</li>
<li><strong>논리적 타당성</strong>을 검증한다 (TAM, SAM 규모를 고려했을때 시장 규모의 적정성 및 실제 고객 구매행동 패턴이랑 큰 차이가 없는지 등 검증)</li>
</ol>
<p><strong>트레바리</strong> 
도서 모임(SOM)으로 시작했지만 &#39;사람들의 관심사&#39;(TOM) 영역까지 사업확장. (유명인사 초청, 체험독서 등 다양한 서비스 개발 중) 기존 오프라인에서만 진행하던 것을 온라인 영역까지 확장.</p>
<p>TAM: 관심사 커뮤니티
SAM: 어느 정도가 서비스화 되어 있는지, 트레바리 홈페이지에 들어가서 상품 목록 등을  추상화</p>
<p>SOM을 늘리려면?</p>
<ul>
<li>Market share을 늘리거나 (경쟁사보다 잘해야)</li>
<li>Value Chain / 신규 사업 발굴</li>
</ul>
<p>시장의 크기 정량화</p>
<ul>
<li>기업의 가치는 어느 시장에서 play 할 것인지도 상당히 중요</li>
<li>Seed 단계에서 실적이 없는 경우가 많다.</li>
<li>몇백억 시장은 작은 편... 시장에서 하는 기업들이 워낙 많기 때문.</li>
</ul>
<h3 id="market-sizing-top-down-approaches">Market Sizing: Top-down approaches</h3>
<ul>
<li>Starts with a large, general market and then narrows it down to a specific segment or niche. </li>
<li>Ex) If you want to size the market for electric vehicles in the US, you could start with the total number of vehicles sold in the US, then multiply it by the percentage of electric vehicles, and then adjust for other factors such as price, demand and competition. </li>
<li><strong>Advantage</strong>: It is relatively simple and quick, and it uses easily available data from secondary sources.</li>
<li><strong>Disadvantage</strong>: It can be too broad and inaccurate, as it may overlook important details and nuances of the market.</li>
<li>Suitable for businesses entering well-established markets with ample existing data. </li>
</ul>
<h3 id="market-sizing-bottom-up-approaches">Market Sizing: Bottom-up approaches</h3>
<ul>
<li>Starts with a small, specific market and then expands it to a larger, general market.</li>
<li>Ex) If you want to size the market for electric vehicles in the US, you could start with the number of customers who are willing and able to buy an electric vehicle, then multiply it by the average revenue per customer, and then adjust for other factors such as market share, growth rate, and competition.</li>
<li><strong>Advantage</strong>: It is more detailed and realistic, and it uses primary data from surveys, interviews, or experiments.</li>
<li><strong>Disadvantage</strong>: It can be too complex and time-consuming, and it may involve a lot of assumptions and uncertainties.</li>
<li>Ideal for startups, new product launches, or entering niche markets with limited existing data.</li>
</ul>
<p>Top Down &amp; Bottom Up approaches 둘 다 해서 Numbers 비교
=&gt; 외부 리소스(리포트)에서의 숫자도 비교</p>
<p>Prove할 길은 없으나</p>
<p>1) (소스 자체가) 공신력
2) 여러개 숫자를 산출하여 결국 이 range 안에서 나올 것이라고 예상하는 것</p>
<h3 id="guestimation">Guestimation</h3>
<ul>
<li>기업의 매출을 일으키는 유효한 Driver들을 찾아내는 것이 중요</li>
<li>넷플릭스, 야놀자, 배달앱 등의 온라인 서비스: 공급 capa 이슈가 없다.<ul>
<li>Demand approach: 수요에서 얼마나 가져올 수 있는지 알아보는 것</li>
<li>market size에서 몇 %를 먹을 수 있는지 파악</li>
</ul>
</li>
<li>트레바리의 경우 건물 내에서만 한다면? 공급 capa 이슈가 있음.<ul>
<li>Supply approach: 공급자 관점에서 파악해보는 것이 중요.</li>
<li>건물 내 총 50호 x 8시간 = 최대 400 시간에서 몇 %</li>
</ul>
</li>
</ul>
<h3 id="example-ferrari">Example) Ferrari</h3>
<h3 id="market-sizing-from-supply-approach">Market sizing from supply approach</h3>
<p>예를 들어, <strong>Ferrari</strong>의 경우 공급자 관점에서 살펴보면 아래의 요소들을 살펴보면 좋다.</p>
<p><strong>1) 생산 능력 및 생산 단위</strong>
페라리 연간 생산량 조사: 페라리가 연간 얼마나 많은 자동차를 생산하는지 알아보세요. 페라리는 브랜드 가치를 유지하기 위해 독점적이고 제한된 생산으로 알려져 있습니다.
모델 변형: 페라리가 생산하는 다양한 모델과 변형을 고려하세요. 이들은 다양한 시장 세그먼트를 대상으로 하고 있습니다.
가격 전략:</p>
<p><strong>2) 평균 판매 가격</strong>
페라리 자동차의 평균 판매 가격을 결정하세요. 페라리는 프리미엄 가격으로 알려진 고급 스포츠 카 시장에서 운영됩니다.
가격 범위: 다양한 모델과 변형의 가격 범위를 고려하여 가중 평균 판매 가격을 계산하세요.
유통 채널:</p>
<p><strong>3) 딜러십 및 매장</strong>
페라리 딜러십 및 전 세계 매장의 수와 위치를 파악하세요. 이를 통해 지리적 시장 세분화에 대한 통찰을 얻을 수 있습니다.
직접 및 간접 판매: 페라리를 통해 직접 판매되는 자동차와 딜러십을 통해 판매되는 자동차의 비율을 분석하세요.
지리적 시장 세분화:</p>
<p><strong>4) 주요 시장</strong>
페라리가 주요 시장인 북미, 유럽, 아시아 태평양 지역에서 어떤 위치를 차지하고 있는지 파악하세요.
시장 점유율: 이러한 지역에서 페라리의 고급 스포츠 카 세그먼트 내 시장 점유율을 조사하세요.
시장 규모 계산:</p>
<p><strong>5) 총 수익</strong>
생산된 단위 수에 평균 판매 가격을 곱하여 자동차 판매로부터의 총 수익을 추정하세요.
시장 규모: 총 수익은 페라리가 고급 스포츠 카 세그먼트 내에서 대상으로 하는 시장 규모를 나타냅니다.</p>
<p><strong>추가 고려 사항</strong></p>
<ul>
<li><strong>경쟁자 분석</strong>: 페라리의 위치와 시장 점유율을 이해하기 위해 고급 스포츠 카 세그먼트의 경쟁자를 분석하세요.
경제 요인: 고급 자동차 시장은 경제 변동에 민감하므로 경제 상황을 고려하세요.</li>
<li><strong>브랜드 상품 및 라이선싱</strong>: 페라리는 브랜드 상품, 라이선싱, 파트너십을 통해 수익을 창출하기도 하므로 이를 더 넓은 시장 규모의 일부로 고려할 수 있습니다.</li>
</ul>
<p><strong>예시 계산</strong></p>
<ul>
<li>Units produced: 10,000 cars anually</li>
<li>Average Selling Price: $250,000 per car</li>
<li>Market size: 10,000 cars * $250,000/car = $2.5 billion</li>
</ul>
<p>생산 능력, 가격 책정, 유통, 지리적 위치와 같은 공급 측면의 요인들을 분석함으로써, 우리는 페라리가 고급 스포츠 카 세그먼트 내에서 타겟팅하는 시장 규모를 추정할 수 있습니다. 이는 단순화된 예시이며, 더 정확한 추정은 상세한 연구와 데이터 분석이 필요합니다.</p>
<h3 id="market-sizing-from-demand-approach">Market sizing from demand approach</h3>
<p>예를 들어, <strong>Ferrari</strong>의 경우 수요자 관점에서 살펴보면 아래의 요소들을 살펴보면 좋다.</p>
<p>페라리가 타겟팅하는 시장 규모를 추정하기 위해 수요 측면의 다양한 요인들, 예를 들어 소비자 선호도, 인구 통계학, 구매력, 및 시장 트렌드를 분석하는 것이 수요 접근법에 포함됩니다. 다음은 시장 규모를 추정하기 위한 단계별 접근법입니다:</p>
<p><strong>1) 소비자 선호도 및 인구 통계학</strong></p>
<p>타겟 오디언스: 페라리의 타겟 오디언스를 파악하세요. 일반적으로 고급 스포츠 카에 관심이 있는 고소득자들입니다.
소비자 설문조사: 잠재적인 페라리 고객들의 선호도, 구매 행동, 및 브랜드 충성도를 이해하기 위해 설문조사나 연구를 실시하세요.</p>
<p><strong>2) 시장 트렌드 및 성장</strong></p>
<p>고급 차 시장 트렌드: 소비자 수요, 신흥 시장, 기술 발전을 포함한 고급 스포츠 카 시장의 트렌드를 분석하세요.
시장 성장: 미래의 수요를 예측하기 위해 고급 스포츠 카 세그먼트의 성장률을 평가하세요.</p>
<p><strong>3) 구매력 및 구매 가능성</strong></p>
<p>소득 수준: 타겟 인구의 소득 수준을 연구하여 페라리와 같은 프리미엄 제품을 구매할 의향과 구매력을 평가하세요.
경제 상황: 경제 상황을 고려하세요. 이는 고급품에 대한 소비자 지출에 영향을 미칠 수 있습니다.</p>
<p><strong>4) 경쟁자 분석 및 시장 점유율</strong></p>
<p>경쟁 브랜드: 경쟁하는 고급 스포츠 카 브랜드와 그들의 시장 포지셔닝을 파악하세요.
시장 점유율: 판매 데이터와 브랜드 인기도를 기반으로 페라리의 고급 스포츠 카 세그먼트 내 시장 점유율을 추정하세요.</p>
<p><strong>5) 시장 규모 계산</strong></p>
<p>잠재 고객 기반: 인구 통계학, 시장 트렌드, 구매력을 기반으로 잠재적인 페라리 고객 수를 추정하세요.
평균 판매 가격: 페라리 차의 평균 판매 가격을 결정하세요.
시장 규모: 잠재 고객 기반에 평균 판매 가격을 곱하여 페라리가 타겟팅하는 시장 규모를 추정하세요.</p>
<p><strong>6) 추가 고려 사항</strong></p>
<p>지리적 존재: 페라리가 다른 지리적 시장 및 지역에서의 존재를 고려하세요.
브랜드 가치 및 인식: 페라리의 브랜드 가치와 소비자 인식을 평가하세요. 이는 수요에 영향을 미칠 수 있습니다.</p>
<p><strong>예시 계산</strong>
잠재 고객 기반: 50,000명
평균 판매 가격: 차량 당 $250,000
시장 규모: 50,000명 * $250,000/차 = $12.5 억</p>
<p>페라리가 타겟팅하는 시장 규모를 추정하기 위해 수요 측면의 다양한 요인들, 예를 들어 소비자 선호도, 인구 통계학, 구매력, 및 시장 트렌드를 분석하는 것이 수요 접근법에 포함됩니다. 다음은 시장 규모를 추정하기 위한 단계별 접근법입니다:</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[[Streaming-ASR] RNN Transducer]]></title>
            <link>https://velog.io/@chris-512/RNN-Transducer</link>
            <guid>https://velog.io/@chris-512/RNN-Transducer</guid>
            <pubDate>Fri, 15 Sep 2023 03:54:20 GMT</pubDate>
            <description><![CDATA[<h2 id="1-proscons-of-rnn-t">1. Pros./Cons. of RNN-T</h2>
<h3 id="pros">Pros</h3>
<ul>
<li><strong>Better accuracy</strong>: CTC에서 존재하던 Conditional independence assumption을 해소</li>
<li><strong>Low latency</strong>: Streaming ASR Application에 사용 가능</li>
<li><strong>RNN-T &gt; MoChA</strong> in terms of latency, inference time, and training stability. (Comparison study from <a href="https://arxiv.org/pdf/2111.10043.pdf">Kim et al.</a>)</li>
<li>The industry tends to choose RNN-T as the dominating streaming E2E model.<h3 id="cons">Cons</h3>
</li>
<li>Output prediction tensor takes too much memory (3D tensor) (More detail from <a href="https://arxiv.org/pdf/2305.15958.pdf">Moriya et al.</a>)</li>
<li>Vanilla RNN-T can delay its label prediction (latency of ASR is critical)</li>
</ul>
<h2 id="2-rnn-t-formulation">2. RNN-T formulation</h2>
<blockquote>
<p>$$
P(y_t | x_{1:t}, y_{1:u-1})$$</p>
</blockquote>
<p>Predicting the <strong>current token $y_t$</strong> based on:</p>
<ul>
<li>Previous output tokens $y_{1:u-1}$ </li>
<li>Speech sequence $x_{1:t}$. </li>
</ul>
<h2 id="3-rnn-t-structure">3. RNN-T Structure</h2>
<p><img src="https://velog.velcdn.com/images/chris-512/post/1f01d728-4d85-4718-90cc-658c944d735c/image.png" alt=""></p>
<ul>
<li><p><strong>Encoder</strong>: Generate a high-level feature representation $h_t^{enc}$ from $x_t$</p>
</li>
<li><p><strong>Prediction network</strong>: Generate $h_u^{pre}$ based on RNN-T&#39;s previous output label $y_{n-1}$</p>
</li>
<li><p><strong>Joint network</strong>: A feed-forward network that combines $h_t^{pre}$ and $h_t^{enc}$ as:</p>
<blockquote>
<p>$$
z_{t,u} = \psi(Qh_t^{enc} + Vh_u^{pre}+b_z) \
h_{t,u} = W_{y}z_{t,u}+b_y \
P(y_t=k | x_{1:t}, y_{1:u-1})=softmax(h_{t,u}^k)$$</p>
</blockquote>
<p><strong>Parameters:</strong></p>
<ul>
<li>$Q$ and $V$ are weight matrices.</li>
<li>$\psi$ is a non-linear function (e.g., RELU or Tanh)</li>
<li>$z_{t,u}$ is again multiplied by another weight matrix $W_y$</li>
<li>$b_z$ and $b_y$ are bias vectors</li>
</ul>
</li>
</ul>
<h2 id="3-shape-of-output">3. Shape of output</h2>
<blockquote>
<p>$$
softmax(h_{t,u}^k) \in \mathbb{R}^{T\times U\times K}$$</p>
</blockquote>
<ul>
<li>$T$ is the length of speech sequence</li>
<li>$U$ is the length of the label sequence</li>
<li>$K$ is the number of possible tokens including special symbols. 
(e.g., start-of-sentence, $\langle sos \rangle$, end-of-sentence, $\langle eos \rangle$ and blank symbol)</li>
<li>Thus, <strong>3D tensor</strong> that requires much more memory than other E2E models such as CTC and AED. </li>
</ul>
<h2 id="4-learnable-parameters">4. Learnable parameters</h2>
<ul>
<li>Prediction network parameters</li>
<li>Encoder network parameters</li>
<li>$Q$, $V$, $b_z$, $b_y$, $W_y$ from Joint network</li>
</ul>
<h2 id="5-alignment-paths">5. Alignment Paths</h2>
<ul>
<li><strong>Three</strong> possible alignment paths from the <strong>bottom left corner</strong> to the <strong>top right corner</strong> of the $T$x$U$ grid.</li>
<li>The length of alignment path: $T$+$U$.</li>
<li><strong>Horizontal arrow</strong>: Advance one time step with a <strong>blank</strong> label.</li>
<li><strong>Vertical arrow</strong>: Advance one time step with a <strong>non-block</strong> output label.<blockquote>
<p><img src="https://velog.velcdn.com/images/chris-512/post/85cf2dd8-510a-439d-9f32-d451e1e0db00/image.png" alt=""></p>
</blockquote>
</li>
<li><em>x-axis*</em>: Speech sequence $x=(x_1,x_2, ..., x_8)$ </li>
<li><em>y-axis*</em>: Label sequence $y=(\langle s \rangle, t,e,a,m)$, where $\langle s \rangle$ is a token for start-of-sentence.</li>
<li><em>Delayed decision/prediction*</em>: Green path in the image above (Latency is high because of the late prediction. Problem of <strong>vanilla RNN-T</strong>.)</li>
</ul>
<h2 id="6-rnn-t-loss">6. RNN-T Loss</h2>
<ul>
<li><p>RNN-T tries to minimize $-lnP(y|x)$ where</p>
<blockquote>
<p>$$
P(y|x) = \sum_{a \in A^{-1}(y)}P(a|x)$$</p>
</blockquote>
<p>$a$: One of possible alignment paths
$A$: The mapping from the alignment path $a$ to the label sequence $y$. $A(a)=y$.</p>
</li>
<li><p>The parameters are optimized using <strong><code>forward-backward algorithm</code></strong> (<a href="https://arxiv.org/pdf/1211.3711.pdf">Alex et al.</a>).</p>
</li>
</ul>
<h2 id="7-forward-backward-algorithm">7. Forward-backward Algorithm</h2>
<h3 id="71-implementation">7.1 Implementation</h3>
<p>(WIP)</p>
<h3 id="72-how-to-improve-training-efficiency">7.2 How to improve training efficiency</h3>
<ul>
<li><strong>Look skewing transformation</strong>: forward/backward probabilities can be vectorized. The recursions can be computed in a single loop instead of two nested loops.</li>
<li><strong>Function merging</strong>: Reduce the training memory cost so that larger minibatches could be used.</li>
</ul>
<h2 id="8-different-strategies-for-alignments">8. Different Strategies for Alignments</h2>
<h3 id="81-constrained-alignment">8.1 Constrained alignment</h3>
<p>(WIP)</p>
<h3 id="82-fastemit">8.2 FastEmit</h3>
<p>(WIP)</p>
<h3 id="83-self-alignment">8.3 Self-alignment</h3>
<p><strong>Summary:</strong> Self-alignment encourages the model&#39;s alignment to the left direction. (lower-latency alignment) This was reported to have <strong>better accuracy and latency tradeoff</strong> than previous methods</p>
<blockquote>
<p><img src="https://velog.velcdn.com/images/chris-512/post/85cf2dd8-510a-439d-9f32-d451e1e0db00/image.png" alt=""></p>
</blockquote>
<ul>
<li><p><strong>Blue path</strong> indicates a self-alignment path and the <strong>red path</strong> is one frame left to the self-alignment path. </p>
</li>
<li><p>During training, the method encourages the left-alignment path, <strong>pushing the model&#39;s alignment to the left direction</strong>.</p>
</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[[음성인식] Part 1. Connectionist Temporal Classification (CTC)]]></title>
            <link>https://velog.io/@chris-512/Part-1.-Connectionist-Temporal-Classification-CTC</link>
            <guid>https://velog.io/@chris-512/Part-1.-Connectionist-Temporal-Classification-CTC</guid>
            <pubDate>Wed, 06 Sep 2023 08:40:57 GMT</pubDate>
            <description><![CDATA[<h1 id="acoustic-model-meets-language-model-🤔">Acoustic model meets Language model 🤔</h1>
<h2 id="1-ctc">1. CTC</h2>
<p><img src="https://velog.velcdn.com/images/chris-512/post/6efd7396-9891-4b16-8b83-eb8f4a922893/image.jpg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/5c300ac1-cfd9-4435-b292-af83012dd3bd/image.jpg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/e47e1145-8802-44b8-a16a-9f9c8980860e/image.jpg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/c0a60714-7edd-4447-9394-fbccc9f1841c/image.jpeg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/65c72c42-fd08-4e96-a518-ca87a36c3407/image.jpeg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/7eb44d3e-e598-4e30-8e7d-37fe561c12c3/image.jpeg" alt=""></p>
<h2 id="code">Code</h2>
<ul>
<li><strong>ctc-decode</strong>: <a href="https://gitlab.com/sburud/master/-/tree/master/speechlm/ctc-decode">https://gitlab.com/sburud/master/-/tree/master/speechlm/ctc-decode</a></li>
</ul>
<h3 id="references">References</h3>
<h4 id="streaming-small-footprint-keyword-spotting-using-seq2seq-models">Streaming Small Footprint Keyword Spotting Using Seq2Seq Models</h4>
<ul>
<li><a href="https://arxiv.org/pdf/1710.09617.pdf">https://arxiv.org/pdf/1710.09617.pdf</a></li>
</ul>
<h4 id="unrestricted-vocabulary-keyword-spotting-using-lstm-ctc">Unrestricted Vocabulary Keyword Spotting using LSTM-CTC</h4>
<ul>
<li><a href="https://www.isca-speech.org/archive_v0/Interspeech_2016/pdfs/0753.PDF">https://www.isca-speech.org/archive_v0/Interspeech_2016/pdfs/0753.PDF</a></li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[[화자인식] Metric Learning in Speaker Recognition]]></title>
            <link>https://velog.io/@chris-512/Metric-Learning-in-Speaker-Recognition</link>
            <guid>https://velog.io/@chris-512/Metric-Learning-in-Speaker-Recognition</guid>
            <pubDate>Fri, 01 Sep 2023 09:32:52 GMT</pubDate>
            <description><![CDATA[<h1 id="화자인식에서의-metric-learning">화자인식에서의 Metric Learning</h1>
<blockquote>
<p><strong>Paper</strong>
<a href="https://arxiv.org/pdf/2003.11982.pdf">in defence of metric learning for speaker recognition</a></p>
</blockquote>
<h2 id="classification-objectives">Classification Objectives</h2>
<h3 id="softmax-loss">Softmax Loss</h3>
<h3 id="am-softmax">AM-Softmax</h3>
<h3 id="aam-softmax-arcface">AAM-Softmax (ArcFace)</h3>
<p><img src="https://velog.velcdn.com/images/chris-512/post/f2d32b9d-31e9-4ff9-b41d-8af9095fd110/image.jpg" alt=""></p>
<h2 id="metric-learning-objectives">Metric Learning Objectives</h2>
<h3 id="triplet-learning">Triplet Learning</h3>
<h3 id="prototypical">Prototypical</h3>
<h3 id="generalized-e2e">Generalized E2E</h3>
<h3 id="angular-prototypical">Angular Prototypical</h3>
<p><img src="https://velog.velcdn.com/images/chris-512/post/267cf4c1-1c9a-40f3-b1ec-772202461701/image.jpg" alt="">
<img src="https://velog.velcdn.com/images/chris-512/post/55b0514f-8528-4732-ac2c-f2aa04137609/image.jpg" alt=""></p>
]]></description>
        </item>
    </channel>
</rss>