Menü

Yusuf Çelebi

Yusuf Çelebi

Applied AI Scientist

LLM sistemleri, retrieval, agentic AI ve model davranışı üzerine çalışan Applied AI Scientist. Araştırma fikirlerini RAG, graph memory, değerlendirme ve üretim odaklı AI pipeline'larına dönüştürmeye odaklanıyorum.

Blog

From Computer Vision to Semantics: RDP-Based Simplification of Embedding Trajectories

Yazar: Yusuf Çelebi Tarih: 21 May 2026 Son Güncelleme: 21 May 2026
From Computer Vision to Semantics: RDP-Based Simplification of Embedding Trajectories

Birçok algoritmanın, tasarlandığı alanın ötesinde yeni kullanım alanları bulmasının ardında güçlü bir yapısal mantık yatar. Eğer bir yöntem yalnızca belirli bir veri türüne değil, verinin geometrik düzenine dayanıyorsa, başka bir alana taşındığında da doğal şekilde çalışmaya devam eder. Bu duruma diffusion modellerinin görsel üretimden metne ve diğer modalitelere genişlemesi, ya da Transformer mimarisinin çeviri dışındaki alanlarda temel yapı taşı hâline gelmesi iyi birer örnektir. Ramer–Douglas–Peucker (RDP) de tam olarak bu tip bir yöntemdir. Bu yazıda RDP’nin bilgisayar görüsündeki klasik rolünden yola çıkarak, yüksek boyutlu metinsel embedding dizileri üzerinde neden aynı başarıyla çalıştığını adım adım, sezgisel olarak ve görsellerle destekleyerek inceliyoruz.

Burada amaç RDP’yi NLP için “yeniden icat etmek” değil; embedding dizilerinin geometrik doğasını görünür kılmak. Yazı boyunca önce RDP’nin temel yapısını ele alıyor, ardından 2D ve 3D örneklerle davranışını gösteriyor, sonrasında embedding uzayına geçiyor ve deneysel bir örnekle RDP’nin anlam akışı üzerinde nasıl çalıştığını ortaya koyuyoruz.

RDP’nin Temel Mantığı: Bir Eğrinin Yapısal Özü

RDP’nin başarısı, şaşırtıcı derecede basit bir fikre dayanır: Karmaşık bir eğrinin insan gözü için anlamlı hâle getirilmesi, gereksiz kıvrımların temizlenmesi ve sadece yapının karakteristik “dönüş noktalarının” korunması. Algoritmanın adımlarını açtığımızda bu sadelik daha net görülebilir.

RDP Algoritmasının İşleyişi

Bir eğrinin ilk ve son noktası referans alınır.

Bu iki nokta arasında düz bir doğru çizilir.

RDP visualization

Aradaki tüm noktaların bu doğruya olan uzaklığı hesaplanır.

Büyük sapma gösteren noktalar eğrinin yapısında gerçek bir dönüş olduğunu işaret eder.

Sapma belirli bir eşikten büyükse bu nokta korunur ve eğri iki parçaya ayrılır.

Aynı işlem her alt parça için yine uygulanır.

Bu yinelemeli süreç boyunca eğrinin gürültü niteliğindeki küçük titreşimleri temizlenirken, yön değiştiren kritik yapılar korunur.

RDP’nin bu davranışı farklı alanlarda kullanılmasını sağlamıştır: GPS rotalarının sadeleştirilmesinden robotik kol hareketlerinin filtrelenmesine, yüzey kontur analizinden zaman serilerinin sıkıştırılmasına kadar çok sayıda uygulamada “gereksiz varyasyonları atıp özü koruma” ihtiyacı aynı şekilde karşımıza çıkar.

RDP visualization

Bu nokta, embedding uzayına geçişte kritik öneme sahiptir. Çünkü embedding dizileri de tıpkı eğriler gibi “küçük titreşimler” ve “büyük dönüş noktaları” içerir; sadece bu yapıları oluşturan uzay çok daha yüksek boyutludur.

2D Bir Eğri Üzerinde RDP’nin Davranışı

RDP’nin neyi önemsediğini görmek için önce RDP’nin en klasik kullanımı olan 2D örnekle başlıyoruz. Sinyal, bir yanda temel bir trend taşırken diğer yanda küçük salınımlar, mikro gürültüler ve yer yer keskin sıçramalar içerir. Bu sinyal bir insan gözünün hemen ayırt edemeyeceği yoğunlukta fluktuasyon barındırır, fakat yapısal olarak belirli “dönüş bölgeleri” vardır.

RDP uygulandığında görüntü çok daha anlaşılır hâle gelir. Küçük osilasyonlar temizlenir, sinyalin görsel karmaşası azalır ve sadece büyük yön değişimlerinin kaldığı sadeleşmiş bir yapı elde edilir. Eşik değeri büyütüldükçe eğrinin daha da sade bir versiyonu ortaya çıkar; bu da RDP’nin “sadelik derecesinin ayarlanabilir” olduğunu gösterir.

Bu aşama, RDP’nin yalnızca eğriyi basitleştirmediğini, aynı zamanda yapının “karakteri” ile ilgili net bir özet çıkardığını açıkça ortaya koyar.

Boyutu Artırmak: RDP Neden 3D’de de Aynı Çalışır?

2D’den 3D’ye geçiş, RDP’nin boyut agnostik yapısını anlatmak için önemlidir. Çünkü embedding uzayı 768 boyutlu bile olsa geometrik olarak aynı problemin daha yüksek boyutlu versiyonudur.

3D örnekte önceki sinyalin bir uzantısını oluşturuyoruz: x, y ve z eksenlerinde salınan bir yol. Sinyal çok daha karmaşık görünmesine rağmen RDP uygulandığında elde edilen sonuç şaşırtıcı derecede tanıdıktır. Yine küçük varyasyonlar temizlenir, yalnızca belirgin dönüşler korunur. RDP’nin davranışı boyutla hiçbir şekilde bozulmaz.

Bu aşamada kritik soru şudur: Neden bir algoritma 2D’de ve 3D’de birebir aynı şekilde çalışır?

Cevap aslında çok basittir: RDP’nin yaptığı tek matematiksel işlem bir noktanın bir doğruya uzaklığını hesaplamaktır. Bu uzaklık, 2D için de tanımlıdır, 3D için de, 1000 boyut için de. RDP herhangi bir özel geometriye bağlı değildir; sadece doğrusal uzaklık kavramına dayanır. Bu özellik embedding uzayına geçişi mümkün kılar.

Embedding Uzayının Geometrik Doğası: Yüksek Boyutlu Bir Eğri

RDP visualization

3D örneği yerleştirdikten sonra asıl konuya geliyoruz: Bir embedding dizisi, aslında yüksek boyutlu bir eğridir. Bir kelimenin embedding vektörü yüzlerce boyuttan oluşur ve kelimeler sırasıyla modele verildiğinde ortaya çıkan embedding dizisi, tıpkı 2D veya 3D bir yol gibi ardışık noktalardan oluşur.

Bu dizinin özellikleri çok nettir: Aynı tema içinde birbirine benzeyen kelimeler embedding uzayında yakın konumlanır, bu nedenle yol küçük kıvrımlar şeklinde akar. Tema veya konu değiştiğinde ise embedding yönü belirgin şekilde kırılır. Bu kırılmalar, bizim “semantik geçiş” olarak bildiğimiz yapının geometrik karşılığıdır.

Embedding uzayındaki yakınlık/uzaklık ilişkisi semantiğe bağlandığı için, embedding dizisinin tamamen geometrik bir yolu takip ediyor olması şaşırtıcı değildir. Aslında modern embedding modelleri tam olarak bu yolu korumak için eğitilir: benzer anlamları yakın yerleştirmek, farklı anlamları uzaklaştırmak. Bu nedenle embedding dizisi doğal bir şekilde “anlam yolculuğu”nun geometrik izini taşır.

Embedding Yolunun 3D'ye Projeksiyonu: Görselleştirilebilir Hâle Getirmek

Yüksek boyutlu embedding vektörlerini doğrudan görmek mümkün olmadığı için, UMAP gibi boyut indirgeme yöntemleri kullanarak bu yolun üç boyutlu bir projeksiyonunu çıkarıyoruz. Bu projeksiyonun amacı, embedding yolunun yapısını görsel olarak anlaşılır hâle getirmek. 3D projeksiyonda gruplar genellikle kümelenmiş şekilde görünür ve grup değişimlerinde yolun yön değiştirdiği net bir biçimde fark edilir. Bunun nedeni, kullanılan kelimelerin math, music, food, technology, animals ve emotions gibi belirgin tematik alanlara dağılmış olmasıdır; bu da görselde doğal kümelenmelerin ortaya çıkmasını sağlar. Bu noktada, örneğin “apple” kelimesinin meyvelerdense teknolojiyle ilgili terimlere fiziksel olarak daha yakın düşmesi, semantik yakınlığın geometrik izdüşümüne tipik bir örnek olarak öne çıkar.

Boyut indirgeme sırasında bazı geometrik ilişkiler bozulabilir; ancak projeksiyonun amacı sayısal doğruluk değil, sezgisel görünürlüktür. RDP’nin kendisi yüksek boyutlu uzayda uygulanır, görselleştirme sadece açıklayıcıdır.

RDP’nin Embedding Dizisine Uygulanması: Anlam Akışının İskeletini Çıkarmak

Embedding yoluna RDP uygulandığında, algoritma 2D ve 3D’de olduğu gibi küçük varyasyonları atıp belirgin kırılma noktalarını korur. Bu kırılmalar genellikle tematik geçişlere denk gelir. Deneyde kullanılan altı semantik grupta da aynı davranış gözlemlenmiştir: Grup içinde embedding vektörleri birbirine benzer olduğu için yol yumuşak akar; grup değişimlerinde ise yön değiştirdiği için RDP bu noktaları kritik kabul eder. Epsilon değeri arttıkça embedding yolu daha da sadeleşir ve sonunda kelime dizisinin “anlam omurgası” ortaya çıkar. Bu omurga, metnin hangi noktalarda semantik olarak kırıldığına dair değerli bir yapısal özet sunar.

RDP visualization

GIF’te bu süreç, epsilon değerinin sürekli artırılmasıyla yolun en sonunda iki noktaya kadar sadeleştiği bir animasyon olarak gösterilmiştir; ancak tematik yapıyı koruyan asıl optimal düzey, akış sırasında yaklaşık altı noktanın kaldığı aşamada ortaya çıkar.

Bu sonuç, embedding dizilerinin tamamen geometrik olarak incelenebildiğini ve RDP’nin semantik akışı yorumlamak için hafif ama etkili bir araç olduğunu göstermektedir.

RESULTS & OBSERVATIONS

Deney boyunca RDP’nin farklı veri türlerinde aynı şekilde davrandığı tutarlı şekilde gözlemlenmiştir. 2D’den 3D’ye ve yüksek boyutlu embedding uzayına kadar algoritmanın davranışı hiç bozulmadan devam eder. Bu, RDP’nin boyut agnostiği özelliğinin güçlü bir doğrulamasıdır.

Embedding dizileri incelendiğinde semantik geçişlerin gerçekten de geometrik yön değişimleri olarak ortaya çıktığı görülür. RDP’nin yalnızca bu yön değişimlerini koruması, embedding yolunu “semantik akışın saf iskeleti” hâline getirir. Bu iskelet, özellikle uzun dizilerde metnin hangi noktalarda anlam değiştirdiğini hızlı ve sezgisel biçimde analiz etme imkânı sağlar.

OUR MIND

Bu çalışma sırasında en dikkat çekici bulgulardan biri, RDP’nin NLP bağlamında kullanılmasının aslında tamamen doğal olmasıydı. Çünkü embedding dizisi başından beri geometrik bir yapıya sahipti; fark edilmeyen nokta sadece bu yapının görünmez olmasıydı. RDP bu görünmez geometrik akışı görünür hâle getiriyor.

Semantik geçişlerin “yön değişimi” olarak ortaya çıkması sadece sezgisel değil, aynı zamanda embedding modellerinin çalışma mantığıyla da tutarlı. RDP bu doğrultuda semantik analizin yapısal bir aracı gibi davranıyor.

KEY TAKEAWAYS

Embedding dizileri gerçekte yüksek boyutlu bir eğridir.

RDP’nin boyut agnostik yapısı embedding uzayında birebir çalışır.

Küçük semantik varyasyonlar elenir, büyük tematik geçişler korunur.

Ortaya çıkan sadeleştirilmiş yol, anlam akışının yapısal iskeletidir.

UMAP ile yapılan projeksiyon sadece görselleştirme içindir; RDP yüksek boyutta uygulanır.

Yöntem kaba ama etkili bir semantik özet çıkarma aracıdır.

CONCLUSION

Bu yazı, RDP’nin farklı boyutlardaki veri dizileri üzerinde neden aynı şekilde çalıştığını adım adım açıklamış ve embedding uzayında semantik akışın nasıl sadeleştirilebileceğini göstermiştir. RDP, bilgisayar görüsündeki rolünden çok daha geniş bir kullanım alanına sahip olabilecek hafif ve sezgisel bir yöntemdir. Embedding dizilerinin temel yapısını ortaya çıkarmak için pratik, anlaşılır ve güçlü bir araç olarak değerlendirilebilir.

RDP animation

RDP animation