Aided stab at basic tokenizer and api setup.

2025-12-19 18:46:03 -07:00
parent 1e90cbbb39
commit 7686b1b9f0
9 changed files with 446 additions and 1 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -25,3 +25,4 @@ go.work.sum
 .env

 **/dist/
+**/.idea/
--- a/cmd/server/main.go
+++ b/cmd/server/main.go
@@ -7,6 +7,7 @@ import (
 	"path"
 	"strings"

+	"github.com/smjklake/glancr/internal/api"
 	"github.com/smjklake/glancr/internal/fs"
 )

@@ -31,8 +32,15 @@ func spaHandler() http.HandlerFunc {
 }

 func main() {
+	// Initialize API
+	apiHandler := api.NewAPI()
+
+	// API routes
+	http.HandleFunc("/api/file", apiHandler.HandleFile)
+
+	// SPA handler for everything else
+	http.HandleFunc("/", spaHandler())

 	log.Println("Starting glancr on port 8080")
-	http.HandleFunc("/", spaHandler())
 	log.Fatal(http.ListenAndServe(":8080", nil))
 }
--- a/go.mod
+++ b/go.mod
@@ -1 +1,3 @@
 module github.com/smjklake/glancr
+
+go 1.24.3
--- a/internal/api/handlers.go
+++ b/internal/api/handlers.go
@@ -0,0 +1,69 @@
+package api
+
+import (
+	"encoding/json"
+	"io/ioutil"
+	"net/http"
+	"path/filepath"
+	"strconv"
+
+	"github.com/smjklake/glancr/internal/tokenizer"
+)
+
+type API struct {
+	tokenizer *tokenizer.Tokenizer
+}
+
+func NewAPI() *API {
+	return &API{
+		tokenizer: tokenizer.NewTokenizer(),
+	}
+}
+
+// GET /api/file?path=example.go&start=1&end=100
+func (a *API) HandleFile(w http.ResponseWriter, r *http.Request) {
+	filePath := r.URL.Query().Get("path")
+	startLine := r.URL.Query().Get("start")
+	endLine := r.URL.Query().Get("end")
+
+	// Read file
+	content, err := ioutil.ReadFile(filePath)
+	if err != nil {
+		http.Error(w, "File not found", http.StatusNotFound)
+		return
+	}
+
+	// Detect language from extension
+	language := detectLanguage(filepath.Ext(filePath))
+
+	// Tokenize
+	doc := a.tokenizer.TokenizeDocument(string(content), language)
+
+	// Handle range requests for virtual scrolling
+	if startLine != "" && endLine != "" {
+		start, _ := strconv.Atoi(startLine)
+		end, _ := strconv.Atoi(endLine)
+
+		if start > 0 && end <= len(doc.Lines) {
+			doc.Lines = doc.Lines[start-1 : end]
+		}
+	}
+
+	w.Header().Set("Content-Type", "application/json")
+	json.NewEncoder(w).Encode(doc)
+}
+
+func detectLanguage(ext string) string {
+	switch ext {
+	case ".go":
+		return "go"
+	case ".js", ".jsx":
+		return "javascript"
+	case ".ts", ".tsx":
+		return "javascript" // Can add typescript later
+	case ".md":
+		return "markdown"
+	default:
+		return "text"
+	}
+}
--- a/internal/tokenizer/languages.go
+++ b/internal/tokenizer/languages.go
@@ -0,0 +1,106 @@
+package tokenizer
+
+import "regexp"
+
+func (t *Tokenizer) initializeLanguages() {
+	t.addGoLanguage()
+	t.addJavaScriptLanguage()
+	t.addMarkdownLanguage()
+	t.addTextLanguage()
+}
+
+func (t *Tokenizer) addGoLanguage() {
+	t.languages["go"] = &Language{
+		Name: "go",
+		Rules: []Rule{
+			// Comments
+			{regexp.MustCompile(`//.*$`), "comment", 100},
+			{regexp.MustCompile(`/\*[\s\S]*?\*/`), "comment", 100},
+
+			// Strings
+			{regexp.MustCompile(`"(?:[^"\\]|\\.)*"`), "string", 90},
+			{regexp.MustCompile("`[^`]*`"), "string", 90},
+
+			// Keywords
+			{regexp.MustCompile(`\b(package|import|func|var|const|type|struct|interface|if|else|for|range|switch|case|default|return|break|continue|go|defer|chan|select)\b`), "keyword", 80},
+
+			// Types
+			{regexp.MustCompile(`\b(int|int8|int16|int32|int64|uint|uint8|uint16|uint32|uint64|float32|float64|string|bool|byte|rune|error)\b`), "type", 70},
+
+			// Numbers
+			{regexp.MustCompile(`\b\d+(\.\d+)?\b`), "number", 60},
+
+			// Functions
+			{regexp.MustCompile(`\b([a-zA-Z_][a-zA-Z0-9_]*)\s*\(`), "function", 50},
+
+			// Default
+			{regexp.MustCompile(`[a-zA-Z_][a-zA-Z0-9_]*`), "identifier", 10},
+		},
+	}
+}
+
+func (t *Tokenizer) addMarkdownLanguage() {
+	t.languages["markdown"] = &Language{
+		Name: "markdown",
+		Rules: []Rule{
+			// Headers
+			{regexp.MustCompile(`^#{1,6}\s+.*$`), "header", 100},
+
+			// Code blocks
+			{regexp.MustCompile("```[\\s\\S]*?```"), "code-block", 95},
+			{regexp.MustCompile("`[^`]+`"), "code-inline", 90},
+
+			// Bold/Italic
+			{regexp.MustCompile(`\*\*[^*]+\*\*`), "bold", 85},
+			{regexp.MustCompile(`\*[^*]+\*`), "italic", 80},
+
+			// Links
+			{regexp.MustCompile(`\[([^\]]+)\]\([^)]+\)`), "link", 75},
+
+			// Lists
+			{regexp.MustCompile(`^\s*[-*+]\s+`), "list-marker", 70},
+			{regexp.MustCompile(`^\s*\d+\.\s+`), "list-marker", 70},
+		},
+	}
+}
+
+func (t *Tokenizer) addJavaScriptLanguage() {
+	t.languages["javascript"] = &Language{
+		Name: "javascript",
+		Rules: []Rule{
+			// Comments
+			{regexp.MustCompile(`//.*$`), "comment", 100},
+			{regexp.MustCompile(`/\*[\s\S]*?\*/`), "comment", 100},
+
+			// Strings
+			{regexp.MustCompile(`"(?:[^"\\]|\\.)*"`), "string", 90},
+			{regexp.MustCompile(`'(?:[^'\\]|\\.)*'`), "string", 90},
+			{regexp.MustCompile("`(?:[^`\\]|\\.)*`"), "string", 90},
+
+			// Keywords
+			{regexp.MustCompile(`\b(const|let|var|function|return|if|else|for|while|do|switch|case|default|break|continue|try|catch|finally|throw|new|this|class|extends|import|export|from|async|await)\b`), "keyword", 80},
+
+			// Types/Built-ins
+			{regexp.MustCompile(`\b(Object|Array|String|Number|Boolean|Date|RegExp|Error|Promise)\b`), "type", 70},
+
+			// Numbers
+			{regexp.MustCompile(`\b\d+(\.\d+)?\b`), "number", 60},
+
+			// Functions
+			{regexp.MustCompile(`\b([a-zA-Z_$][a-zA-Z0-9_$]*)\s*\(`), "function", 50},
+
+			// Default
+			{regexp.MustCompile(`[a-zA-Z_$][a-zA-Z0-9_$]*`), "identifier", 10},
+		},
+	}
+}
+
+func (t *Tokenizer) addTextLanguage() {
+	t.languages["text"] = &Language{
+		Name: "text",
+		Rules: []Rule{
+			// Just return everything as text
+			{regexp.MustCompile(`.+`), "text", 1},
+		},
+	}
+}
--- a/internal/tokenizer/tokenizer.go
+++ b/internal/tokenizer/tokenizer.go
@@ -0,0 +1,125 @@
+package tokenizer
+
+import (
+	"regexp"
+	"strings"
+)
+
+type Token struct {
+	Type    string `json:"type"`    // "keyword", "string", "comment", etc.
+	Content string `json:"content"` // actual text
+	Start   int    `json:"start"`   // character position
+	End     int    `json:"end"`     // character position
+}
+
+type TokenizedLine struct {
+	LineNumber int     `json:"lineNumber"`
+	Tokens     []Token `json:"tokens"`
+	Raw        string  `json:"raw"` // original line content
+}
+
+type TokenizedDocument struct {
+	Language string          `json:"language"`
+	Lines    []TokenizedLine `json:"lines"`
+	Metadata DocumentMeta    `json:"metadata"`
+}
+
+type DocumentMeta struct {
+	TotalLines int    `json:"totalLines"`
+	FileSize   int64  `json:"fileSize"`
+	Language   string `json:"language"`
+}
+
+type Tokenizer struct {
+	languages map[string]*Language
+}
+
+type Language struct {
+	Name  string
+	Rules []Rule
+}
+
+type Rule struct {
+	Pattern  *regexp.Regexp
+	Token    string
+	Priority int // higher priority rules checked first
+}
+
+func NewTokenizer() *Tokenizer {
+	t := &Tokenizer{
+		languages: make(map[string]*Language),
+	}
+
+	// Initialize with basic languages
+	t.initializeLanguages()
+	return t
+}
+
+func (t *Tokenizer) TokenizeDocument(content, language string) *TokenizedDocument {
+	lines := strings.Split(content, "\n")
+	tokenizedLines := make([]TokenizedLine, len(lines))
+
+	lang := t.languages[language]
+	if lang == nil {
+		lang = t.languages["text"] // fallback
+	}
+
+	for i, line := range lines {
+		tokenizedLines[i] = TokenizedLine{
+			LineNumber: i + 1,
+			Tokens:     t.tokenizeLine(line, lang),
+			Raw:        line,
+		}
+	}
+
+	return &TokenizedDocument{
+		Language: language,
+		Lines:    tokenizedLines,
+		Metadata: DocumentMeta{
+			TotalLines: len(lines),
+			FileSize:   int64(len(content)),
+			Language:   language,
+		},
+	}
+}
+
+func (t *Tokenizer) tokenizeLine(line string, lang *Language) []Token {
+	if len(line) == 0 {
+		return []Token{}
+	}
+
+	var tokens []Token
+	remaining := line
+	offset := 0
+
+	for len(remaining) > 0 {
+		matched := false
+
+		// Try each rule in priority order
+		for _, rule := range lang.Rules {
+			if loc := rule.Pattern.FindStringIndex(remaining); loc != nil && loc[0] == 0 {
+				// Found a match at the beginning
+				matchText := remaining[loc[0]:loc[1]]
+				tokens = append(tokens, Token{
+					Type:    rule.Token,
+					Content: matchText,
+					Start:   offset,
+					End:     offset + len(matchText),
+				})
+
+				remaining = remaining[loc[1]:]
+				offset += loc[1]
+				matched = true
+				break
+			}
+		}
+
+		if !matched {
+			// No rule matched, skip one character
+			remaining = remaining[1:]
+			offset++
+		}
+	}
+
+	return tokens
+}
--- a/ui/src/components/FileViewer.tsx
+++ b/ui/src/components/FileViewer.tsx
@@ -0,0 +1,53 @@
+import React, { useState, useEffect } from 'react';
+import { TokenizedText, type TokenizedLine } from './TokenizedText';
+
+interface TokenizedDocument {
+  language: string;
+  lines: TokenizedLine[];
+  metadata: {
+    totalLines: number;
+    fileSize: number;
+    language: string;
+  };
+}
+
+interface FileViewerProps {
+  filePath: string;
+}
+
+export const FileViewer: React.FC<FileViewerProps> = ({ filePath }) => {
+  const [document, setDocument] = useState<TokenizedDocument | null>(null);
+  const [loading, setLoading] = useState(true);
+
+  useEffect(() => {
+    const loadFile = async () => {
+      setLoading(true);
+      try {
+        const response = await fetch(`/api/file?path=${encodeURIComponent(filePath)}`);
+        const doc = await response.json();
+        setDocument(doc);
+      } catch (error) {
+        console.error('Failed to load file:', error);
+      } finally {
+        setLoading(false);
+      }
+    };
+
+    loadFile();
+  }, [filePath]);
+
+  if (loading) return <div>Loading...</div>;
+  if (!document) return <div>Failed to load file</div>;
+
+  return (
+    <div className="file-viewer">
+      <header className="file-header">
+        <h2>{filePath}</h2>
+        <span className="file-info">
+          {document.metadata.language} • {document.metadata.totalLines} lines
+        </span>
+      </header>
+      <TokenizedText lines={document.lines} />
+    </div>
+  );
+};
--- a/ui/src/components/TokenizedText.tsx
+++ b/ui/src/components/TokenizedText.tsx
@@ -0,0 +1,38 @@
+import React from 'react';
+
+interface Token {
+  type: string;
+  content: string;
+  start: number;
+  end: number;
+}
+
+export interface TokenizedLine {
+  lineNumber: number;
+  tokens: Token[];
+  raw: string;
+}
+
+interface TokenizedTextProps {
+  lines: TokenizedLine[];
+  showLineNumbers?: boolean;
+}
+
+export const TokenizedText: React.FC<TokenizedTextProps> = ({ lines, showLineNumbers = true }) => {
+  return (
+    <div className="tokenized-text">
+      {lines.map((line) => (
+        <div key={line.lineNumber} className="line">
+          {showLineNumbers && <span className="line-number">{line.lineNumber}</span>}
+          <span className="line-content">
+            {line.tokens.map((token, i) => (
+              <span key={i} className={`token token-${token.type}`}>
+                {token.content}
+              </span>
+            ))}
+          </span>
+        </div>
+      ))}
+    </div>
+  );
+};
--- a/ui/src/styles/syntax.css
+++ b/ui/src/styles/syntax.css
@@ -0,0 +1,43 @@
+
+.tokenized-text {
+  font-family: 'Monaco', 'Menlo', monospace;
+  font-size: 14px;
+  line-height: 1.5;
+  background: #1e1e1e;
+  color: #d4d4d4;
+  padding: 1rem;
+}
+
+.line {
+  display: flex;
+  min-height: 21px;
+}
+
+.line-number {
+  color: #858585;
+  margin-right: 1rem;
+  user-select: none;
+  min-width: 3ch;
+  text-align: right;
+}
+
+.line-content {
+  flex: 1;
+}
+
+/* Syntax highlighting tokens */
+.token-keyword { color: #569cd6; font-weight: bold; }
+.token-string { color: #ce9178; }
+.token-comment { color: #6a9955; font-style: italic; }
+.token-number { color: #b5cea8; }
+.token-function { color: #dcdcaa; }
+.token-type { color: #4ec9b0; }
+.token-header { color: #569cd6; font-weight: bold; }
+.token-bold { font-weight: bold; }
+.token-italic { font-style: italic; }
+.token-link { color: #9cdcfe; text-decoration: underline; }
+.token-code-block {
+  background: #2d2d2d;
+  padding: 0.2em 0.4em;
+  border-radius: 3px;
+}