Codificação Assistida por IA

Um caso real: análise bibliométrica de aceitação social de tecnologias de transição energética

Este documento apresenta um caso real de uso do Synesis em pesquisa acadêmica, onde a codificação qualitativa foi realizada por inteligência artificial e revisada manualmente pelo pesquisador. O projeto analisa fatores de aceitação social de tecnologias de transição energética a partir de um corpus de artigos científicos selecionados por bibliometria.

Dados reais

Diferente dos exemplos fictícios em outras páginas desta documentação, todos os dados apresentados aqui são reais — extraídos de artigos científicos publicados e processados pelo pipeline descrito neste documento.

1 Visão geral do projeto

O projeto Social_Acceptance combina três etapas:

Seleção do corpus: ~450 artigos científicos identificados por bibliometria (análise de citações, co-citações e acoplamento bibliográfico)
Codificação por IA: cada abstract foi processado por um modelo de linguagem (LLM) seguindo prompts metodológicos específicos, gerando os arquivos .syn (anotações) e .syno (ontologia)
Revisão humana: o pesquisador revisou e ajustou os resultados, corrigindo generalizações excessivas, relações imprecisas e conceitos duplicados

O resultado é um grafo de conhecimento com centenas de conceitos e relações causais, estruturado em Synesis e exportável para Neo4j, Excel e JSON.

2 O template: estrutura analítica avançada

O template define a estrutura que a IA deve preencher. Ele incorpora três frameworks teóricos:

Teoria Fundamentada (Grounded Theory): extração indutiva de conceitos e relações a partir dos dados
Aspectos Modais de Dooyeweerd: classificação de conceitos em 16 aspectos modais (do quantitativo ao fiducial)
Dimensões de Wüstenhagen: aceitação comunitária, de mercado e sociopolítica

TEMPLATE bibliometrics version: "1.0" author: "Synesis Compiler Team"

SOURCE FIELDS
    REQUIRED description, epistemic_model, method
END SOURCE FIELDS

ITEM FIELDS
    REQUIRED text
    REQUIRED BUNDLE note, chain
END ITEM FIELDS

ONTOLOGY FIELDS
    REQUIRED description
    OPTIONAL topic, aspect, dimension, confidence, reasoning,
             rgt_element_a, rgt_element_b, theoretical_significance
END ONTOLOGY FIELDS

Três decisões de design merecem destaque:

SOURCE com metadados epistêmicos: cada fonte declara seu modelo epistemológico e método, permitindo cruzar resultados por tradição teórica
BUNDLE de note + chain: cada interpretação analítica (memo) é obrigatoriamente pareada com sua formalização em cadeia causal
ONTOLOGY multidimensional: cada conceito recebe classificação modal (Dooyeweerd), dimensional (Wüstenhagen), nível de confiança e construto bipolar (Repertory Grid Theory)

Vejamos as definições completas dos campos mais relevantes. A partir da versão 2.0 do template, cada campo incorpora um bloco GUIDELINES com as instruções metodológicas que antes eram fornecidas em prompts externos:

FIELD text TYPE QUOTATION
    SCOPE ITEM
    DESCRIPTION Excerto textual extraído da fonte bibliográfica
    GUIDELINES
        Extract COMPLETE, SELF-CONTAINED semantic units (1-3 sentences).
        Each excerpt must include: subject + verb + object + qualifiers.
        The excerpt must be intelligible without surrounding context.

        GOOD: 'Community trust and environmental concern are the most important
        factors determining willingness to participate in renewable energy projects'
        BAD: 'determining such willingness' (lacks subject/context)

        Score analytical value 1-5 BEFORE extraction. Extract only score 3-5:
        Score 5: Reveals causal mechanism or multi-step pathway (explains HOW acceptance works)
        Score 4: Shows enabling/shaping relationship with clear mechanism
        Score 3: Theoretically significant association (flag as *borderline*)
        Score 2: Simple association without mechanism (SKIP)
        Score 1: Trivial/obvious/redundant (SKIP)

        TEST: 'Does this explain HOW or WHY social acceptance occurs?'
        YES + mechanism visible = Extract. Otherwise SKIP.
    END GUIDELINES
END FIELD

FIELD note TYPE MEMO
    SCOPE ITEM
    DESCRIPTION Memo analítico explicando a interpretação e mecanismo causal identificado
    GUIDELINES
        Write an analytical description of the mechanism, significance, or rationale
        revealed by the excerpt. Do NOT merely restate the excerpt.
        Maximum 25 words (up to 50 words if flagged *complex*).

        State the causal mechanism or theoretical insight, not a description of the text.

        GOOD: 'Reveals dual mechanism: Integration and Engagement independently
        enable transition via complementary pathways'
        BAD: 'The excerpt describes how factors influence willingness'

        Add *borderline* flag if analytical value score is 3.
        Add *complex* flag if 4+ factors converge on the same outcome.
    END GUIDELINES
END FIELD

FIELD chain TYPE CHAIN
    SCOPE ITEM
    ARITY >= 2
    DESCRIPTION Cadeia causal/relacional entre conceitos da ontologia
    RELATIONS
        ENABLES: Condição necessária ou facilitadora (A permite que B ocorra)
        INFLUENCES: Efeito causal direto (A afeta ou muda B)
        CONSTRAINS: Limita ou restringe (A reduz opções ou viabilidade de B)
        CONTESTED-BY: Oposição ativa (A é contestado ou desafiado por B)
        RELATES-TO: Associação significativa genérica (A está relacionado a B)
    END RELATIONS
    GUIDELINES
        RELATION SELECTION PRIORITY: ENABLES > INFLUENCES > CONSTRAINS > CONTESTED-BY > RELATES-TO

        Selection tests for each relation type:
        ENABLES: 'Can B exist without A?' If NO, use ENABLES.
        INFLUENCES: 'Does A increase/decrease/modify B?' If YES, use INFLUENCES.
        CONSTRAINS: 'Does A impose boundaries on B?' If YES, use CONSTRAINS.
        RELATES-TO: Theoretically significant association. LAST RESORT — use in less than 5% of relations.

        SEQUENTIAL vs PARALLEL CHAINS (CRITICAL):
        SEQUENTIAL (A->B->C): Keep in ONE chain when factors form a causal pathway.
        'Ownership enables financing which enables deployment'
        -> Ownership -> ENABLES -> Financing -> ENABLES -> Deployment

        PARALLEL (X,Y,Z->A): Create SEPARATE ITEM blocks when multiple factors
        independently affect the same outcome.
        'Environmental concern, education, trust determine participation'
        -> Three separate ITEM blocks, each with its own note and chain.

        FACTOR GRANULARITY (target: fewer than 150 unique factors across the full corpus):
        Level 1 - Core concept: Acceptance, Deployment, Policy, Trust, Cost
        Level 2 - Qualified concept (when distinction matters): Public_Acceptance, Community_Trust
        Level 3 - Full specification (only when Level 2 loses critical meaning): Offshore_Wind_Acceptance
        DECISION: 'Will this term appear in 5+ abstracts?' If unlikely, generalize to Level 1-2.
    END GUIDELINES
END FIELD

FIELD aspect TYPE ORDERED
    SCOPE ONTOLOGY
    DESCRIPTION Aspectos modais de Dooyeweerd (ordem é significativa)
    VALUES
        [0] Undefined: Not available
        [1] Quantitative: Medições, estatísticas
        [2] Spatial: Localização, geografia
        [3] Kinematic: Movimento, fluxo, dinâmica
        [4] Physical: Propriedades materiais, sistemas energéticos
        [5] Biotic: Ecológico, ambiental, impactos na saúde
        [6] Sensitive: Percepção, consciência, respostas emocionais
        [7] Analytical: Pesquisa, análise, elementos metodológicos
        [8] Formative: Planejamento, design, inovação
        [9] Lingual: Comunicação, documentação
        [10] Social: Relações comunitárias, dinâmicas coletivas
        [11] Economic: Custos, mercados, finanças
        [12] Aesthetic: Qualidades visuais, estética
        [13] Juridical: Legal, regulatório, governança
        [14] Ethical: Responsabilidade moral, equidade
        [15] Fiducial: Confiança, crença, valores, cosmovisão
    END VALUES
    GUIDELINES
        Classify the factor's primary modal nature using the Dooyeweerd framework.
        The semantic domain of the factor name determines the base classification.

        PRIMARY classification mapping:
        Economic terms -> aspect 11
        Governance/regulation -> aspect 13
        Psychological/trust/attitudes -> aspect 15 or 6
        Environmental/impact/ecology -> aspect 5
        Technical/method/assessment -> aspect 7
        Social/community/participation -> aspect 10

        Critical rule: Semantic meaning > relations > co-occurrence > statistics.
    END GUIDELINES
END FIELD

FIELD confidence TYPE ENUMERATED
    SCOPE ONTOLOGY
    DESCRIPTION Nível de confiança baseado em frequência e fontes
    VALUES
        LOW: Baixa frequência ou fontes limitadas
        MEDIUM: Frequência moderada com suporte razoável
        HIGH: Alta frequência e amplo suporte empírico
    END VALUES
    GUIDELINES
        Assign confidence based on statistical evidence:
        HIGH: frequency > 10 AND sources > 5
        MEDIUM: frequency 5-10 OR sources 3-5
        LOW: frequency < 5 OR sources < 3
    END GUIDELINES
END FIELD

FIELD theoretical_significance TYPE SCALE
    SCOPE ONTOLOGY
    FORMAT [0..5]
    DESCRIPTION Significância teórica do conceito (0=baixa, 5=alta)
    GUIDELINES
        Rate based on frequency, source diversity, and centrality in causal chains.
        0: No theoretical significance identified
        3: Moderate significance, appears in multiple chains across several sources
        5: Core concept, foundational to the theoretical framework
    END GUIDELINES
END FIELD

Composição de tipos e GUIDELINES

Este template usa 7 tipos de campo diferentes em um único projeto: TEXT, QUOTATION, MEMO, CHAIN (com RELATIONS e ARITY), TOPIC, ORDERED (com VALUES indexados), ENUMERATED (com VALUES), e SCALE (com FORMAT). A partir da versão 2.0, cada campo incorpora também um bloco GUIDELINES com as instruções metodológicas que governam o comportamento da IA — o template deixa de ser apenas esquema de dados e passa a ser o playbook completo da análise.

3 As instruções metodológicas no template

A IA não codifica livremente — ela segue instruções metodológicas precisas que governam cada decisão de extração e classificação. Na versão 1.0 do projeto, essas instruções eram fornecidas em prompts externos ao template. Na versão 2.0, foram migradas para dentro do próprio template usando o bloco GUIDELINES, tornando o .synt o repositório único e versionado de toda a metodologia.

Template como playbook metodológico

Com GUIDELINES, o template deixa de ser um esquema de dados e passa a ser um playbook executável: cada campo define não apenas o que guardar, mas como a IA deve decidir o que extrair. As instruções ficam junto à estrutura, versionadas no mesmo arquivo, auditáveis por qualquer colaborador.

3.1 Seleção de excertos

O campo text instrui a IA a extrair apenas unidades semânticas completas (1-3 sentenças) com sujeito, verbo, objeto e qualificadores. Cada excerto potencial recebe uma pontuação de valor analítico antes da extração — apenas pontuações 3-5 são incluídas:

Score 5: Revela mecanismo causal ou caminho multi-etapa (explica como a aceitação funciona)

Score 4: Mostra habilitação/moldagem com mecanismo claro

Score 3: Associação teoricamente significativa (*borderline*)

Score 2: Associação simples sem mecanismo (PULAR)

Score 1: Trivial, óbvio ou redundante (PULAR)

O teste decisivo, inscrito no GUIDELINES do campo: “Does this explain HOW or WHY social acceptance occurs?”

3.2 Controle de granularidade conceitual

O GUIDELINES do campo chain combate a proliferação de conceitos — o maior risco da codificação automatizada — com uma hierarquia de generalização e uma regra de decisão pragmática:

Nível 1 — Conceito nuclear: Acceptance, Deployment, Policy, Trust, Cost

Nível 2 — Conceito qualificado (quando a distinção importa): Public_Acceptance, Community_Trust

Nível 3 — Especificação completa (somente quando Nível 2 perde significado crítico): Offshore_Wind_Acceptance

“Will this specific term appear in 5+ abstracts? Likely 1-2 uses → Generalize to Level 1-2.”

A meta: menos de 150 conceitos únicos ao longo de 450 artigos.

3.3 Separação de caminhos sequenciais e paralelos

O GUIDELINES do campo chain distingue explicitamente os dois padrões estruturais:

Cadeia sequencial (A causa B, que causa C) → um único bloco chain:

chain: Ownership -> ENABLES -> Financing -> ENABLES -> Deployment

Caminhos paralelos (A, B e C independentemente afetam D) → blocos ITEM separados, cada um com seu par note/chain:

chain: Trust -> INFLUENCES -> Acceptance
chain: Cost -> INFLUENCES -> Acceptance
chain: Policy -> INFLUENCES -> Acceptance

Esta distinção é crítica para a qualidade do grafo resultante: caminhos paralelos misturados em uma única cadeia criariam relações espúrias.

3.4 Classificação ontológica

O GUIDELINES dos campos aspect, dimension e confidence instrui a IA a classificar cada conceito extraído seguindo uma hierarquia de prioridade explícita:

Significado semântico do conceito (primário)
Perfil relacional — tipos de relação dominantes (secundário)
Padrões de co-ocorrência — conceitos frequentemente associados (terciário)
Perfil estatístico — frequência e diversidade de fontes (quaternário)
Semântica taxonômica — relações hierárquicas e partitivas (quinternário)

4 Exemplos reais

A seguir, exemplos extraídos diretamente do projeto, mostrando o pipeline completo: fonte → anotação → ontologia.

4.1 SOURCE: metadados epistêmicos

Cada fonte registra não apenas o que o estudo investiga, mas como investiga — modelo epistemológico e método de coleta.

SOURCE @ashworth2019
    description: Comparative study of public attitudes toward CCS and
                 low-carbon energy technologies in Australia and China,
                 examining factors associated with support levels.
    epistemic_model: Social acceptance of energy technologies,
                     comparative public opinion research
    method: Online survey (Australia n=2383, China n=1266)
END SOURCE

O campo epistemic_model permite filtrar resultados por tradição teórica. Ao final da análise, o pesquisador pode perguntar: “As relações causais identificadas por pesquisadores usando Difusão de Inovações diferem das identificadas por quem usa Teoria da Justiça?”

Outro exemplo mostra um estudo com abordagem diferente:

SOURCE @aly2019
    description: Investigates institutional, financial, and technological
                 barriers to large-scale solar power deployment in Tanzania
                 through stakeholder interviews.
    epistemic_model: Stakeholder analysis, barrier identification framework
    method: Semi-structured interviews (30 experts from public institutions,
            research, private sector, civil society, development partners,
            financial institutions)
END SOURCE

4.2 ITEM: cadeias causais com BUNDLE

Cada item contém um excerto e uma ou mais duplas nota/cadeia em BUNDLE. Veja um exemplo com convergência multi-fator — quatro fatores independentes afetam o mesmo resultado:

ITEM @ashworth2019
    text: However, male respondents, those who perceived themselves to
          have higher knowledge of CCS, and those who valued economic
          outcomes over environmental protection were more likely to
          support CCS - as long as the risks were not perceived to
          outweigh the benefits.

    note: *complex* Four-factor convergence (gender, knowledge,
          economic values, risk perception) reveals multi-domain
          determinants requiring integrated communication strategies
    chain: Gender -> INFLUENCES -> CCS_Support

    note: Self-assessed knowledge increases support, revealing
          information deficit mechanism where perceived understanding
          drives acceptance
    chain: Knowledge -> INFLUENCES -> CCS_Support

    note: Economic prioritization over environmental values predicts
          support, indicating value-based acceptance mechanism
    chain: Economic_Value -> INFLUENCES -> CCS_Support

    note: Risk-benefit assessment constrains support, revealing
          conditional acceptance mechanism where perceived risks
          override other positive factors
    chain: Risk_Perception -> CONSTRAINS -> CCS_Support
END ITEM

Observe:

4 pares nota/cadeia para o mesmo excerto — o BUNDLE garante correspondência posicional
A primeira nota recebe a marcação *complex* indicando convergência multi-fator
Três relações são INFLUENCES (efeito causal direto) e uma é CONSTRAINS (limitação) — distinção semântica preservada
Os 4 caminhos são paralelos (cada fator afeta independentemente CCS_Support), então estão em blocos separados dentro do mesmo ITEM

Agora um exemplo de cadeia sequencial — um fator desencadeia outro em cascata:

ITEM @aly2019
    text: Institutional barriers for the diffusion of large-scale solar
          power technologies are found to be predominant, and they often
          trigger financial and technological barriers.

    note: Reveals sequential triggering mechanism where institutional
          barriers activate downstream financial and technological
          constraints
    chain: Institutional_Barrier -> ENABLES -> Financial_Barrier
                                 -> ENABLES -> Technological_Barrier
END ITEM

Aqui, uma única cadeia de 3 conceitos expressa o mecanismo sequencial: barreiras institucionais habilitam (tornam possíveis) barreiras financeiras, que por sua vez habilitam barreiras tecnológicas. A relação ENABLES é usada no sentido de condição necessária — sem a barreira institucional, as demais não se manifestariam.

4.3 ONTOLOGY: classificação multidimensional

Cada conceito mencionado nas cadeias é definido na ontologia com classificação em múltiplas dimensões. Vejamos dois conceitos contrastantes:

4.3.1 Conceito de alta confiança

ONTOLOGY Cost
    topic: Economics
    aspect: 11
    dimension: 2
    confidence: HIGH

    reasoning: Aspect 11: Core economic factor representing financial
               expenditure. Mainly constrains deployment/technology
               development while enabling market penetration when
               reduced. Co-occurs with Deployment and Acceptance,
               indicating market-consumer relevance. Dimension 2:
               Directly affects investors, consumers, and market
               competitiveness. High frequency (96) across broad
               sources (66) confirms central role.

    description: Economic factor representing financial expenditure
                 associated with energy technologies and systems.
                 Acts as primary barrier constraining technology
                 development, site selection, and deployment when
                 high, while enabling market penetration, technology
                 transition, and sustainable solutions when reduced.

    rgt_element_a: Low_Cost
    rgt_element_b: High_Cost
    theoretical_significance: 0
END ONTOLOGY

topic Economics — agrupamento temático emergente (TOPIC, valores abertos)
aspect 11 (Economic) — classificação modal de Dooyeweerd (ORDERED, 16 valores)
dimension 2 (Market_Acceptance) — dimensão de Wüstenhagen (ORDERED, 5 valores)
confidence HIGH — frequência 96, em 66 fontes diferentes (ENUMERATED)
reasoning — justificativa da classificação, incluindo evidência estatística (TEXT)
rgt_element_a/b — construto bipolar: Low_Cost vs High_Cost (TEXT)
theoretical_significance — escala 0-5 (SCALE)

4.3.2 Conceito de baixa confiança

ONTOLOGY Climate_Belief
    topic: Worldview
    aspect: 15
    dimension: 1
    confidence: LOW

    reasoning: Aspect 15 (Fiducial): Climate belief represents
               worldview and conviction about climate change causation.
               Relations show influences on acceptability and support.
               Co-occurs with CCS support and acceptability factors.
               Dimension 1: Affects community-level acceptance of
               technologies like tidal and CCS. Low frequency (2)
               and sources (2) limit robustness.

    description: Climate belief refers to individuals' conviction
                 regarding the existence and anthropogenic causation
                 of climate change. In energy transition contexts,
                 this worldview shapes acceptance of low-carbon
                 technologies, with believers in human-induced
                 climate change showing differential support patterns.

    rgt_element_a: Strong_Climate_Belief
    rgt_element_b: Weak_Climate_Belief
    theoretical_significance: 0
END ONTOLOGY

O contraste é instrutivo:

	Cost	Climate_Belief
confidence	HIGH (96 ocorrências, 66 fontes)	LOW (2 ocorrências, 2 fontes)
aspect	11 Economic	15 Fiducial
dimension	2 Market	1 Community
topic	Economics	Worldview

Cost é um conceito central do corpus — aparece em 66 artigos diferentes. Climate_Belief é periférico — emerge em apenas 2 fontes. Ambos recebem a mesma estrutura de classificação, mas o campo confidence sinaliza ao pesquisador qual merece mais peso na análise.

5 O papel da revisão humana

A IA produz resultados consistentes em escala, mas comete erros sistemáticos que o pesquisador deve corrigir:

Generalização excessiva: a IA tende a simplificar conceitos além do desejável (ex: colapsar Procedural Justice e Distributive Justice em apenas Justice)
Relações imprecisas: a distinção entre ENABLES e INFLUENCES exige julgamento contextual que a IA nem sempre acerta
Conceitos duplicados: variações de grafia (Public Acceptance vs Social Acceptance) podem gerar conceitos ontologicamente distintos que na verdade são o mesmo fenômeno
Excertos truncados: apesar das instruções, a IA ocasionalmente extrai fragmentos que não são auto-suficientes

O Synesis facilita essa revisão porque o template valida estruturalmente os resultados: um conceito mencionado em chain que não existe na ontologia gera erro de compilação; um par nota/cadeia faltante viola o BUNDLE. Esses mecanismos transformam erros silenciosos em falhas explícitas.

A IA codifica, o template valida, o pesquisador decide

O fluxo de trabalho é: a IA gera dados em escala → o compilador Synesis valida a estrutura → o pesquisador revisa o conteúdo. Cada ator faz o que faz melhor.

6 Resumo

Pipeline de codificação assistida por IA
Etapa	Quem faz	O que produz
Seleção do corpus	Pesquisador (bibliometria)	Lista de ~450 artigos relevantes
Design do template	Pesquisador	`.synt` com estrutura analítica, frameworks teóricos e `GUIDELINES` por campo
Codificação	IA (LLM)	`.syn` (anotações) e `.syno` (ontologia)
Validação estrutural	Compilador Synesis	Erros de referência, BUNDLE, ARITY, tipos
Revisão de conteúdo	Pesquisador	Correções de generalização, relações e duplicatas
Exportação	Compilador Synesis	JSON, Neo4j, Excel para análise quantitativa

De prompts externos a GUIDELINES no template

Na versão 1.0 do projeto, “Design dos prompts” era uma etapa separada: as instruções metodológicas existiam em documentos externos e precisavam ser incluídas manualmente em cada chamada ao LLM. Na versão 2.0, essa etapa foi incorporada ao template via GUIDELINES — o .synt passou a ser o repositório único de estrutura e metodologia, versionado junto ao projeto.