Hollosi Information eXchange /HIX/
HIX GURU 7122
Copyright (C) HIX
2019-02-23
Új cikk beküldése (a cikk tartalma az író felelőssége)
Megrendelés Lemondás
1 re:PDF-szerkeszto, -konvertalo (mind)  67 sor     (cikkei)

+ - re:PDF-szerkeszto, -konvertalo (mind) VÁLASZ  Feladó: (cikkei)

>Most kivételesen megkaptam az aktuális GURU-t, csak a két el?z?t nem,
>így csak annyit ismerek az el?zményekb?l, ami az utolsóból kiderül.
>Én régebben használtam OCR-eket és a legjobbnak az Abbyy FIneReader-t
>találtam. Mind a sima nyomtatott, mind a PDF-ket nagyon jól értelmezte.

Az előzmény: Kértem tippeket, hogy mivel lehet sok PDF-et Html-be vagy
egyéb formátumba konvertálni, lehetőleg hibátlanul. Kipróbáltam több
online konvertálót, és letölthető programot, és majdnem mindegyik
elvérzett valamin, legtöbb esetben az ő/Ő karakter okozott nekik problémát.
Jött jó sok információ a PDF mibenlétéről, meg egyebekről, amit nagyon
köszönök. Az Abby Finereader tippet is köszönöm, eszembe sem jutott,
pedig van is egy promotált verzióm, mármint telepítője meg van
valamelyik vinyón, ki fogom próbálni.

>Szerintem a Recognita nyomtatott anyagokból jól dolgozott, de nagyon
>érzékeny volt a szöveg vízszintes elhelyezésére (legalábbis a kezdeti
>verziók). Arra viszont számítani kell, hogy a nyomtatási hibák hibás
>felismerést eredményeztek. Viszont tanítható.
Jaja, anno a legjobb volt, mivel nem nagyon volt ellenfele, a bővíthető
adatbázisának hála a cégnél még kézírás felismerésére fel lett készítve
(számokra),

>Nem, ez szandekos!!! Mesterseges intelligencia oran volt, hogy
>alkothato tokeletes karakterfelismero, de az mindenkepp titkosszolgalati,
>mert akkor te mindent be tudsz digitalizalni hibatlanul.
>Avagy a hibakat szandekosan csinaljak, hogy a maganember nehogy
>tudjon valamit csinalni, meg hogy lassu legyel.

Ez nettó hülyeség. Alapból az OCR egy botegyszerű adatbázis művelet,
a lényeg, hogy legyen jó mintaadatbázis. Más kérdés, hogy fel lehet
készíteni a szoftvert görbe sorok kiegyenesítésére, meg statisztikai
módszerekkel helyesírás alapú korrekciókra, amit végletekig lehet
fokozni, annyira, hogy azt laikus szemmel már mesterséges
intelligenciának lehet nézni, de az akkor is csak statisztika
művelet, még ha szuperszámítógép is kell hozzá.

 >A kérdez? elveszett abban, hogy én celformátumnak szintén PDF-et
>javasoltam, de mehet .txt-be vagy akár .docx-be is, meg a bánat tudja
>hogy még mi a bánatba nem.

Az alap kérdés az volt, hogy adott rengeteg dokumentum (10-20 ezer)
ebből sok PDF formátumú. Ezen PDF döntő többsége úgy készült
hogy valamilyen, jellemzően DOC, vagy TXT formátumból PDF
nyomtatóra lettek küldve. A dokumentumok nagyon régiek, abból
a korból, amikor még sok 16 bites rendszer is volt, pl. 4-es word-al
készült dokumentumok jellemzőek. Ebben a korban a PDF is
újdonság volt, tehát nagyon korai verziókról van szó.
A cél: a dokumentumok okostelefonon történő kényelmes
olvasása. A PDF nem igazán jó, mert a legtöbb megjelenítő
nem tudja tördelni, leszámítva a FOXIT readerjét. Azaz, az A4-re
szabott PDF-eket nagyítani kell, jobbra-balra, fel-le kell scrollozni.
Jó ötletnek tartom html-be konvertálni, mert az minden reader,
böngésző képes a monitoron megfelelően tördelni, nagyítani,
átszabni.
Új információ volt számomra, hogy a PDF több rétegű, van grafikus
rétege, meg karakteres, ezért jött be az OCR téma, köszönöm
az információkat, én csak arra gondoltam, hogy a PDF-et
karakteresen konvertálni valami másba (Html-be)







-- 
Török István ___

AGYKONTROLL ALLAT AUTO AZSIA BUDAPEST CODER DOSZ FELVIDEK FILM FILOZOFIA FORUM GURU HANG HIPHOP HIRDETES HIRMONDO HIXDVD HUDOM HUNGARY JATEK KEP KONYHA KONYV KORNYESZ KUKKER KULTURA LINUX MAGELLAN MAHAL MOBIL MOKA MOZAIK NARANCS NARANCS1 NY NYELV OTTHON OTTHONKA PARA RANDI REJTVENY SCM SPORT SZABAD SZALON TANC TIPP TUDOMANY UK UTAZAS UTLEVEL VITA WEBMESTER WINDOWS